登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 电气工程及其自动化 > 正文

基于决策树算法的RecSys Challenge 2016的设计与实现毕业论文

 2021-06-24 23:55:48  

摘 要

随着大数据时代的来临,互联网企业纷纷试图从大量的用户数据中,挖掘出潜在的商业价值。并且,为保持企业的竞争力,纷纷推出各自的推荐系统为用户提供客制化服务。同时,推荐系统的推荐算法也层出不穷。本文正式在这样的背景下,基于Recsys Challenge 2016的数据集,实现了基于决策树算法的推荐系统,为目标用户预测相关职位。

首先通过对数据集的统计分析,设计了模型的特征属性,并根据算法的特点构建了系统模型。为了得到更好的预测效果,本文在训练集的提取和模型的优化上做了较多的工作。系统根据新老用户的不同,分别提取了不同的训练集,并分别训练两个子模型用于新老用户的预测。实验中,通过对决策树参数调整,并用训练集的一部分样本测试不同参数下模型的精度,从而选出最优的参数。实验最后,应用训练好的模型对目标用户进行了推荐并用准确率、召回率和F1分数三个指标对系统模型进行了评价。实验结果显示,系统可以预测下周用户会操作的相关职位,达到预期效果。Recsys Challenge 2016的数据集较大,经过实验的验证,决策树算法在这样大的数据量下,仍有较快分类预测速度,且分类效果良好。可见,基于决策树算法的推荐模型是一种实用的推荐算法模型。

关键词:推荐系统;推荐算法;决策树;分类模型;数据挖掘

Abstract

With the era of big data coming, more and more internet enterprises are trying to mine the numerous commercial values behind great amount of users’ data. In addition, in order to maintain the competitiveness, many enterprises have introduced their recommendation system to provide users with customized services. In this background, A recommendation system based on decision tree algorithm is implemented, which is used to predict those job posting that the user will interact with, in this paper, based on the data set of Recsys Challenge 2016.

Firstly, the feature attributes of the model are designed by analyzing the data set, and the system model is constructed according to the characteristics of the algorithm. In order to get a better prediction, we do a lot of work on the extraction of the training set and the optimization of the model. According to the difference between the new and regular users, in the system, different training sets are extracted respectively and used to train two sub models for the prediction of target users. In the experiment, we select the optimal parameters by adjusting the parameters of the decision tree and a part of the training set is used to test the accuracy of the model under different parameters. At the end of the experiment, we applied trained model to predict and we have evaluated the system model by three indexes: accuracy rate, recall rate, F1 score. The experimental result show that the system can predict those job postings which user will positively interact with. The decision tree algorithm had a faster classification speed and obtained good classification under such a large amount of data. Experimental verification that the recommendation model based on decision tree algorithm is a practical recommendation model.

Key words: recommendation system; recommendation algorithms; decision tree algorithm; classification model; data mining

目 录

第1章 绪论 1

1.1 推荐系统的研究背景及意义 1

1.2 推荐系统算法的研究现状 4

1.3 RecSys Challenge 2016的背景介绍与题目分析 7

1.4 论文的内容与结构 8

第2章 数据预处理与特征设计 10

2.1 RecSys Challenge 2016原始数据 10

2.2 数据预处理 12

2.3 数据特征提取与设计 13

2.4 本章小结 14

第3章 基于决策树算法的实现 15

3.1 决策树算法的原理 15

3.2 实验模型构建 18

3.3 基于决策树算法的实现过程 19

3.3.1 实验工具介绍 19

3.3.2 实验过程 19

3.3.3 实验结果分析 27

3.4 本章小结 29

第4章 总结与展望 30

4.1 工作总结 30

4.2 工作展望 30

参考文献 32

致谢 34

第1章 绪论

1.1 推荐系统的研究背景及意义

现今,互联网的普及和快速发展,使得信息量呈现爆炸性的增长。大量信息一次性呈现在用户面前,使得用户措手不及。例如,Amazon.com上数以百万千万记的书籍,Youtube上的海量视频,淘宝网上不计其数的商品。对用户而言,面对如此庞大的信息量,根本无法准确且有效率的获得信息。伴随着信息的大幅增长,用户对信息的利用率反而降低,该现象就是信息超载。之后,以Google、Bing、Baidu等为代表的搜索引擎的出现,一定程度上缓解了信息超载问题。但是,搜索引擎得到的结果有重复性,对于任何用户,检索的结果都是相同的,无法实现用户对信息个性化和多元化的要求。因此,个性化推荐系统也就跃然而出了。20世纪90年代,个性化推荐系统的概念由P.resnick和HR.Varian提出来[[1]]。个性化推荐系统的出现,从根本上去解决信息超载的问题。个性化推荐系统迅速被应用于各个领域,例如Amazon的商品推荐,Facebook的好友推荐以及微博的新闻消息推送等。

将个性化推荐系统应用最多的便是互联网企业,其中电子商务表现得最为火热。就电子商务而言,个性化推荐系统的价值体现在,一方面,高质量的个性化推荐系统能与用户建立密切关系,有效提高用户的满意度及忠诚度。尤其在这个更侧重于服务的时代,更好的推荐服务方式,更容易得到用户的青睐,而使用户产生依赖。另一方面,准确的推荐有利于提高商品的转化率,带来更高的经济效益。同时优质推荐系统的覆盖率高,对信息推送全面,不仅包含热门商品,还能根据用户特征推送一些冷门商品,有助于发现潜在的商业价值。因此,对于互联网企业而言,高质量的个性化推荐系统将会成为企业未来发展的核心竞争力。

推荐系统的实质是以用户的特征信息,历史行为等为依据,自动地从海量的信息中搜寻具有相关性的用户群和物品。用某种方式排序,从搜寻结果中选择用户最可能感兴趣的信息,推送给用户。与用户传统的获取信息方式不同的是,传统的信息获取方式需要用户主动搜寻信息,在信息筛选过程中,面对大量的信息用户往往会显得无力。而推荐系统将信息的获取方式变为信息主动推送,用户被动获取。用户无需面对大量的信息,只需要在推送的信息中做选择即可。这使得获取信息的方式变得高效便捷。推荐系统要做的就是对海量的用户行为数据和特征信息进行分析,从中发现用户的习惯偏好,预测用户行为,产生个性化的推荐。同时,根据用户对推送的信息的操作,调整推荐内容与服务方式,实时跟踪用户的兴趣和偏好。

在电子商务领域,被称为“The emperor of recommender systems”的电子商务网站Amazon.com,在个性化推荐系统的应用上做得十分优秀。因为,已存在的推荐算法无法适用于具有几千万规模的用户Amazon上,因此其开发了自己的item-to-item协同过滤算法,该算法适用于海量的数据集,并且可以实时产生高质量的推荐效果[[2]]。Amazon.com在包括主网站页面在内的网页上,将推荐系统作为一种针对性的营销工具。其广泛应用推荐算法为每一个用户建立个性化的系统。Amazon推荐系统由以下几部分组成:具体的推荐内容,用来反应推荐质量推荐结果平均分,推荐理由以及用来帮助用户提高质量的反馈机制。其主要有两种推荐方式,一种是通过整合用户的浏览,点击,购买的等行为为用户推荐相似的商品,如图1.1所示。另一种是,基于任何人的兴趣都不会是孤立的,而是在某个集体中的思想。因此,推荐那些购买或浏览过该商品的其他用户还购买和浏览的其他商品,如图1.2所示。Amazon基于这两种推荐方式的重要的应用就是捆绑销售,通过对商品的捆绑打包,并提供折扣和优惠,提高用户购买率。例如,顾客浏览了相机,那么系统就会推荐电池等商品,并将其打包进行销售。根据VentureBeat的统计,推荐系统帮助Amazon的销售额提高了35%。由此可见,优质推荐系统带来的巨大的商业价值,其通过给每个用户建立个性化购物体验,建立了一个高效的市场营销平台。

图1.1 Amazon推荐界面(1)

图1.2 Amazon推荐界面(2)

个性化推荐系统在视频影音领域同样有着广泛的应用,它帮助用户在海量视频中找出他们感兴趣的视频。美国最大的在线影剧租赁服务商Netflix公司就是该领域成功应用推荐系统的例子。在Netflix的技术博客中提到,推荐系统是他们最有价值的资产之一。2006年,该公司举办了一个旨在预测电影评分的机器学习和数据挖掘比赛——Netflix Prize。比赛中,他们提供100万美金的奖励给成功将已有推荐系统Cinematch的准确率提高10%的队伍。历时3年的比赛,吸引了很多优秀研究人员,各种推荐算法被尝试改进,极大的推动了推荐系统发展,并且,最终获奖的队伍算法作为Netflix推荐引擎的一部分一直被沿用至今。Netflix经过多年的实践发现,尽可能的将个性化集成到推荐系统中,对他们的订阅用户产生巨大的价值。Netflix的推荐系统的功能强大,其对用户场景、视频流行度、可解释性、用户兴趣、新颖性、惊喜度和多样性等方方面都有考虑。推荐结果都是以行的形式呈现,为每一行提供推荐理由,如根据用户最近的观看记录、用户评分和其他交互、用户的口味偏好调查结果等。其推荐方式包括最优10行推荐,基于风格推荐,基于相似性推荐等。Neflix已经在很多场景中使用了个性化推荐服务之后,据统计,他们的视频观看中有75%是与推荐系统有关的。由此可见,个性化推荐系统的重要性以及为什么Netflix将它作为他们的商业核心。

除前面提到的两个例子之外,其实推荐系统已经各个领域中都得到了广泛的应用。在社交领域中,全球第一的社交网站Facebook就是利用分布式推荐系统为用户找到他们感兴趣的页面,事件,游戏或共同好友等。在广告投放中,很多公司采用个性化推荐的方式定向地向潜在用户投放广告,相较于传统的向用户随机投放广告的方式效率有极大提升。Facebook拥有海量用户个人资料,因此在这方面的应用极为成功。在个性化阅读方面,国外的Google Reader以及国内鲜果网等都利用推荐系统为用户找到他们感兴趣的文章或书籍。很显然,个性化推荐系统已经成为各个领域的核心,是领域发展不可或缺的部分。

推荐系统已经到达一个高峰期,这一结论可以从Google学术中有关推荐系统的论文数量可以看出,如图1.3所示。国内外众多知名公司以及团队都一直在致力于推进这一领域的发展。在国外,Amazon、Facebook、Google等巨头公司以及明尼苏达大学、密西根大学、微软研究所等知名团队都在致力于推荐系统的研究并不断改善提高关键技术。从2007年至今,每年ACM都会举行推荐大会Recsys。作为这一领域的顶级会议,每年都会展示推荐系统的新的研究成果以及讨论未来的发展。在国内,同样如此,阿里巴巴、百度、北京百分点公司等都在这领域处于领先地位。其中北京百分点信息科技公司,作为首个国内推荐系统科研公司,从创立以来便一直致力于推荐系统技术和解决方案,现已成中国领先的大数据应用服务商。因此,个性化推荐系统未来一直会是研究热点,必然会有持续的发展与应用。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图