基于机器学习的电影推荐系统设计与开发文献综述
2020-04-14 19:49:27
研究背景以及意义
随着信息时代的来临,如何在大量信息中搜寻、筛选和呈现所需给信息的需求者和提供者均带来不小挑战;另一方面,越来越多数据得不到有效利用,造成了资源浪费,例如占有全球资源量14%的中国数据利用了达不到0.4%,有许多数据信息有待利用和挖掘。
面对信息过载挑战,关于如何有效,只能地检索信息,提升用户体验,提高数据利用率的相关研究越来越多,网络搜索引擎在20世纪90年代投入使用后,称谓浏览者得到信息的有效途径,虽然这项技术发展以及比较成熟,但通用搜索引擎无法跟上信息增长的速度,输入一组关键字后甚至能返回数以亿计的信息,而确实有意义的信息只是占很小一部分。
而推荐系统的出现则有效地解决了这一问题。其利用用户和信息产品间关系的建立,为信息的搜寻与呈现这两方面的问题提供了解决方案。随着互联网带宽增加,视频硬件设备不断升级,越来越多用户可以自由的选择观看电影的时间和地点。使用高效准确的推荐算法,设计合理的电影推荐系统,并使其可以运用于人们日常生活,具有重要意义。
国内外研究现状
推荐系统的概念在上世纪七十年代就曾在Negroponte的文章 REF _Ref1579078 h * MERGEFORMAT [1]中被提及,直到二十世纪末,关于推荐系统的研究才开始被研究人员广泛关注。Xerox PARC研究中心的David Goldberg在1992年,发表的论文中第一次使用了术语“协同过滤(collaborativefiltering)” REF _Ref1579228 h * MERGEFORMAT [2],开启了关于协同过滤的研究。
早期的协同过滤方法主要是基于用户的协同过滤以及基于物品的协同过滤。协同过滤算法虽然简单强大,但是面对日益增长的数据量和移动互联网时代90后甚至00后个性网络用户的新需求,传统协同过滤算法无法学习到用户和项目的深层次信息。随着互联网中图像、文本、标签、时间等越来越多样的多源异构数据能够被感知获取,如何充分利用这些蕴含着用户丰富的行为信息及个性化需求信息的数据,成为推荐系统领域当下的研究热点。
相比而言,国内关于个性化推荐算法的起步较晚,主要关注点包括电子商务,关联规则,协同过滤的改进,web挖掘等方向,邓爱林 REF _Ref1573582 h * MERGEFORMAT [3]等通过在聚类项目中搜索挖掘相似项目提高了系统的实时响应速度;宋淑彩 REF _Ref1579414 h * MERGEFORMAT [4]等利用网页之间的关联性,挖掘关联规则,为浏览者提供个性化推荐以改良网站;国内科研团队也开始重视个性化推荐鼓舞的相关研究,例如阿里云2015年3月启动的天池大数据竞赛,竞赛题目为为穿衣搭配散发和移动电商推荐。
更具体到基于个性化推荐算法所做的电影推荐系统,有两篇硕士学位论文对此进行了研究并给出较为详细的方案,中国科学技术大学的周文乐论文中采用网络信息聚合以及本体知识的推荐方法 REF _Ref1579458 h * MERGEFORMAT [5],提高了推荐方法的准确度;而安徽大学的张月蓉使用了基于内容和协同过滤混合推荐的方法 REF _Ref1579499 h * MERGEFORMAT [6];但两人数据集都较少。浙江工业大学的汤颖采用了基于局部模型的加权融合推荐 REF _Ref1579536 h * MERGEFORMAT [7],对各类用户进行了区分,使得模型考虑局部同时兼顾到了全局。北京信息科技大学的吕学强采用了基于内容和兴趣漂移的模型,提出一种结合影评内容相似度和长短期兴趣模型来计算电影相似度的推荐方法 REF _Ref1579574 h * MERGEFORMAT [8];烽火天地公司的肖青秀采用了基于双层注意力机制的深度学习推荐算法 REF _Ref1579585 h * MERGEFORMAT [9],且效果相较之前有了明显提升;两人论文同年月发表,均使用了word2Vec技术,分别计算基于影评的电影内容相似度和基于电影标题标签的电影相似度。还有像安徽理工大学的陈俊然 REF _Ref1579649 h * MERGEFORMAT [10],西南科技大学的贾忠涛 REF _Ref1579654 h * MERGEFORMAT [11]等等这样的使用协同过滤算法或者简单修改进行设计的不一一列举。天津大学的Zan Wang等则采用了PCA主成分分析和用k-meas聚类优化的基因算法 REF _Ref1579668 h * MERGEFORMAT [12],得出了比基于现有基于聚类算法更好的效果。
目光转向国外,印度理工的RahulKatarya等采用混合模型的电影推荐系统 REF _Ref1579764 h * MERGEFORMAT [13],将k-means和布谷鸟搜索的混合应用到movielen的数据集中;奥斯顿大学的Jin Wei等人使用协同过滤方法与深度学习神经网络的紧耦合 REF _Ref1579775 h * MERGEFORMAT [14],在Netflix电影数据集下得到了非常有效的推荐结果。