基于混合协同过滤的个性化推荐方法及应用文献综述
2020-04-15 17:08:32
1.1个性化推荐系统概述
我国信息技术的飞速的发展以及互联网的迅速普及,带来了网络数据的爆炸式增长,同时也给人们带来了一些困扰。对人们来说,在众多信息中找到对自己有用的信息是有一定难度的,即出现了“信息过载”的现象。“信息过载”是指人们由于本身知识水平和认知能力的有限性,无法在复杂海量的互联网信息中快速准确的找到自己需要的信息,以及无法准确理解和使用信息。
为了有效的解决信息过载的问题,逐渐引入了信息过滤机制。信息过滤机制中包括搜索引擎和协同过滤。其中搜索引擎以谷歌为代表,可以让用户自行搜索关键词以找到自己所需要的信息。但是搜索引擎有一定的缺陷,如果用户无法准确描述自己的需求并无法提供准确的关键字时,搜索引擎就无法发挥作用了。另外,根据关键词搜索出来的结果千篇一律,无法满足不同用户在不同背景下的个性化需求。为了改善搜索引擎存在的缺陷,推荐系统便产生了。
和搜索引擎有所不同,推荐系统无需用户提供明确的信息,而是在海量数据挖掘的平台之上,根据用户的历史行为进行兴趣建模,据此提出符合用户要求的信息,从而满足用户的兴趣。个性化推荐系统的应用中也需要解决一些问题,例如如何提高用户粘性,如何在提供推荐服务的同时保护用户隐私以及如何做到多兴趣和多内容的高质量推荐等。
对于个性化推荐系统的研究,最早始于1992年。这一年,Goldberg等人提出了协同过滤算法,基于此建立了首个个性化推荐系统-Tapestry邮件过滤系统,该系统在一定程度上解决了邮件信息过载的问题。1995年卡耐基.梅隆大学的RobertArmstrong等人在美国人工智能协会上提出了个性化导航系统Web Watcher;斯坦福大学的MarkoBalabanovic等人在同一会议上推出了个性化推荐系统LIRA。2001年,亚马逊将推荐系统应用到其网站之中,主要是个性化商品推荐列表和相关商品推荐列表;同年,我国南京大学研发了个性化信息检索智能系统DOLTRL-Agent。2007年,谷歌为Adwords添加了个性元素,对用户近期的搜索历史进行记录和分析,据此了解用户的喜好和需求,更为精确地呈现相关的广告内容。2008年,淘宝网推出了个性化推荐系统,可帮助用户在大量的商品中找到符合自己偏好的商品。2011年,百度也开始逐步实现个性化推荐,为用户带来更加智能的浏览体验。目前,几乎所有的电子商务网站都建立了自己的个性化推荐系统,并能够为用户提供更加个性化的智能服务,这种行为也给企业带来了一定的经济效益。
1.2基于协同过滤的推荐算法
在推荐系统的研究中,个性化推荐技术是核心,其中包括基于关联规则的推荐算法、基于内容的推荐算法以及基于协同过滤的推荐算法,本文主要研究基于协同过滤的推荐算法。早在1992年,Goldberg等人就提出了协同过滤算法。协同过滤算法是指通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。
协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIvefiltering),和基于项目的协同过滤算法(item-based collaborative filtering)。基于用户的协同过滤算法依据目标用户的类似用户对项目的评分来预测目标用户对该项目是否感兴趣,而基于项目的协同过滤算法则对未评分目标项目的相似项目进行评分,从而预测目标用户对未评分项目的评分。两种推荐算法都有自身的缺陷,则需要对传统的推荐算法进行算法改进。时念云等人提出了融合多元信任机制的协同过滤算法,合理量化了影响信任的相关因素并建立以及优化多元信任模型,用信任度取代相似度,从而产生目标用户最近邻,再据此进行推荐,该算法可以在一定程度上提高推荐质量。黄典提出了基于项目的协同过滤推荐算法的改进,提出融合差异度和时间函数的推荐算法,改善了数据稀疏问题。周超等人提出了基于用户和项目双向聚类的协同过滤推荐算法,旨在解决传统协同过滤算法中的数据稀缺性问题。本文主要研究改进的基于用户-项目的协同过滤推荐算法,以及其在实际中的应用。
1.3研究目的及意义
本文旨在了解传统的协同过滤算法以及混合的协同过滤算法,提出改进的混合协同过滤算法,同时以MovieLens的数据集为例,利用改进的混合协同过滤算法进行分析,得出分析结果,将之与传统的协同过滤算法计算的结果进行对比,探索改进的混合协同过滤算法是否能够提高推荐质量,解决传统推荐中多兴趣和多内容方面的问题以及改进算法是否有效。