虚假信息对Collaborative Filtering算法的影响和过滤开题报告
2022-01-16 20:11:34
全文总字数:2200字
1. 研究目的与意义及国内外研究现状
随着网络的普及,网络资源不断丰富,网络信息不断膨胀。用户要在众多的选择中挑选出自己真正需求的信息好比大海捞针,还伴随者一些虚假的信息来干扰用户,出现了所谓的“信息过载”和“虚假信息”的现象,。信息过载是指社会信息超过了个人或系统所能接受、处理或有效利用的范围,并导致故障的状况。虚假信息是指不真实的、有着很大负面影响的信息。在真实的网络中, 不可避免地是一些虚拟的、冗余的信息,这些信息会影响推荐系统的精度。例如,在电子商务网站上有一些不负责任的用户 在系统中随意选择,从而误导推荐系统。更糟糕的情况是,在互联网上,一些公司可能会使用“互联网水军”来发布虚假的信息误导用户。例如,网络水军可能会被雇来发表对一部糟糕电影的好评,从而误导推荐系统,错误地认为这部电影很受欢迎。 并推荐给真正的用户。这些问题在许多电子商务网站上日益猖獗,给推荐系统带来了巨大的挑战。面对大量信息的同时,过滤掉虚假的信息得到真正需要的真实信息,这是研究此算法的目的及意义。
国内外研究现状
在过去的几十年里,用户对项目或服务的评论信息为社交网络中的其他用户提供了重要的参考信息。然而,有大量的水军 混合到系统中,大量的虚假信息被发布,在很大程度上误导了用户。因此许多检测方法也被开发出来,通过使用评审员行为、文本相似性和评分模式,这些方法被设计用来识别来自在线系统的垃圾邮件发送者。在电子邮件系统中,有两种 识别和过滤垃圾邮件发送者的方法:一是为每个用户维护一份白名单和黑名单,并通过识别邮件发件人的身份来识别垃圾邮件发送者,另一种是分析电子邮件的内容,并通过邮件中的关键词过滤垃圾邮件。还有一种基于dns的垃圾邮件过滤技术,它通过维护列表来过滤垃圾邮件发送者。 影视行业存在电影实际价值与评分有差异,这是因为网络上存在雇佣水军这种职业,他们被雇佣来刷取不对应的评分,误导未观影的影众。针对这种现象国内也有过滤方法,一种识别账号的等级和在线时间来剔除掉一部分水军,另一种是针对评分的算法,例如豆瓣的算法得分(S)=(5X1 4X2 3X3 2X4 1X5)*2。由于豆瓣上的用户在打分的时候加入了很多情绪化的因素。常常有打分两极分化的情况出现。豆瓣上之所以不少评分泾渭分明,在很大程度上,是和其五级简单打分制度相关的。其评分制度够简单,用户就越容易走极端。豆瓣上的评分很侧重情绪分,很能够代表豆瓣群体的判断,而不是所谓的”伪客观“。时光网采用最简单的平均分算法,同时使用不同于豆瓣的十分制。 这种算法毋庸置疑,提高平均分数,更多用户会选择中间段的分数进行打分,相对中庸的七八分明显增多。而因为用户中庸模棱两可的想法,更没有起到真是反应分数的作用。十分制会增加用户的认知成本,有十个选择出现的时候,用户会花更多时间考虑自己要如何打分,也降低用户参与度。 二者共同的地方在于,在评分早期遭受水军袭击后,不管是刷高分还是刷低分,都会很快的在评分上显示出来,于是造成了评分与实际质量的巨大差距,并可能对用户有极大的误导和跟风作用。所以推出了贝叶斯算法用公式来表达一下这个算法: 得分=(票数(票数 基准票数))均分 (基准票数(票数 基准票数))总均分 其实这公式只有一个目的,让得分偏向平均分一些,如果投票越多,它的评分就越接近真实的平均分。否则就越接近所有游戏电影的平均分。其难点在于如何选择基准票数,并使得各个片子适当的拉开差距。 但只是缓兵之计,没有真正的过滤出有价值的评价。
2. 研究的基本内容
1.研究目标
理解collaborative filtering推荐算法的工作原理,在此基础上改进算法达到更好的推荐准确性和多样性。
2研究内容
3. 实施方案、进度安排及预期效果
实施方案
1. 了解电影软件评分算法
2. 分析各个电影软件评分算法
4. 参考文献
【1】连亚琴.ct射束硬化校正算法研究[d].太原:中北大学,2009
【2】张学松,赵柏山.基于radon变换的ct图像杯状伪影矫正[j].ct理论与应用研究,2016
【3】田俊峰,蔡红云.托攻击与推荐系统安全[j].河北:河北大学,2018