基于内容的协同过滤在新闻主题推荐中的应用研究外文翻译资料
2022-11-13 16:07:32
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
第二十九届AAAI人工智能会议记录
基于内容的协同过滤在新闻主题推荐中的应用研究
吕忠琪dagger;, 窦志成lowast;, 连建勋Dagger;,谢星Dagger; 和 杨强dagger;
dagger;香港科技大学, 香港
lowast;中国人民大学, 北京, 中国
Dagger;微软研究所, 北京, 中国
dagger;{zluab, qyang}@cse.ust.hk, lowast;dou@ruc.edu.cn, Dagger;{v-lianji, xing.xie}@microsoft.com
摘要
新闻推荐已经成为主要门户网站留住用户的一大吸引力。两种有效的方法是基于内容的过滤和协同过滤,每一种都服务于特定的推荐场景。基于内容的过滤方法检查推荐项的上下文,而协作过滤方法通过协作学习相关用户的兴趣来预测长期用户的兴趣。实证研究发现,对于新闻主题显示问题,既有丰富的新闻主题语境,也有长期用户。 因此,在本文中,我们提出了一种基于内容的协同过滤方法(CCF),将基于内容的过滤和协同过滤方法结合起来。我们发现将两者结合起来并不容易,但是CCF的益处令人印象深刻。 一方面,CCF根据新闻的丰富背景提出建议。另一方面,CCF合作分析了来自长期用户的稀缺反馈。 我们为Bing首页的新闻主题定制了这种CCF方式,并在吸引用户方面取得了巨大的进步。在本文的部分实验和分析中,我们对Bing在新闻主题推荐方面的性能提升和见解方面进行了讨论。
介绍
新闻主题推荐是雅虎等许多主要门户网站提供的一个重要吸引点,例如Yahoo! (www.yahoo.com), Excite(www.excite.com), MSN (www.msn.com), Bing (www.bing.com) and AOL (www.aol.com). 新闻显示提供了一项重要的服务,可以帮助将用户保持在门户上。 因此,对于这些搜索门户来说,了解用户的兴趣并在正确的时间显示“正确”的新闻是非常重要的。传统上采用专家编辑规则等强力推荐方法(Bobadilla et al. 2013),但由于两大挑战表现不佳。第一个也是传统的挑战是,用户通常更喜欢查看新项目。当一条新闻刚刚出现时,推荐系统可能很难判断用户是否感兴趣,因为话题可能不在用户的浏览历史记录中。一种典型的解决方案是采用基于内容的过滤方法。
lowast;Corresponding author
在过滤过程中,新闻的内容被预先呈现给用户。当用户有足够的新闻阅读记录时,基于内容的过滤方法通常可以很好地执行。第二个主要的挑战是用户很少点击反馈。由于新闻阅读通常不是门户网站的主要功能,即使他们可能对新闻感兴趣,用户也不希望在这些门户网站上看到新闻。 解决这个问题的方法是,总有一些用户会阅读一些新闻,这些用户可以作为预测长期用户兴趣的基础。这种想法推进了了协同过滤方法。
在这两个方面都存在预先提到的挑战时,网络搜索门户开始认识到新闻主题推荐的重要性。我们建议将基于内容的过滤方法和协作过滤方法结合起来用作推荐。 直观地说,这两种方法的关键是找到相似性并隐式地进行集群。基于内容的过滤方法依赖于上下文的相似性并对条目进行聚类,而协作过滤方法则是在用户条目链接中寻找相似性并对链接进行聚类。 困难的是,这两种相似性是在完全不同的尺度下测量的,不能简单地总结出来。
在本文中,我们提出用邻域模型结合这两个相似点。具体来说,从新闻的语境中,我们可以获得条目之间的相似性。在优化阶段,我们通过共同考虑条目之间的相似性来对用户条目链接进行聚类。在我们提出的的模型中,我们结合了基于内容的过滤方法和基于协同过滤方法的优点。我们提出了一个内核来捕获新闻中的上下文信息,然后将该内核集成到一个协作过滤框架中。一方面,该模型试图通过对语境均值的学习来理解新兴新闻;另一方面,通过对用户项链接的相似性进行聚类,可以很好地处理长期用户。
接下来,我们将从相关的工作开始讨论。然后介绍了一些初步的符号标识和框架。我们通过展示一个独特的Bing新闻主题推荐设置来说明其动机,然后提出我们基于内容的协同过滤(CCF)方法,关注前面提到的两个挑战。最后,我们展示了Bing门户上的实验结果,并讨论了我们对该应用程序的见解。
Copyright sect;c 2015, Association for the Advancement of Artificial
Intelligence (www.aaai.org). All rights reserved.
相关研究
本文提出了基于内容的协同过滤为用户推荐新闻。具体来说,我们希望利用新闻的语境和相关用户的兴趣来预测用户的新闻阅读兴趣,从而推荐合适的新闻。该工作主要涉及基于内容的推荐、协同过滤和隐式反馈。
协同过滤是一种通过从多个相关用户(协作)那里收集利益,对用户的利益进行自动预测(过滤)的方法。一些最好的结果是基于矩阵分解技术得到的 (Marlin 2003; Koren, Bell, and Volinsky 2009; Singh and Gordon 2008). 在训练历史记录缺乏的情况下,通常采用协同过滤的方法。
基于内容的过滤 基于内容的推荐系统试图推荐与给定用户过去喜欢的内容类似的项目(Lops, De Gemmis, and Semeraro 2011). 常用的方法是同时表示相同特性空间下的用户和项,然后可以计算用户和条目之间的相似度得分。基于用户对所有条目的相似度评分进行推荐。基于内容的过滤方法通常在用户有大量历史记录可供学习时表现良好,占有优势。
基于CF和内容的过滤的混合 作为混合协同过滤和基于内容过滤的首次尝试,(Basilico and Hofmann 2004) 提出学习用户项对之间的核函数或相似性函数,该函数允许跨用户或项维度同时进行泛化。这种方法在用户条目评价矩阵很密集的情况下效果很好 (如Basilico和Hofmann 2004报告的6%). 但是在目前大多数的推荐系统设置中,数据比较稀疏,会导致该方法的失败。
近年来,在各种推荐集中广泛采用项目内容辅助推荐任务的方法。(San Pedro and Karatzoglou 2014) 提出将监督下的潜在Dirichlet分配模型扩展到协作问答社区的模型专家,并将其应用于问题推荐。(Liu et al. 2014) 提出通过基于LinkedIn中观察到的用户-条目交互的虚拟配置文件来增强条目功能。在我们看来,我们的工作是将丰富上下文作为推荐项检索给用户的先驱。
隐式反馈起源于信息检索领域,相关技术在推荐系统中得到了成功的应用 (Kelly and Teevan 2003; Rendle et al. 2009; Koren 2008; Oard, Kim, and others 1998). 隐式反馈通常是从用户的行为中推断出来的,如浏览项目、将项目标记为喜爱的项目等。直观地说,隐式反馈方法是基于隐式反馈可以用来规范或补充显式训练数据的假设。从这个角度出发,我们的工作为促销活动中的推荐系统提出了一种有效的隐式反馈。
新闻推荐是推荐系统技术又或者是自然语言处理(NLP)技术的应用。作为一项受欢迎的服务和留住用户的重要应用程序,业界在新闻推荐再搜索方面投入了大量的精力(Das et al. 2007; Li et al. 2010). 最初的尝试(Mittermayer and Knolmayer 2006) 是面向NLP的。一些作品(Kompan and Bielikovaacute; 2010) 采用基于内容的方法。一些(Das et al. 2007) 采用了基于协同过滤的方法。
初步
符号标识
在这一节中,我们首先介绍本文中的一些一般符号。该方法的其他具体符号将在后续章节中进一步介绍。我们采用特殊的索引字母来区分用户和条目:对于用户,我们使用u, v;对于新闻条目,我们使用i, j。用户集用U表示,新闻条目集用i表示。 一个评级 rui 表示用户U对新闻条目i的偏好,其中值越大,偏好越强。 用户u在第i项上的观测值,例如(u,i),表示为 rui,预报值是表示为 rcirc;ui. 我们用上标T表示矩阵的传输。
潜在因素模型
潜在因素模型是协同过滤的一种重要方法。潜在因素模型的一个主要优点是解决了数据稀疏问题。我们将重点讨论由用户项偏好矩阵上的奇异值分解(SVD)引起的模型。一个典型的模型将每个用户u 与一个用户因子向量pu 相关联,将每个项目i 与一个项目因子向量 qi. 相关联。给出了预测:
rcirc;ui = bui pTu qi
其中 bui 表示未知估值的基线评级rui:
bui = micro; bu bi
micro; 是总体平均评级, bu 和 bi 表明用户 u 和项 i各自的观测偏差。
邻域模型
邻域模型根据记录的相似用户或相似物品的评级来估计未知的评级。虽然邻居选择可以是面向项目的,也可以是面向用户的,但是在我们的工作中,我们关注的是面向项目的方法。面向用户的方法可以用类似的方法派生。 (Koren 2008),,建议我们模型的潜在因素一个项目 i的邻居 N (theta;, i),基于相似性测量,具体来说, N (theta;, i) 可能是一个邻居选择函数,当他们的相似性测量 theta; 超过一定的界限时,它返回 i 的邻居。
图1:Bing在美国市场的首页,底部用于新闻话题推荐。
预测由如下公式给出,
其中术语定义为一个项目 i 的潜在因素,yj 是另一组描述 i 相邻项目的潜在因素,theta;ij 是测量项目i 和j 之间相似性的插值权重。
图2:新闻话题推荐中不同职位的点击率(CTR)
Bing新闻阅读数据分析
为了做出合适的新闻主题推荐,我们首先在新闻阅读设置中进行数据分析。我们在Bing中抽取了3万名用户作为样本,在5天的时间内随机向他们提供新闻话题推荐,让用户的反馈真实反映用户的喜好,不受显示位置、新闻排名等的影响。从统计数据中,我们发现任何新闻条目的平均点击率(average Click Through Rate, CTR)都为0.007。从经验上看,这表明由于训练数据的稀疏性,所收集的数据可能无法有效构建传统的推荐模型。
新闻话题推荐
Bing搜索和新闻阅读
Bing1在提供网页搜索功能的同时,还在网页底部提供新闻话题推荐。 图1展示了Bing首页的快照。正如我们在快照中看到的,每条新闻都由一些由图片装饰的关键字表示,由人工编辑选择这些关键字作为新闻摘要。点击时,用户将被引导到搜索结果页面,在搜索结果页面中,查询是关于新闻的关键字。
从我们的统计数据来看,超过一半的推荐新闻将在第二天被取代。因此,新闻推面临的一个挑战就是冷启动问题。尽管新闻随时出现,但用户可以通过阅读新闻关键词来了解新闻的简介(或背景)。 这张大图是由搜索结果页面中的文档实例化的。一个合适的推荐系统在推荐的时候也应该考虑到这一点。
1新闻主题推荐功能目前仅在美国市场提供- http://www.bing.com/?mkt=en-us
进一步来说,我们研究了不同位置的CTR。在图1中,我们已经演示了新闻显示的布局。从最左边的新闻条目开始,我们将其位置标记为1,其余位置按顺序标记。然后我们计算每个位置的CTR。统计数据如图2所示。由于每个位置的新闻条目都是随机呈现给用户的,所以每个位置的内容都不应该有偏见。我们发现最左边的位置CTR最高。此外,大多数的点击行为发生在左侧三个位置。这说明Bing的新闻话题推荐存在立场偏向,就像在网络搜索中一样(Craswell et al. 2008)。
基于以上的观察,我们希望将最感兴趣的新闻放在最左边的位置,将不太重要的新闻在其他位置上进行显示。于是为了便于实验和评估,我们在这项工作中将推荐的目标设置为在最左侧向用户推荐最有趣的新闻。
基于内容的协同过滤方法
接下来,描述我们提出的基于丰富文本和协同过滤的新闻主题推荐
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[18334],资料为PDF文档或Word文档,PDF文档可免费转换为Word