一种基于社交标记和时间兴趣演化模型的微博推荐算法外文翻译资料
2023-03-02 15:11:08
一种基于社交标记和时间兴趣演化模型的微博推荐算法
摘要:个性化微博推荐面临用户冷启动问题和主题兴趣演变的挑战。在本文中,我们提出了一种基于时间兴趣演化模型和社会标签预测的协同过滤推荐算法。首先准备三个矩阵来模拟用户,标签和微博之间的关系。然后根据标签的兴趣演化模型优化每个微博的标签分数。另外,为了解决用户冷启动问题,设计了基于社区发现和最大标签投票的社交标签预测算法来为用户提取候选标签。最后,通过将贝叶斯概率积分在候选标签集合上来计算每个用户的标签的联合概率,并且向用户推荐具有最高联合概率的前n个微博。使用新浪微博微博数据集的实验表明,我们的算法在整体和时间性能方面都取得了良好的回忆和精确度。问卷调查证明了当冷启动问题发生时用户对推荐结果的满意度。
关键词:推荐系统,协同过滤,社会标签,兴趣演化模型
Doi:10.1631/Fite.1400368 文件代码:A 中图分类号:TP393
介绍
微博已经成为互联网用户和普通用户与他们的朋友和家人进行交流或表达亲密情感或感受的便捷方式。使用微博也逐渐成为大量用户的习惯,导致互联网虚拟微博社会中信息量呈指数级增长,从而导致检索
Dagger;通讯作者
*项目由中国浙江省自然科学基金(编号LZ12F02004),浙江省新苗人才计划(编号ZX13005002064)和国家自然科学基金(编号81471734)资助
ORCID:袁振明,http://orcid.org/0000-0002-7255-2010
copy;浙江大学和Springer-Verlag柏林海德堡2015
并且识别所需的微博或相关信息非常困难。因此,越来越多的微博服务正在开发专用于推荐用户特定信息的新型引擎(Meng等,2013)。
基于协同过滤(CF)的推荐算法已广泛应用于工业和电子商务,如亚马逊,CDNow和药店。然而,冷启动现象和主题的兴趣演变是CF方法的两个开放性问题。当用户或物品的评级或访问记录太少时,会出现冷启动现象,由于缺乏足够的用户活动线索,导致难以找到类似的情况。同时,随着时间的推移,主题的流行程度随着当前社交热点和用户兴趣的变化而变化
导致难以更准确地建模项目偏好。
面对这些问题,我们在本文中提出了一种基于社会标记和时间兴趣演化模型的CF方法。引入兴趣演化模型以解决利益随时间变化的问题(Jain等,2013)。当用户冷启动问题发生时,我们使用社区发现和最大标签投票来预测用户偏好。我们的工作从用户标签微博张量开始,可以分解为三个矩阵:用户标签矩阵,微博标签矩阵和用户微博矩阵。之后,根据兴趣进化模型调整微博的每个标签的得分。然后根据通常由他们所在社区中的人标记的标签来预测目标用户的优选候选标签。最后,根据候选标签之间的紧密度计算特定用户的每个微博的贝叶斯概率。并且这个微博,以及具有前n个概率的微博被推荐给用户。
相关工作
传统推荐系统主要可以分为三类:基于CF,基于内容和混合推荐系统。CF方法由Goldberg等人提出。(1992),适用于Tapestry系统。有两种类型的基于CF的算法:基于用户(Breese等,1998)和基于项目(Karypis,2001; Sarwar等,2001; Deng等,2003)。基于用户的建议侧重于用户偏好的建模。该方法引入用户相似性度量和加权相似度之和以预测用户的兴趣(Wen et al。,2012)。基于项目的推荐与基于用户的推荐非常相似,基于用户更喜欢与他们感兴趣的项目类似的项目的假设。这样的推荐系统计算特定用户的项目之间的相似性并且可以有效提高建议的准确性和覆盖范围。尽管CF方法在实践中被广泛使用,但它仍然遇到诸如冷启动问题之类的困难。
要克服冷启动问题,内容 -
已经提出了基于推荐的算法来使用项目的内容对项目偏好进行建模(Balabanović和Shoham,1997)。通常,基于内容的算法由三个组成部分组成(Yang和Rim,2014)。第一个组件是内容分析器,它提取项目的内容描述。第二个是个人资料学习者,它通过学习用户关注项目的内容来生成用户的个人资料。例如,相关性反馈算法可用于在网页推荐中生成用户的简档。第三个是过滤组件,通过对用户简档中的项目与候选项目之间的相似性距离进行排序来推荐相关项目(Pazzani和Billsus,2007)。但是,对于基于内容的方法,当表示具有有限低级特征的项目的高级语义时,语义差距仍然是一个问题。
混合推荐算法(Kim et al。,2006; Yu et al。,2006; Koren,2008; Wen et al。,2012)不仅考虑了项目的内容,还考虑了用户的观看历史和他们的兴趣偏好( Koren,2010)。由于微博的特点,微博的建议通常采用混合方法,包括短文,社会创作和时间效果。短文本导致构建单词矢量模型的困难,因为有效信息难以用很少的单词和重复获得,这可以通过社交标记和时间信息部分地解决。
社交注释是提高微博短文本语义理解的重要线索。盖伊等人。(2010)提出了企业社交媒体应用程序内的个性化项目推荐,其在不同数据源(包括博客,书签,社区,Wiki和共享文件)之间收集和聚合。系统使用图形聚类向链接人员推荐项目和标签。陈等人。(2012)基于协作排名提出了建议,同时考虑了Twitter上的三个主要元素:推文主题级别因素,用户社交关系因素和推文质量。
考虑到时间兴趣的演变,Ding和Li(2005)提出了一种时间权重CF算法,它跟踪每个用户的购买历史
并根据用户的购买行为为不同的项目引入个性化的衰减因子。Xing等人。(2007)提出了基于时间的数据权重和项目相似性的数据权重,以自适应地跟踪用户兴趣的变化。Cataldi等人。(2010)定义了新兴术语,并利用可导航的主题图将新兴术语与其他语义相关的关键词连接起来,以检测新兴主题。
形式上,所有k个用户都表示为U = {u1,u2,...,uk}和所有n个微博表示为B = {b1,b2 ,...,bn}。另一组是T = {t0,t1,...,tm},包括所有标签{t1,t2,...,tm}和指标t0 代表阅读的状态。从这三个部分中,生成三模张量Xm,n,k 。根据等式1中的规则,每个元素x用0或1初始化。(1):
但是,大多数研究只关注一项
x 1,
你看过b,
微博的特点方面。融合
t0 ,b ,u
Xm, n, k xt ,b ,u
1,
u标记为tb,
统一框架中的多种因素和
用户的冷启动问题仍然是未解决的问题。
xt ,b ,u(或xt ,b ,u)0,否则。
0
(1)
方法
我们的CF推荐算法的四个阶段如图1所示,包括模型准备,利用兴趣演化模型优化微博的标签,用户的社交标签预测和微博推荐。模型准备可以视为社交微博数据准备。然后,基于标签的建模来优化生成的矩阵,并最终用于基于贝叶斯的推荐。兴趣演化模型在优化过程中起着关键作用,指导算法修改微博的偏好。社交标签预测是用户冷启动问题的解决方案。
模型准备
假设微博数据库由三部分数据组成:社交网络中组织的用户,每个微博的标签和微博。
然后将三模张量分解为三个2D矩阵(图2),其表示用户,标签和微博之间的成对关系。不是使用复数张量因子分解算法,而是通过沿X的每个轴m,n,k进行压缩来简单地形成三个矩阵。
通过沿用户轴对张量的每个元素求和来生成微博标签矩阵Q.它通过标签表示微博偏好。在沿着其他两个轴求和之后,分别生成表示由其标记的标签的用户偏好的用户标签矩阵A和表示由每个用户读取的微博的用户微博矩阵R.
在传统的推荐系统中,许多预测算法,例如基于奇异值分解(SVD)的算法,然后直接在这些稀疏矩阵上进行以填充缺失的元素。考虑到冷启动问题,在预测和推荐之前,我们进行优化
社交网络
兴趣进化模型
社区发现 标签优化
目标用户
用户在他/她的社区中
社交标签预测
候选人
tags 微博
贝叶斯歧视
用户的前N个微博
gp w
图1微博推荐算法概述(省略模型准备)
图2 T. 微布洛 矩阵Q),用户标签 A (b), 广告用户 矩阵R(c)
他
(a
n
g-t
股份公司
矩阵
布洛格
微博的标签使用兴趣进化模型,并通过社交标签预测初始化用户偏好和冷启动问题。
基于兴趣演化模型的标签优化
每个标签的兴趣程度随时间而变化。术语“标签的热量”定义为在特定时间段内标记的标签的数量。标签的热量可以用指数曲线来说明,其中X轴表示天数,Y轴表示标记频率。图3给出了三个标签史蒂夫乔布斯,诺贝尔奖和SNS的兴趣曲线。这些数据来自CADAL数字图书馆,这是中国学术数字联合图书馆的门户网站。大量标签样本显示兴趣曲线的形状接近
150
100
史蒂夫乔布斯诺贝尔奖SNS
<p
剩余内容已隐藏,支付完成后下载完整资料</p
资料编号:[18466],资料为PDF文档或Word文档,PDF文档可免费转换为Word