关于社交网络和协作推荐外文翻译资料
2023-02-26 21:06:22
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
关于社交网络和协作推荐
Ioannis Konstas
格拉斯哥计算机科学大学教授
英国,G12 8QQ konstas@dcs.gla.ac.uk
Vassilios Stathopoulos
格拉斯哥计算机科学大学教授
英国,G12 8QQ stathv@dcs.gla.ac.uk
Joemon M穆
格拉斯哥计算机科学大学教授
英国,G12 8QQ jj@dcs.gla.ac.uk
摘要
社交网络系统,比如last.fm在Web 2.0中扮演着重要的角色。包含大量多媒体丰富的数据,这些数据通过显式的用户提供的注释和隐式的聚合反馈来增强,这些反馈描述了每个用户的个人偏好。这些系统的一个共同趋势是,通过允许用户建立友谊纽带,鼓励用户建立虚拟网络,从而为数据交换提供新的和直接的媒介。
我们研究这些额外的关系在开发轨道推荐系统中的作用。考虑到在用户、项目和标签之间建立的社交图中所固有的社交注释和友谊,我们创建了一个协作推荐系统,该系统能够有效地适应每个用户的个人信息需求。我们采用带重启的随机游走的通用框架,以提供一种更自然、更有效的方式来表示社交网络。
在这个作品中,我们最后收集了一个具有代表性的足够的音乐社交网络的一部分last.fm,捕捉明确表达的用户友谊纽带以及社会标签。我们对带有重启模型的随机游动和基于皮尔逊相关相似度的用户协同过滤方法进行了一系列的比较实验。结果表明,图模型系统从社会知识中嵌入的附加信息中获益。此外,图数据模型的性能优于标准的协同过滤方法。
类别和主题描述符
H.3.3【信息存储与检索】:信息检索与检索—信息过滤、检索模型、选择过程; I.5.1 【计算方法】:模式识别模型
.
一般条款
算法,实验,测量,性能
1.介绍
随着最近科技的进步,社交媒体和社交网络系统出现了。从社会学家的角度来看,社会媒体可以被描述为“通过计算机介导的集体行动产生的集体物品”。如多媒体丰富了社交网络系统,如last.fm,集体物品是音乐的轨迹,集体行动是创造个人音乐偏好的过程,并将它们明确地联系起来,通过友谊的纽带,或者含蓄地,通过合作的注释。
这种集体行动导致了一种隐含的社交网络结构的创建,我们的目标是进一步探索。特别是考虑到商品推荐系统在诸如Amazon.com和Netflix等商业网站上的成功,我们认为有必要通过新颖的社交网络视角来重新审视推荐问题。一般来说,推荐系统的目标是根据用户以前的行为,以及通过商品描述和用户资料收集的其他信息,向用户提供个性化的商品推荐。然而,目前还没有人强调基于社交网络的个性化。
原因在于,尽管人们对探索社交网络的兴趣日益浓厚,但并没有一个具体的数据集,既包括用户之间明确的友谊纽带,也包括对条目的自由协作注释。这是因为大多数社交媒体系统不允许免费访问所有用户的个人资料或好友列表。
鉴于社交网络的广泛采用的激励机制,缺乏一些先前的研究,直接地址的问题有效地整合这些网络提供的附加值的知识领域的合作建议,我们提出一个新的方法,解决上述问题。在这方面,我们作出以下贡献:
bull;我们介绍了一个基于上一个数据集的数据集。描述用户、跟踪和标记之间的社交图的last.fm社交网络,有效地包括友谊纽带和协作注释。
bull;我们使用Restarts Walk with Restarts (RWR)模型对该数据集的随机游走进行了评估,结果表明,将友谊和社会标记结合起来可以提高项目推荐系统的性能。
bull;我们展示了RWR方法优于标准协同过滤(CF)方法,我们也对相同的数据集进行了评估。
bull;我们证明了使用RWR方法的方法不需要任何培训,并且成功地捕获了社交网络中的知识。
论文的其余部分组织如下。在第二节中,我们回顾了相关的工作,并为本研究中使用的RWR和CF方法提供了必要的背景知识。所采用的方法,包括我们从被研究的社交网络中收集数据的方式、评估协议和进行的比较实验,都包含在第3节和第4节中。在第5节中,我们分析了实验结果,并在第6节和第7节中总结了我们的工作。
2.相关工作
2.1合作建议
我们可以将协同推荐系统分为两大类,即基于内容和协同过滤。基于内容的系统根据项目内容之间的相关性来选择项目(例如,描述项目的关键字,如专辑类型、艺术家等。和用户的偏好[6]。但是,它仅限于用户使用的关键字与项目描述之间的字典约束关系,因此不探讨用户之间的隐式关联。
协同过滤系统分为两类:基于内存和基于模型。在基于内存的系统[9]中,我们计算所有用户之间的相似度,根据他们对项目的评分,使用一些启发式度量,如余弦相似度或皮尔森相关评分。然后,我们通过聚合我们想要推荐给的用户的k个近邻的评级来预测缺失率。基于内存的系统的问题是,我们必须在一个相当任意的基础上决定参数,比如邻居的数量。更重要的是,在社交网络的情况下,没有直接的方法来介绍基于友谊和社会标签的用户之间的相似性,除了从这些不同的来源临时插值相似权值的方法。
基于模型的过滤系统假设用户根据他们对项目的相似行为建立集群。使用集群、贝叶斯网络和其他机器学习技术,根据用户评级行为中识别的模式来学习模型 [1,21]。基于模型的方法的问题在于,有必要对模型的几个参数进行微调,同时,所生成的模型可能在完全不同的上下文中不能很好地概括。更重要的是,在基于记忆的系统中,为了从社交网络中引入知识,需要额外的努力和培训。
2.2社会媒体
最近许多研究出版物都围绕着社交媒体领域。特别是,有几项研究侧重于从社交网络收集和分析数据集。Das et al.[5] 提出了基于样本的捕获算法
利用随机游动的动态社会网络中用户的邻域信息。Halpin et al.[8] 研究标签在社会化书签网站del.icio中的分布。为了评估协同推荐行为下的动态,我们提出了一个协同标签生成模型。他们的发现证明了所收集的数据集遵循幂律分布。尽管这两项研究都考察了基于社交标签的社交网络,但它们并没有探究用户之间友谊的动态。
考虑到用户(而非作者/所有者)自由标记条目的力量,研究人员还关注标记推荐。Subramanya和Liu[17]提出了一个自动推荐博客标签的系统,使用类似于协同过滤技术的相似度排序。Stromhaier [16] 研究了标签推荐中的一个新思想,它将用户在查询中发出的关键字与社会系统实际使用的标签之间的差距连接起来。他认为,用户在执行查询时使用的标记显示了他或她的意图,而条目的注释描述了内容语义。因此,他提出了一种新的目的标签形式,它提取了用户的意图,并促进了社交网络中以目标为导向的搜索。这两项研究都强调了社会标签的重要性和区分能力,我们的工作也证实了这一点。
2.3随机漫步
在二部图上应用随机游动的领域存在着一些研究。为了执行项目推荐,Craswell和Szummer[4] 研究了一个点击通过数据图。然而,用户之间没有可用的社交内容。Yildirim和Krishnamoorthy[21]提出了一种新的推荐算法,该算法在表示项目之间相似性度量的图上执行随机游走。他们使用MovieLens的数据来评估他们的系统。尽管随机游走模型的使用在推荐上下文中表现良好,但它们对项-项相似性矩阵的使用引发了一些问题,即当基于社会标记引入其他相似性时,系统扩展的能力如何。
最近在应用社会图上的随机游动代替二分图方面也做了一些工作,类似于我们在本文中提出的。Clements et al.[3] 提出了一个术语查询系统,它可以对用户、项和标记等图形执行随机遍历。他们使用来自LibraryThing的数据,这是一个在线图书目录,用户可以在上面对他们读过的书进行评分和标记。由于缺乏基本事实,他们假设每个用户分配给一个项目的标记与他们用来检索带注释的项目的查询术语相同。我们认为,这种假设是相当强的,为了正确地建立地面真理,用户实验将是更合适的。
Hotho et al. [10]在del.icio的数据集上评估调整后的PageRank的变化。我们正在探索基于协作注释的书签大众分类法。然而,由于他们是根据经验来评估他们提出的算法,因此任何对他们的结果进行比较的尝试都会变得很麻烦。虽然这两项研究都与我们的方法接近,但我们使用了不同的模型,即RWR,在该模型中,我们明确地将友谊包含在数据集中,并执行协作建议,而不是在图上执行查询。
2.4背景 2.4.1协同过滤
在传统的协同系统中,用户以评分的形式明确地对项目进行偏好判断。这些评级通常是有界的和离散的。过去的用户评分然后被用来预测对尚未评分的项目的偏好。根据过去偏好判断的使用方式,基于记忆的协同过滤系统可分为基于用户的系统和基于项目的系统。
基于用户的系统通过首先找到与活跃用户评级相似的用户来进行新的预测(预测用户对新项的偏好的用户),然后对它们的评级进行加权组合。更正式的说法是,让a成为活跃用户,然后i上一个不被a评分的项。则a对i的预测评级为
(1)
其中ru,i是用户u对项目 i的评分,rmacr;a和 rmacr;u是用户a和u的平均评分,而wa,u是用户a和u之间的相似度权重。
另一方面,基于项目的系统预测是通过寻找相似的评级项目,然后计算它们评级的加权组合来实现的。换句话说
(2)
其中rmacr;i 就是项目i的平均等级,而wi,k 就是项目i和k之间的相似度权重。 基于项目的系统背后的主要动机是在计算项目-项目相似矩阵时的计算节省。在现实世界中,商业应用程序项往往比用户项少得多。在我们的研究中,音轨明显多于用户,因此我们考虑基于用户的方法。
要计算用户或项目之间的相似性,可以使用几个相似性度量。最受欢迎的、在这项研究中, 是(3)中定义的Pearson相关分数, 其中sigma;a为用户a评级的标准差。
(3)
之前在[9]中有报道称,根据两个用户共同评定的条目的数量来惩罚相关值可以提高预测的准确性。这种方法降低了从很少的证据来源获得的相关分数的可信度。在本研究中,我们使用了在[9]中提出的显著性加权方法。更具体地说,如果两个用户之间的共同评级项数n小于thershold的曲目数Tr,那么我们将它们的相似度权重乘以Tnr。在文献中,为了性能和准确性,只使用一部分用户进行预测也是很常见的。通常通过设置相似度权重的阈值或选择k个相关性最强的用户来进行选择。在我们的实验中,我们使用后一种方法。
在我们的数据中,我们没有以评分的形式进行明确的偏好判断。相反,我们使用用户听曲目的次数(播放次数)作为一个隐含的偏好指示。这与Morita和Shinoda[12]花在阅读Usenet文章上的时间类似
被用作一个隐含的偏好指标。此外,为了整合来自用户社交互动和标签的信息,我们采用了以下特别的程序。我们使用Pearson相关系数分别计算了基于用户播放次数、用户标签和用户友谊的三个相似度权重,然后用它们的加权和代替方程(3)中的wa,u 。 更具体地说,
(4)
在alpha; beta; gamma;= 1和wa,u, wa,u , wa,u制品相似
分别从用户轨迹、用户友谊和用户标签中获取权重。所述的CF方法将作为我们研究的基线系统。
2.4.2随机漫步与重启
图是数据的自然表示,具有一些固有的关系结构。在图中,对象及其关系可以分别表示为节点和加权边缘,其中权值表示关系的强度。这种抽象允许我们以一种有原则的方式集成异构数据源。
利用随机重启动(RWR)理论[11]可以实现对图中两个节点的关联度的测量。从一个节点x开始,每一步随机跟随一个到另一个节点的链接来执行RWR。此外,每一步都有一个概率a在x处重新开始。设p(t)为列向量,其中pi(t)表示第t步的随机游走在节点i处的概率。 q是一个由0组成的列向量,起始节点对应的元素设为1,即qx = 1。 设为图的列标准化邻接矩阵。换句话说,S是一个转移概率表,它的元素给出了j是下一个状态的概率,前提是当前状态是i。 通过递归应用(5)可以得到每个节点的平稳或稳态概率。直到收敛,
(5)
平稳概率给我们每个节点的长期访问率给定一个特定的开始节点的偏差。
因此,pi,其中l是收敛后的状态,可以
被认为是节点x和i之间的亲缘关系的度量。
重启动随机游动近年来在信息检索的许多不同领域引起了研究者的兴趣,从链接分析[13]到图像标注检索[14,19],文本分类[20],点击数据分析[4],协同推荐[7]。
在本研究中,我们的目标是研究社交网络和社交标签在协同推荐中的作用,使用的数据来自last.fm的社交网络服务。RWR允许我们直接预测用户对数据库中特定歌曲的偏好,不仅考虑他们的音乐品味,还考虑他们的标签行为、社交网络以及类似
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[234081],资料为PDF文档或Word文档,PDF文档可免费转换为Word