利用集成本体和模糊理论表示推荐系统的用户可信度外文翻译资料
2022-12-02 19:22:53
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
利用集成本体和模糊理论表示推荐系统的用户可信度
摘要:推荐系统能够帮助用户获取相关的信息。在文献中我们能找到各种生成个性化推荐的方法,所有的方法都利用不同的用户和项目的特征。本文中建立精准的模型发挥了重要的作用,建立的模型是否能够表示用户的喜好在很大程度上决定了系统的成功与否。本体能够很好地描述用户模型。在本文中,我们开发了一个本体,用来描述使用模糊语句模型的用户的可信度,这样在推荐生成过程中我们不用考虑有相似评级历史的用户,而是考虑互相信任的用户。我们提出了本体论并且提供了一种方法,这种方法聚合了在信任本体中捕获的信任信息,而且更新了基于反馈的用户模型。
关键词:推荐系统;本体;用户模型;模糊语句模型;基于系统的信任网络
- 简介
推荐系统是用来挖掘对用户有价值的信息项(电影,音乐,书籍,新闻,图片,网页,论文等等)的系统。推荐系统能够提供个性化服务是因为它们有一个独立的模型,能够为每个用户考虑各自的特征。这种系统在电子商务网站中成为十分流行的工具,它们能够减少信息过载并且提高转换效率。这种个性化推荐的交互,要求一些关于每个用户的可用信息,比如用户浏览和购买记录的评级。另外需要考虑的方面是系统还要求什么附加信息,如何处理和管理这些信息来生成一个个性化的推荐列表。最常用的推荐方法之一是协同过滤技术,这个技术就是利用用户提供的评级进行建模,查找其他拥有类似模型的用户,对特定用户生成推荐。
这种方法主要的一个缺点就是需要大量的评级来实现良好的性能,这一点通常很难实现因为用户一般只提供几个评级。因此,协同过滤方法不可行,因为要计算用户之间的相似度很困难。因此,提出了一些改进措施,其中一个可信的方向便是集中于在在线社交网络中扮演重要角色的“信任度”,这一指标如今非常流行和普及。信任网络是用户可以互相指定信任分数的社交网络。在文献中,我们能够找到一些关于公司推荐系统的信任模型的提案。在这些系统中,推荐引擎在用户中使用一种方式或另一种信任网络。实现成功结果的一个关键方面是精确地存储信任网络。由于在类似场景中已经证明可行,因此我们提出使用本体作为一个有效的方式来表示和利用信息,尤其是信任网络。
本体非常适合用来建模世界的各个层面。在过去的十年中,本体论在推荐系统领域越来越多地被使用。在协同过滤技术中,本体主要是用来根据知识架构分析用户行为,建立用户模型。甚至有些提案包括模糊逻辑本体论包含一些不确定性。同样的,模糊本体论已经用来表示用户模型,我们认为它们适合从信任网络中提取出来,用于用户间的信任建模。
我们提出了一种将这些方法结合起来的改进推荐技术,即将信任网络与信任传播机制结合起来,并且利用到基于本体的用户模型。我们所提出的新型推荐系统主要的创新点有:
- 我们定义一个本体,这个本体用来表示用户之间根据他们的经历所评估出来的信任等级。为了在管理信息的时候保持最大限度的灵活性,我们结合了一种多颗粒模糊语句模型法,它能够表示各种拥有不同语句标签集的系统。
- 我们使用领域本体来建立用户和他们偏好之间的关系。
- 我们提出一个方法来评估两名用户之间的信任分数,因为信任网络非常庞大,绝大多数用户并不认识彼此。
- 我们提出了一种基于信任用户的推荐方法,也就是说,我们不是基于相似用户评级历史来进行推荐,而是基于彼此信任的用户来实现推荐。
本文结构如下。第二部分是绪论。第三部分是描述我们提出的方法,包括对这个系统的评价。最终的第五部分是总结以及展望。
- 绪论
2.1推荐系统
推荐系统能够引导用户在面对众多的选项时候,用一种个性化的方式进行适合的筛选。个性化推荐首先要明确用户的特征、品位、偏好以及历史评价。系统要实现优秀的推荐,必须包含用户资料的更新,获取这种信息的方式可能与获取隐式信息截然不同。也就是说,这种方式是通过分析用户的行为,或者是用户直接提供他们的偏好的明确信息来获取数据。
设计推荐系统必须考虑的一个方面是生成推荐的方式。在文献中我们发现主要分成两种类别。第一种包含两种方式:一种是基于内容的系统,它是利用用户提供的项目和评价来生成推荐;另一种是协同过滤系统,它是利用用户的显式或隐式偏好来生成推荐,除去了项目表示。第二种有三个扩展方式:人口统计系统,基于知识的系统以及基于用途的系统。
由于每种方式都有利有弊,基于范围设置,文献中采纳的方法是将上述方式结合起来,即混合推荐系统。混合推荐系统的目的是将每种方式取长补短。
2.2模糊语句方法
模糊语句方式是一种由Zadeh提出的基于语言变量概念的工具。这一理论很好地利用率模型定性信息,而且能有效地解决许多问题。为了表示系统的语句信息,我们提出二元模糊语句模型和多颗粒模糊语句方式。
2.2.1二元模糊语句方法
为了减少例如古典或者顺序方法的信息损失,[16]提出了一种基于二元模糊语句模型的连续信息表示模型。为了定义它,必须建立用来表示和聚合语句信息的二元表示模型和二元计算模型。
是一个带有奇数个基数的语句术语集。我们假设标签语义是由三角隶属函数赋予的,并且考虑所有条件分布在全序定义的规模。在这个模糊语言语境,如果一个聚合语言信息的符号方法包含一个值,并且,我们能将表示成一个二元组,表示语言标签,是一个表示数值与二元组互相转换的值:并且[16]。
为了建立计算模型的逻辑非,需要定义比较和聚合操作符。使用函数和,任何现有的聚合操作符可以很容易地扩展来处理语言二元组,同时不缺失信息。例如算术平均值,就利用了加权平均算子和语言加权平均算子。
2.2.2多颗粒式语言信息法
当不同专家对一现象有不同的不确定度时,就会出现有问题的建模信息,那么则必须建立具有不同不确定性的粒度的几个语言术语集。当一个专家评估不同的概念时,使用不同的标签集来获取信息也是很有必要的。在这种情况下,我们需要工具来管理多颗粒式语言信息[17]。
[17]提出了一种基于语言层次结构的多颗粒式二元模糊语句建模。语言层次结构,是一个层次集合,每个层次都是一个有不同颗粒度的语句术语集合。[17]介绍了一组不同层次的标签转换函数。为了建立可计算模型,我们选择了一个用来同一信息的层次,从而我们能够使用二元模型中已经定义好的操作符。这个结果保证水平的语言层次结构之间的转换没有损失信息。
2.3本体
Agarwal[18]说道:“本体是一个共享的理解域之间约定数量的协议等,有助于准确和有效沟通,从而有内部可操作性,再利用和共享等优点。”这种知识表示模型给网页中无结构的数据提供了一个语义结构和含义。由于它们广泛的运用,如今我们能够找到许多关联本体的服务、方法以及语言。更重要的是,用户能够使用许多本体的资源。
本体在推荐系统中已经扮演了一个相关的角色。本体在基于内容和表示用户模型中都得到了广泛的使用,因为它们提供了与语义无关的通用词汇。推荐系统使用本体来扩展在本体中标识的用户兴趣项目。总之,大部分涉及领域本体的推荐系统都使用它们来测量用户对于项目的喜好程度。
推荐系统中模糊本体的使用正在成为一个重要的研究课题。模糊本体是一个概念(类)、关系和理论集合,每个关系都是由不确定的程度进行测量的。我们能够找到一些规范定义的模糊本体、模糊关系和模糊推导过程[8]。本文中我们也使用本体处理模糊知识。
2.4信任网络
信任网络是一种用户能够明确表达对另一用户信任程度的社交网络。在实际的信息社会中,这种网络是非常巨大的,因此,许多用户甚至都不认识其他用户。因此,我们需要一种方法来评估两名用户间的信任等级。思路是寻找两名用户之间的一条路径,然后传播在这条路径上捕获的信任等级。但是,两名用户间通常有多条路径,所以我们要选择最相关的、最聚合的信任等级进入信任等级评估。由于计算的复杂度,加上为了避免信息缺失和为了选择最相关的路径,我们必须要限制路径长度。将上限表示为,的值通常为2或3。
要聚合路径上传播的信任等级,有几种方案。一些方法基于序加权平均(OWA)运算符[26]。为了解决多数引导的OWA操作符的问题,[27]作者提出了一种多数引导诱发OWA(IOWA)操作符[28]。在这种情况下,被聚合的值集合的重排不是由自己触发的(比如OWA操作符)[28],这种重排是由一个变量触发的。
使用的[29]的操作符是由多数引导语句IOWA操作符定义的,MLIOWA,我们在系统中使用这种操作符,因为它能够与语言信息一起运行,并且利用多数引导解决之前的问题。它的定义式如下:
with
这样:
- 中的是集合中第i个最小值。
- ,是的整体支持,获取方式如下:
,是一个二进制函数,表示从支持或者是两个值的相似度。
- 是一个语言量词,表示多数聚合的模糊概念。用来计算权重向量,,,,并且:
(1)
表示代表的多数程度。
关于变量诱导的重新排序设置值的聚合,选择了每条路径的用户全局可信度。为了计算用户的全局可信度,我们使用PageRank[30],它是使用最广泛的全局信任度量之一。
- 思路描述
这一部分我们提出了一个基于信任度与本体的推荐系统,使用多颗粒式语言模型。为了表示系统评估的不同概念,我们使用从LH[17]中挑选的不同的标签集。系统使用如下概念:
- 一名用户的信任度与另一名用户有关,用表示。
- 关于领域本体中使用的每个类别的项目范围的隶属程度,用表示。
- 预测用户的项目相关度,用表示。
- 用户对推荐项目的满意度,用表示。
LH由如下语言术语集组成:
第二层用来表示信任度、资格以及满意度,使用第三层表示预测关联度。
3.1使用本体的知识库表示
系统结构由如下几部分组成:
- On2Trust是一个本体,用来保存系统用户的信任度。这个值在本体中建模为一个客体值属性,表示两名用户间的可靠性关系。这个属性是非对称值,因为一名用户对于另一名特定用户的可靠度并没有对称含义。这个概念的值使用的层来表示,也就是。因此,这些属性分为非可靠、低可靠、中等可靠、高可靠以及完全可靠。
- 领域本体用来使系统中的项目保持语义组织。在这个本体中,我们把项目表示为一个普通类。项目使用预定义的对象属性的领域本体,建立了一种关系,表示隶属度。用()表示,本体中定义分为无隶属、低隶属、中等隶属,高隶属以及完全隶属。
- 数据库:储存本体与数据的普通数据库。
- 推荐引擎表示本体分类信息的计算进程,然后生成推荐。在3.2部分详细描述。
领域本体与On2Trust本体都用来建立用户与项目间的关系,为了表示满意度与预测相关度。前者由用户明确定义,并且使用这些属性值储存在本体中:不满意、底满意、中等满意、高满意与完全满意。后者是在系统每次进行推荐时刷新一次,有这些属性值:无预测相关性、很低的预测相关性、低预测相关性、较低的预测相关性、中度预测相关性、较高预测相关性、高预测相关性、很高的预测相关性以及完全预测相关。
3.2推荐技术
为了生成推荐,我们不考虑用户相似性,而是从本体中获取信息。用户对其他用户明确表达信任度,在On2Trust本体中组织存储。然而,大量用户并没有提供对于其他用户的信任度,因此,我们需要一种方法来评估用户间的信任度。为了评估用户对另一用户的信任度,我们聚集了所有路径上获得的信任度,应用MLIOWA操作符(详情见2.4部分)。
(2)
是所有用户在u和v间路径i的整体平均值,是用户间传播路径上的信任值,基于模糊语句量词Q。我们依据[29]中的配置应用操作符,即,假设语句量词由参数(0.3,0.8)定义,。文献中提供了运行实例。信任值由用户直接提供或者由描述进程评估。因此,如果我们要分析(假设目前没有任何评估记录)或者提高用户对于项目的相关性,就要:
- 确定的信任用户集合,。我们分析用户与其他用户的信任度(见公式2),考虑选择的上限,即,,,是用户集合。,假设,是的信任用户,即,如果语句相似度比中等语句标签高。
- 要恢复对于项目的信任用户提供的评估,即,语义满意度评估,,。
- 项目是利用预测相关度对用户实现推荐,计算公式如下:
(3)
,是语义加权平均算子[17],是属于层的二元组与属于层的二元组之间的转换函数,。
最后,当用户接收推荐项,为了更新资料,他们需要评估这些项目的相关度。用户将他们的语义评估传达给系统,,表明他们对推荐系统的满意度(的值越大,满意度越高)。本体中更新的信息用于之后的推荐。
- 系统的实验与评估
为了使用本文中的方法进行实验,设H=2,H=3,H=4(称为信任度,信任度,以及信任度)。为了与其他技术进行比较,我们使用不同的配置,实行了基于项目以及基于用户的协同过滤技术[1](没有用On2Trust)。我们也分析了有不同数量的邻居的相似度计算的影响,变量K表示最相似的K用户,通过赋予K不同值来实现。另外,我们用两种不同的相似性度量Cosine和Pearson来聚合这些值。我们分别将基于项目和基于用户的算法称为Col-It-和Col-Us-;另外我们把算法Cosine和Pearson添加后缀Cs和Ps;最后一个后缀表示邻居数(K10,K20和K50)。这样便于思考线性复杂度。
我们提出一种5倍交叉验证进程,在这个进程
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[29179],资料为PDF文档或Word文档,PDF文档可免费转换为Word