基于知识图谱的语义相似度计算在个性化学习推荐服务中的应用外文翻译资料
2021-12-12 21:54:20
基于知识图谱的语义相似度计算在个性化学习推荐服务中的应用
Baoxian Jia1 Xin Huang2 Shuang Jiao3
Liaocheng University Xian Eurasia University Liaocheng University
摘要
随着大数据时代的到来和个性化教育理念的引入, 如何为学生提供价值的宝贵资源迅速成为热点。大型教育数据个性化推荐服务的有效性主要体现在推荐算法的准确性上。语义相似度计算对于计算的准确性是必不可少的。该研究将为教育领域的大数据提供指导。语义网络的发展在语义搜索、知识工程、知识地图和数据连接等许多领域都取得了新的突破。语义网络的核心在于本体层中知识的表示和表示。同时, 还涉及相关规则和推理。许多研究领域都是以本体论为基础的, 并进行了相关的研究。语义相似技术是这些研究领域的一个主要研究领域。由于互联网内容的大规模、异构和松散的组织性质, 对人们有效地获取信息和知识提出了挑战。知识图谱具有强大的开放式组织能力和语义处理能力, 为网络时代基于知识的组织和智能应用奠定了基础。目前, 主要语义相似方法的工作重点是概念 (如路径长度和深度) 之间的语义网络络结构, 或者只研究概念信息内容 (IC), 同时使用与本体相关的属性用于计算。然而, 也存在一些缺陷。因此, 本文提出了一种语义相似方法--路径法, 该方法结合了这两种方法, 并利用 IC 对概念之间的最短路径长度进行加权。实验证明, 该方法在计算知识图谱的语义相似性方面具有一定的可行性和可信度。与其他方法相比, 结果优于其他方法。
关键词:本体;语义相似性;知识图谱;教育大数据;个性化推荐;协作过滤
知识图谱求和语义相似度
将传统的协同过滤算法应用于教育数据资源时, 存在实时推荐和推荐质量的低精度问题。因此, 在改进的相似协同过滤推荐系统计算方法的基础上, 给出了教育资源存储方案的优化, 提高了推荐协同过滤算法的性能和质量.该研究对个性化学习具有重要的理论意义和应用价值。在暖通空调系统中, 冷水机组消耗大量能量以提供冷却负荷。在该系统中, 冷却负荷的优化加载对节能具有重要意义, 较好的性能系数对系统有较好的效果。对于系统冷却负载, 所有冷水机组都提供负载。为了提高节能能力, 应确定冷水机组的最佳组合。对于冷却负载条件, 最佳的冷水机组负载 (OCL) 问题是设置冷水机组的部分负载比 (PLR), 以降低系统功耗。启发式优化方法可用于解决这一问题, 包括分支和绑定方法 (Miller, 2015)、拉格朗日方法 (Saruladha Aghila 和 Bhuvaneswary, 2011年) 和一般代数建模系统 (Limani, 2013年)。OCL 必须满足系统冷却负荷, 并将约束条件转移到第三个目标函数。多目标优化算法已被研究并应用于解决多种类型的工业问题 (Soleacute;-ribalta、Saacute;nchez amp; Batet, 2014年)。此外, 许多元启发式方法也越来越多地得到研究。本文的其余部分按如下方式进行了组织。第2节描述了 MOEA/D 的文献, 第3节描述了 OCL 问题。第四部分介绍了求解 OCL 的改进算法。第五部分是实验结果, 表明该算法的性能优于文献中的算法,最后一节是结论
1 研究背景和意义
互联网的快速发展, 在线数据内容以爆炸性的方式增长。由于互联网内容的大规模、异构和松散的组织性质, 对人们有效获取信息和知识提出了挑战。知识图谱具有强大的开放式组织能力和语义处理能力, 为互联网时代以知识为基础的组织和智能应用奠定了基础。
近年来, 大型知识地图图书馆的研究和应用引起了学术界和工业界的广泛关注。知识地图的主要作用是描述现实世界中存在的实体和实体之间的关系。2 0 1 2年, 谷歌正式提出了知识地图的概念。其目的是提高搜索引擎的能力, 提高用户的搜索质量和搜索体验, 并将在2013年后在学术界和业界推广。这将是一个传统的关键字库。搜索模型升级为基于语义的搜索。随着人工智能技术的发展和应用, 知识地图作为关键技术被广泛应用于智能搜索、智能分析、智能问答、内容分发、个性化等领域建议, 和反欺诈。
2 研究内容
本文主要提出了两种不同的语义相似度计算方法。第一种方法是测量知识图谱 (Kg) 中概念之间语义相似性的方法;以往关于语义相似方法的研究主要集中在概念之间的语义网络结构 (如路径长度和深度) 上。或者只关注概念信息内容 (IC)。本文提出了一种第二种语义相似方法--路径法, 该方法将这两种方法结合起来, 利用 IC 对概念间的最短路径长度进行加权。传统的基于语料库的 Ic 是根据文本语料库上的概念分布计算的, 该语料库是为包含注释概念的域语料库而准备的, 具有较高的计算成本。由于该实例是从文本语料库中提取出来的, 并用知识图谱的概念进行了注释, 因此提出了一种基于图形的集成电路基于概念分布的集成电路计算方法。通过对已知词相似度数据集的实验, 发现 wpath 语义相似法比其他语义相似度方法具有统计学意义。此外, 在实际的类分类评估中, wpath 法在准确性和 f 分方面表现出最佳性能。
3 相关原理和方法
3.1 知识图谱
DBpedia 是一个大型的多语言百科全书, 可以被看作是维基百科的一个结构化版本。DBpedia 使用固定模式提取有关维基百科实体的信息, 包括抽象、类别、页面链接和信息框。DBpedia 目前拥有超过2800万个实体和数亿 RDF 的127种语言的三倍, 作为链接数据的核心, 与许多其他数据集存在实体映射关系。DBpedia 支持数据集的完整下载
3.2 语义相似度度量
基于语料库的方法。基于语料库的方法根据从大型语料库 (如维基百科) 获得的信息来衡量概念之间的语义相似性。根据这一想法, 一些工作利用了概念联想, 如点明智的相互信息 (Landauer 和 Dumais, 1997年) 或正常谷歌距离 (Gabrilovich 和 Markovitch, 2007年), 而另一些工作使用分布式语义技术表示高维向量中的概念意义, 如潜在语义分析和显式语义分析 Gloov (Penington Socher 和 Manning, 2014)。最近基于分布式语义的研究考虑了高级计算模型, 如 Word2Vec (Fellbaum 和 Miller, 1998年), 它使用低维向量来表示单词或概念。
具有相同周围上下文的单词的共现信息将使各种被认为相关的单词。由于基于语料库的方法主要依赖于词的上下文信息, 因此它们通常衡量单词之间的一般语义相关性, 而不是依赖于层次关系的特定语义相似性 (Singh, 2004)。此外, 基于语料库的语义相似方法将概念表示为词, 而不澄清它们的不同含义。与基于知识的基于 Kg 的方法相比, 基于语料库的方法通常具有更好的词汇覆盖率, 因为它们的计算模型可以有效地应用于各种较新的语料库。由于它们是基于词和文本语料库而不是概念分类的, 本文简要介绍了一种基于语料库的方法, 并在下一节中详细介绍了主要的基于知识的方法。
基于知识的方法。设 Paths(ci,cj)= {P1;P2;...Pn} 是一组路径, 通过基数或大小 N 连接基本概念 ci 和 cj。设|𝑃𝑖|表示路径长度 pi Paths (ci, cj), 然后长度 (ci, cj) = min (Pi)表示两个概念之间的最短路径长度。路径法使用概念之间的最短路径长度来表示它们的语义距离, 并且可以将距离转换为相似性。
(1)
Lch[25] 方法使用基于最短路径长度的非线性函数来表示概念之间的语义相似性, 如下所示:
(2)
其中 D 是 KG 中概念分类的最大深度。根的概念和通过层次结构关系在给定概念之间的路径称为深度, 因为 Kg 可以包含可组织为分层类别 (如 WordNet 分类分类、DBpedia 类等) 的概念。
最近共享节点 (LCS) 是这两个概念的共同祖先中最具体的概念。例如, 概念科学家和概念行为者的 LCS 是概念人。让 clcs 成为概念 c i 和 c j 的 LCS。该方法使用以下公式来度量给定概念的语义相似性:
(3)
Li 方法将最短路径长度与 LCS 的深度相结合。它使用非线性函数来测量语义相似性。
(4)
知识图谱的语义相似度测量方法研究
图1 知识图谱示例
一些传统的语义相似度量依赖于使用层次结构关系来测量概念之间的语义距离。两个概念之间的语义相似性与连接这两个概念的路径长度成正比。基于路径的相似度度量要求语义网络的结构生成相似度分数, 以量化这两个概念之间的相似度。在分类中物理上彼此接近的概念被认为与位于很远的地方的概念更相似。其他语义相似度度量考虑了语料库计算的概念的统计信息内容 (IC), 以提高仅基于概念分类结构的相似度度量的性能。IC 是衡量概念特殊性的一个尺度。IC 的较高值与更具体的概念 (如参与者) 相关, 而较低的值更常见 (例如, 人员)。IC 是根据文本语料库中出现的概念的频率计数计算的。每次出现更具体的概念也意味着更一般的祖先概念的出现。为了缓解基于路径的度量和基于 ic 的度量的缺点, 本文提出了一种新的语义相似度方法。
实体 |
类型 |
概念 |
dbr:Star_Wars |
yago:Movie106613686, dbo:film |
Movie |
dbr:Don_Quixote |
yago:Novel106367879, dbo: Book |
Novel |
dbr:Tom_Cruise |
yago: Actor109765278,dbo: Actor |
Actor |
dbr:Apple_Inc |
yago: Company108058098,dbo: Company |
Company |
表1 实体和实体类型映射示例
(一)加权路径的语义相似度测量
基于知识的语义相似度度量主要用于利用从概念分类或 IC 中提取的信息来量化两个概念的语义相似性。指标将一对概念作为输入, 并返回一个表示其语义相似性的数值。许多应用程序依赖于这种相似性评分来对不同概念对之间的相似性进行排序。以图2中概念分类的一部分为例, 考虑到概念对 (牛肉、羊肉) 和 (牛肉、章鱼), 该应用程序为 sim (牛肉、羊肉) 提供了比 sim (牛肉、章鱼) 更高的相似度值, 因为概念牛肉和概念羊肉是一种肉, 章鱼的概念是一种海鲜。从表2中可以看出, 从语义相似度方法计算出了某些概念对的语义相似性分数。从表中可以看出, 概念对 (牛肉、羊肉) 的相似度得分高于概念 (牛肉、章鱼)。
图2 概念分类的基本框架示例
Concept |
Pairs |
path |
lch |
wup |
li |
res |
lin |
jcn |
wpath |
牛肉-章鱼 |
牛肉-羊肉 |
肉- 海鲜 |
章鱼- 贝类 |
牛肉-服务 |
牛肉 -氛围 |
牛肉-咖啡 |
食物-咖啡 |
0.2 |
0.333 |
0.333 |
0.333 |
0.071 |
0.083 |
0.111 |
0.143 |
2.028 |
2.539 |
2.539 |
2.539 |
0.999 |
1.153 |
1.44 |
1.692 |
0.714 |
0.857 |
0.833 |
0.857 |
0.133 |
0.154 |
0.429 |
0.5 |
0.442 |
0.667 |
0.659 资料编号:[5587] |