使用CMS在门户网站应用语义网技术外文翻译资料
2022-11-28 14:51:29
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
使用CMS在门户网站应用语义网技术
Eleni Giannopoulou,Nikolas Mitrou
电气与计算机希腊雅典国立科技大学,雅典 希腊egiann@cn.ntua.gr,mitrou@cs.ntua.gr
Konstantinos Chimos,Theodoros Karvounidis,Christos Douligeris
比雷埃夫斯大学信息学系,比雷埃夫斯 希腊,{himosk,tkarv,cdoulig} @ unipi.gr
摘要 在这项工作中,提出了一个语义网框架。 框架的目的是在语义上处理和链接来自不同来源的数据。 提出的框架为不同的目标群体嵌入多个入口渠道重新使用,报告,评论和分享内容的动机。 实施是建立在内容管理系统之上的。 在这种方法中,我们使用Drupal,但可以使用任何其他CMS。 即使在我们的范例中,来源主要来自机构的数据,即雅典国立技术大学(NTUA)数字图书馆,所提出的架构的利用可以直接扩展到其他领域。
关键字 链接数据; 语义网; 门户网站; 框架; CMS;
一、引言
万维网(WWW)在其演进中彻底改变了知识分配的方式,从而更容易发布和获取文件和数据[5]。向这一方向迈出的创新步骤构成了使用超链接,使用户能够通过Web浏览器浏览网页。 此外,搜索引擎的部署和扩展使用能够使文件的索引和链接结构分析的使用利用用户查询来提取它们之间的关系。 后者是Web的发展和广泛接受的主要原因。
分布在网络上的绝大多数数据都以繁琐的格式提供,从而牺牲了基础结构和语义。 此外,在过去十年中,Web已经从全球信息空间转变为数据和文件相互关联的社交空间,从而增强了向用户传递信息的方式。 这一发展包括一系列在网络上发布和互联结构化数据的实践和规则,称为链接开放数据(LOD)[5]。 虽然Web具有许多优点,但其一些基本原理并不适用于数据处理。
就像LOD一样,Web中本体的使用是一种最近才被采用的概念,从而实现了语义网的愿景。 语义Web和链接数据技术都逐渐融入到应用程序用户界面[2]中,如内容管理系统(CMS)[3],用于开发不同类型的门户网站,用于汇总各种类型的信息。
语义网络技术和工具可以充分满足上述所有需求,这些技术和工具将为创建一个链接数据门户提供基准,该门户为来自各种领域的不同数据源提供数据聚合,语义搜索和推理能力。
本文提出了目前正在使用NTUA数字图书馆的现有数据进行框架的试点实施。 该框架使用流行的CMS,Drupal 1,允许用户轻松组织,管理和发布他们的内容,高水平的定制。 应该指出的是,这个框架的实现并不局限于Drupal,而是可以在任何内容管理系统中扩展,如Joomla2或Wordpress3。
这个工作的描述从语义网和链接开放数据视图的概述开始,涉及将各种数据暴露为链接开放数据(LOD)的需要。 对现有文献中提到的关于技术,所使用的内容以及其他实施框架的机构或组织数据的现有做法的概述如下。 接下来提供了目前在NTUA数字图书馆执行的框架及其实施背后的架构和方法的详细介绍,本文结束了未来的研究思路和结论。
二、语义网,链接数据和本土化的使用
语义Web视觉被称为是以有效的方式表现出可以机器处理的形式的Web内容,并利用智能技术来利用这些表示[4]。范围不是重新创造Web,而是通过在今天熟悉的Web上转换Web来创建语义Web。语义Web的概念可以应用于各种领域,如知识管理,企业对消费者(B2C)和企业对企业(B2B)电子商务。知识管理涉及组织内部知识的获取,访问和维护[4]。金融和经济危机需要构想和实施旨在加强知识共享,创造力和创新的工具,因为传统知识管理系统未能使公司在跨国层面具有竞争力[19]。使用语义Web技术可以导致先进的知识管理系统的发展,提供:概念知识组织,知识提取的自动化工具,一个或多个文档的语义搜索能力,以用户友好的方式检索,提取和知识表示[4]。基于Wiki的系统,可以从语义技术的使用中明确受益的Web的另一个受欢迎的组件。语义维基[13]的主要概念是为底层的维基提供一种语义结构,以便使机器可以通过为所涉及的数据提供语义注释,从而提供超出导航的服务。语义维基可用于许多不同领域,从数字图书馆到政府数据[12]。
如前所述,今天的系统可以通过结合各种技术来实现上述目标而从语义网的愿景中获益。 两个最常用的概念是关联数据和本体。
链接开放数据概念包括使用Web来链接来自不同来源的数据。在技术上,链接数据是以Web机器可读形式发布的数据,表示其语义,同时它们与Web上可用的其他数据集相互联系。将链接数据实践及其在Web上的应用引入其中,导致其扩展,因此当前的Web包含许多不同来源的数据,例如电子图书,音乐,人物和可能跨越不同领域的组织。所涉及的数据种类繁多,可以创建不同的增值服务。将链接数据纳入网站强烈依赖于诸如RDF4(资源描述框架)或OWL5(Web本体语言)之类的标准。然而,RDF也不能简单地链接数据,而是提供创建连接Web中的任意对象的语句的机制,从而产生数据Web。为了在Web上发布数据作为关联数据,有一组关联数据原则应该被合并,以使数据在全局数据空间的Web部分中可用。作为迈向这一方向的第一步,可以考虑使用URI(统一资源标识符)作为Web中实体的名称[5]。此外,URI应该通过HTTP使用,以便人们查找这些名称。当有人正在查找URI时,通过使用RDF表达数据和用于查询RDFized数据的SPARQL(SPARQL协议和RDF查询语言),向他/她提供了一组有关底层资源的信息。最后,应该使用与其他资源的链接,以便以相同的方式发现其他项目。这些标准提供了一种发布和链接Web中的数据,维护其架构并完全符合标准的方法。
直接连接到语义网和链接开放数据的另一个概念是本体论。 本体可以被认为是概念模型的典型表示。 本体构成了语义网的“骨干”,可以在不同的应用领域得到很好的应用。 它们提供了一个应用程序域的正式共同表示的规范,试图减少人与机器管理信息的方式之间的距离。 本体论的发展背后是新知识和现有知识的发现,共享和再利用[1]。 这就是为什么根据应用领域需要开发不同本体的原因,因为底层模型每次都是不同的。 本体的使用提供了以统一的方式表达结果模型的方法。
三、在门户网站应用语义网络技术
内容管理系统(CMS)是一种基于Web的系统,用于管理内部网和互联网站点的内容的生成和分发。 XML技术是这些系统的核心,以便将原始内容与其演示文稿分开[3]。 CMS可以通过各种方式为组织或单个用户的Web用户提供非常有用的功能,因为它们提供以用户友好的方式动态呈现和更新的信息。 该信息可能来自不同的来源,并以统一的方式通过门户提供,从而为用户提供必要的抽象层。 以这种方式显示内容的程度取决于用户的角色以及每个角色授予的权限。 语义网络技术可以以多种方式促进这些门户网站的使用。
语义Web门户的范围是语义地注释其数据,并根据之前呈现的链接数据原则将其与其他来源进行链接。 有关这种门户的各种实现,如语义信息门户,链接数据门户,社区门户等[1],[6],[8],[9]。
基于Web的信息门户可以为特定域提供对集成和结构化信息的访问,也可以通过聚合来自更广泛域的数据。社区信息门户旨在支持和促进特定社区的活动。社区信息门户提供的创新是其用户积极参与创建门户网站提供的信息。通过直接提交(即通过表单或通过发布某些协作工具的信息)或通过向池提供新闻和信息,有两种方式在这些门户中进行交互[6]。 [19]提出了在社区信息门户领域应用的类似方法。 KRC(KnowInG资源中心)是一个作为智能Web平台实施的众包群集平台,作为一种创新的推广工具,可统一组合并提供以统一方式组织的服务,信息和知识的访问和共享。众包平台是一个“集体情报体系”,由三个要素组成:一个利用人群工作的组织,人群本身以及作为群众与组织之间中间的平台。众包平台的范围是让人群和利益相关者参与识别问题和需求。以同样的方式,我们的方法类似于众包系统,其目的是吸引用户参与门户网站提供的信息,同时考虑到他们的需求。
关于语义门户网站的设计有几种方法,不管其范围如何。 关于数据表示的两种最常见的方法是语义Web标准RDF和OWL。 RDF可以提供用于描述资源的灵活和可扩展格式,而OWL支持用于分类和结构项目的域本体的显式表示。在[6]中,描述了语义信息门户的概念,利用语义Web标准来改进结构,可扩展性,定制和可持续性。 与[6]中提出的方法相反,我们的方法侧重于数据部分,而不是门户网站实施的方式。 使用CMS而不是实现自定义门户应用程序,类似于此选择。
另一种方法是TWC LOGD门户[8],旨在作为美国(US)和全球联合开放政府数据(LOGD)社区的资源。 这项工作展示了链接数据在出版和消费开放政府数据(OGD)中的实际应用,也是第一个纳入有效支持美国公开政府活动的网络标准的计划。
HealthFinland [9]是一个用于管理健康信息的语义网络门户。 它利用语义技术,以根据特定用户的需要定制Web上发现的健康信息。 HealthFinland的愿景是使用语义技术重用其他组织的Web门户的内容,以便通过基于共享本体的有意义的元数据本地对本地内容进行注释,并提供用于访问全局存储库的混搭Web服务。 以同样的方式,我们的框架还旨在重用不同组织的公共或私有数据,以便以有效的方式不仅提供语义注释的元数据,还提供从底层数据生成的有意义的信息。
SEAL(SEmantic portAL)是开发语义门户的独立于域的方法[7]。 这种方法结合了语义,以便以有效的方式访问和提供门户网站的信息。 它还涉及门户的建设和维护等问题。 SEAL的架构与我们的方法类似,集成了许多其他应用程序中使用的组件,如Ontobroker(导航和查询模块)。 与我们的方法不同,SEAL的重点在于语义模块的扩展,以便通过爬行来包含语义排名和机器访问,用于访问网站。
ONTOVIEWS[10]提供了一种在Web上发布RDF数据的方式,嵌入其架构两个基本组件; OntoDella和OntoGator。 前者是链接推荐系统服务器,而后者是基于内容的搜索引擎服务器。 该系统的关键思想是将信息检索研究社区开发的多方面搜索范例与语义Web RDFS本体相结合,并以基于本体论推理的语义浏览设施为基础,扩展搜索服务。 ONTOVIEWS专注于搜索和推理活动,而我们的框架扩展到其他功能,如电子学习,从而提供一体化的用户体验。
在[21]中提出的方法具有共同的目标,我们的目标是提供用户友好的数据显示,浏览和查询功能,利用语义Web技术。 这将通过生成方便的导航界面来实现,允许用户有效地浏览和查看RDF三倍。 与我们的方法不同,他们的建议侧重于系统内部本体的创建,编辑和可视化,而我们的框架的范围是提供和可视化有意义的数据。
四、主要框架
即使语义Web技术提供了有效使用Web的各种方法,还存在缺点,例如用户友好的显示,浏览和查询语义数据的方式[20]。 因此,用户友好并且同时有效的用户界面是必要的。 这可以通过采用CMS来实现语义Web门户来实现,该语义Web门户提供了一个轻量级的平台,它结合了语义Web工具,帮助用户以有意义的方式组织,浏览和可视化数据。
目前,NTUA数字图书馆正在实施“开放获取数字图书馆服务”项目,旨在加强向学生和其他社区成员提供的服务,目前正在实施MILD(有意义的综合关联数据)框架。
A.结构
MILD框架的主要目的是在语义上处理和链接来自不同来源的数据。这些来源可以来自不同的和不同的领域,并且该过程的期望结果将是将来自这些来源的数据组合以提供附加值服务(图1)。每个源提供的输入可以是各种格式,范围从XLS / CSV,MySQL或Oracle数据库甚至文本文件。使用RDF模型将每个源中包含的数据转换为RDF注释数据。该模型是离线建模程序的结果,每个应用程序领域都是唯一的。该建模过程中的常见元素是利用本体和受控词汇或辞典。信息科学和图书馆是受控词汇,是用于标记信息单位的术语(单词或短语)的结构化列表,以便通过搜索更容易地检索。此过程的结果是使用RDF注释数据,以便创建连接通过Web可用的资源的语句。所得到的RDF图然后被上传到诸如Virtuoso6之类的三重存储。
根据需求分析阶段中定义的用户需求,相应的SPARQL查询根据端点进行编写和评估。此后,结果以大多数情况下以JSON格式写入文件中,并上传到数据管理系统,如CKAN7(综合知识存档网络),这是一个功能强大的数据管理系统,提供简化发布,共享,查找和使用数据的工具。 CKAN旨在面向数据出版商,如国家和地区政府,公司和希望使其数据可用的组织或机构。促进CKAN作为所选数据管理系统选择的另一个功能是CKAN的数据集元数据以JSON格式本机发布。 JSON是组织为了导出数据而选择的常用格式。就软件标准化工作而言,CKAN也在使用DERI的数据目录词汇(dcat)9进行RDF编码8的实验。并入MILD中的数据管理系统是要显示给门户的实际数据与门户本身之间的中间。通过融合的不同授权级别的MILD为门户用户提供一个抽象层,根据授予每个用户的角色来管理不同的视图。
提出的框架结合了不同的服务,旨在提供对专家和非专家用户可能感兴趣的数据的观点,使他们有机会从[21]中的数据创建自己的可视化,而不仅仅是提供汇总数据和搜索或推理API。提供此功能的不可或缺的组件是用作提供来自不同数据源的统一搜
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[25889],资料为PDF文档或Word文档,PDF文档可免费转换为Word