基于web的影像数据管理系统的设计外文翻译资料
2022-09-08 12:55:36
英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
SPARQL图表:图形化查询生物语义Web数据库的基于Web的平台
Dominik Schweiger1, Zlatko Trajanoski1 and Stephan Pabinger1,2
摘要
背景:语义Web已经成为了人们使用那些可以跨应用程序和数据库边界的共享数据的框架。在这里,我们提出了构建图形化的查询方式来查询生物语义数据库的方法,这种方法是基于Web平台的。
结果:SPARQL图表提供了一个直观的拖放查询生成器,它将视觉图形转换成一个查询请求,并且可以在一个公共端点上执行查询操作。该查询工具集成了多种可以公开获得的语义Web的数据库,包括最近发布的EBI RDF平台(软件集成平台)的数据库。此外,它还提供了关于解答生物学问题的几个预定义查询模板。用户可以轻松地创建和保存新的查询图表,这些查询图表也可以与其他研究人员共享。
结论:这种基于图像化查询生物语义数据库的方式大大提高了使用的便利性,因为它消除了在查询时,查询者必须知道具体严格的查询语言和数据库结构的要求。该系统是免费提供在http://SPARQL graph.imed.ac.at.researchers .
关键词:语义数据库;SPARQL;语义网;RDF;数据库查询;图形查询生成器
背景:
如今,在生物社交领域中,生物数据过多是免费提供给用户的。绝大多数这些数据的查询方式是通过异构关系型数据库和传统的关键字搜索访问。当查询信息使用的是不同的数据表示形式或者格式不同时,以基于文本的关键字的方式来搜索和浏览分散在多个无法共享数据的数据库中的数据时常常被证明是不切实际的。由于目前缺乏综合数据库的,并且随着越来越多的生物数据累计,这一障碍会不断增强,生命科学研究想查询这些数据变得越来越困难,对生命科学的研究造成了极大的困难,有效的生命科学研究变得越来越难。
在过去的几年时间里,语义Web已经成为了一个公共的框架,该框架允许用户数据被使用和分享而不受到服务器和数据库边界的限制。用于查询和集成异类生物数据库几种生物语义的Web数据库的服务系统已经出现,这一系统出现试图在生命科学界发挥语义Web的优势[1]。这个项目工程命名为Bio2RDF[2],该项目工程已经突破了许多服务器和数据库边界的限制,将许多生物数据库转化和相互连接了起来,这一跨边界服务器和数据库工程的实施为跨数据库边界的查询方式提供了可能。EBI也紧随其后推出了自己的语义数据库Web平台[3],其中包含了几个数据库:UniProt,ChEMBL和Reactome。
总而言之,在这些包含有巨大数量生物信息的种类中,其中访问者必须具备掌握所需的基本数据库的典型深厚背景知识以及查询语言生物信息的巨大数量的能力,否则,用户仍然不能使用这些数据库。SPARQL已经成为了最广泛使用的查询语言检索和操作存储在语义Web数据库中的数据,但即使这样,SPARQL仍然经常被证明是对于那些没用经验的用户仍然过于复杂。因此,查询生物数据的任务仍是许多在生物数据查询领域一个悬而未决的问题。在这里,我们得出结论,研究者付出的多次努力使得数据更易于访问和相对于终端用户而言,查询语言的复杂性有所降低,但是这仍然不能改变生物数据插叙面临的窘境。[4-8]
据我们所能了解到的所有信息,目前为止,没有任何一种允许用户以图形方式建立,也不必处理数据库模式和潜在的语义Web技术就可以进行生物语义Web查询的服务发布。因此,我们创建了基于Web的平台SPARQL图来提供直观的图形化查询编辑器,几个预定义模板查询,以及直观的的结果显示界面。该工具是开源的,并在HTTP内自用访问,地址是://SPARQL graph.i-med.ac.at。
* 函授: stephan.pabinger@gmail.com
技术研究院奥地利健康与环境部,AIT 分子诊断,维也纳,奥地利 |
copy; 2014年施魏格尔等;持牌生物医学中心有限公司这是根据知识共享署名许可的条款分发的开放存取文章
表1 RDF的数据库列表集成在SPARQL图
EBI RDF平台 |
||||
数据库 |
三同 |
焦点 |
例如元素 |
参考 |
Atlas |
447.149.547 |
Gene Expression |
Experiment, Assay |
[12] |
ChEMBL |
374.762.364 |
Chemogenomics |
Compound, Target |
[13] |
Reactome |
12.487.422 |
Pathways |
Pathway, Reaction |
[14] |
UniProt |
9.024.662.088 |
Proteins |
Protein |
[15] |
Bio2RDF v2 |
||||
数据库 |
三同 |
焦点 |
例如元素 |
参考 |
Entrez Gene |
394.026.267 |
Genes |
Gene |
[16] |
DrugBank |
1.121.468 |
Drugs |
Drug, Target |
[17] |
KEGG |
49.850.774 |
Pathways |
Pathway, Reaction |
[18] |
PharmGKB |
142.782.063 |
Pharmacogenomics |
Drug, Disease |
[19] |
每个数据库列出了他们的人数三倍的,它着重于该地区,例如数据库元素的参考。
显示:
Web应用程序的SPARQL图形是基于JavaScript脚本开发的,使用该应用程序框架流星[9]作为客户端和服务器端两者的骨架。流星功能的特征在于快速成型,并提供路径支持,轻松地连接到数据库和HTML模板。SPARQL图使用的是基于JavaScript开发的的图形可视化图书馆mxGraph(mxGraph 是一个 JS 绘图组件适用于需要在网页中设计/编辑 Workflow/BPM 流程图、图表、网络图和普通图形的 Web 应用程序。mxgraph 下载包中包括用javescript 写的前端程序,也包括多个和后端程序(java/C#等等)集成的例子)[10]建立和渲染图。这个库允许组件的插入,其中模仿的功能和设计方面的独立专为应用程序的行为而设计。SPARQLGraph的用户登陆需要进行身份验证,并通过流星计算制度系统的权威认证才能验证通过。此外,评论系统DISQUS(Disqus是一家第三方社会化评论系统,主要为网站提供评论托管服务)[11]被附加到每个图形当中,用户可以通过评论系统发表自己对图形的看法,方便用户之间开展具体的讨论。SPARQLGraph目前支持的浏览器格式有Firefox和Chrome,并且用户无需申请账号,可以使用提供的模拟账户进行自由测试。
图1:一个例子查询的图形和文本表示。一)显示的是绘图板(左)和右侧的元素选择面板)。查询的元素(对象和受试者)被表示为用于显示在右上角对应数据库绿框。元素之间的关系表示为箭头,并显示适当的说明。元素的属性被表示为灰色框。所描绘的图表示,包括三个不同的数据库的联合查询;显示出了由系统自动生成,并在端点执行的相应SPARQL查询。
结果与讨论:
SPARQL图:
SPARQL图是一个基于Web的平台,它允许用户建立一个新的语义Web数据库来查询数据,查询方式为图形化的方式。该平台的主要接口包括用于装配新的查询图表的大型图版。用户可以通过简单的拖放操作,将新的数据元素和查询属性指令增加到语义数据库的版面上。
目前,SPARQL图形支持几种从EBI RDF平台调用的数据[3](EBI是一种集成化平台,RDF一种用于描述web语言的标记语言)、也可以从Bio2RDF工程项目[2]中调用数据,这些数据库包括其中在表1中列出的几个数据库。该论文的RDF数据库加入到该系统和重要的属性几个核心元素被集成到应用程序(参见图1,灰色节点)。这些属性特定于每个元素,并且可以用于过滤或延伸查询结果。如果可能的话,元素间跨数据库之间的联系的建立,这使得在使用一次联合查询可以查询多个数据库,扩大了查询量。
为了使所选择的元素之间建立正确的连接,该平台验证模式为允许组合,并且提供视觉反馈给用户。在执行时,该图被自动转换成相应的SPARQL查询并提交给公共端点。然后将结果以表格的形式在界面中显示出来,如果有需要,其也可以以CSV格式(纯文本文件)导出。
除了查询单个数据库,SPARQL图形也能够进行对不同数据库的同时搜索,突破了服务器和数据库边界的限制吧,而不需要数据变换或手动结果滤波联邦查询。
SPARQL图为我们提供了针对不同的数据库进行手动策划模板查询操作方式和它们的使用情况(见图2)。模板查询无法进行编辑,但允许替换特定字段的值,例如基因名称,蛋白质名称,或生物的名字。因此,它们的回答属于常见生物问题,用户很容易了解,并对那些想通过此操作熟悉该平台的新用户有很大的帮助。
图2:例如图中所示的模板查询概述是在SPARQL图形模板查询的列表。用户可以创建新的模板查询或使用他们能够快速得到答案的各种生物学问题。
示例用例:
为了说明SPARQL图的基本设计思路,我们选择了以下面的一个实例问题开展示例查询:”哪个舒尼替尼药物的靶蛋白在人体的任何组织都会下调?”
图1a)显示SPARQL图形,这也可作为一个模板查询示例查询的图形表示。所创建的联合查询涉及三个不同的数据库,包括ChEMBL(蛋白质靶数据库),UNIPROT(蛋白质数据库)和Atlas(基因表达值数据库)。首先,它第一步在ChEMBL数据库中选择一种命名为“SUNITINB”的化合物。下一个化合物将以它作为限制人类与所有相关的蛋白和连接的化合物,它是与具有分类9606(智人)的一个目标组件相连的。输出所有相关的蛋白质的的UniProt蛋白质标签,所述ChEMBL数据库以及UniProt数据库之间的交叉引用被插入。作为基因表达模式被存储在阿特拉斯数据库当中,从数据库里提取的UniProt阿特拉斯链路包括在内。阿特拉斯设计元素表示的探针,它是在一个测定用于检测序列或基因表达水平。只输出下调的蛋白质中,设计元件被连接到所述减少的表达值的实体,它返回其标签作为查询结果。
图1b)示出了所生成的SPARQL查询,其被提交到一个相应的端点。查询的代码是经过了简化了的,程序具有更好的可读性。
讨论:
几种方法被用做促进SPARQL查询的创建。工具如GRUFF [20],ViziQuer [21]和NITELIGHT [22]使用一个非常通用的构建图形的方式往往导致高复杂性,建立在其全面的功能。 SPARQL图是采用不同的方法,因为它仅仅着眼于预定义的生物数据库,并把重点放在实用性为生命科学界的用户。此外,SPARQL图表允许用户在一次查询多个数据库,因为它使用了SPARQL SERVICE关键字。这个功能是使用在生命科学领域的语义Web,随着越来越多的机构提供关键的数据库作为链接的RDF数据[23],允许更全面的查询。迄今为止,SPARQLGraph是唯一的查询生成器集成了这一有价值的功能。
SPARQLGraph让他们创建和共享图表便于研究人员之间的协同工作。因此,用户具有相似的生物学问题可以重复使用和扩展现有
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[146294],资料为PDF文档或Word文档,PDF文档可免费转换为Word