领域技术知识图谱构建及可视化开题报告
2022-01-12 21:10:48
全文总字数:7141字
1. 研究目的与意义(文献综述)
目的:
搜集整理领域数据,设计领域schema,构建领域知识图谱,实现可视化分析。
以深度学习为代表的感知智能,因为模型的不可解释性,也缺乏普通人类的常识,逐渐遇到瓶颈。未来人工智能的发展会更加注重机器的认知能力,对知识库更加依赖,包括通用知识库和领域知识库,而构建知识库的技术正是知识图谱构建技术。所以,实现特定领域的智能化,领域知识图谱构建是必要的。
2. 研究的基本内容与方案
目标:搜集整理领域相关的数据,通过设计schema合理整合数据,运用关联数据库和图数据库结合的方式存储数据,构建领域知识图谱,实现可视化分析。
研究的基本内容包括:(1)领域知识图谱数据的搜集和整理:从开源的数据库、专利库等数据源获取数据,并进行数据清洗,构建领域相关词表;(2)领域知识图谱schema的设计:根据领域知识的特点发掘领域知识间的关联,构建对应的schema;(3)知识图谱可视化:将领域知识图谱以合理的形式存储,并实现领域知识图谱的可视化。
拟采用的技术方案及措施:(1)python网络爬虫技术:领域数据获取具有一定的门槛,如电商领域的用户行为数据往往是公司内部数据,不予公开。本研究拟采用python爬虫技术对公开数据进行爬取和整合,如产业链中企业的工商信息,股东信息,竞品信息,投资信息,开庭公告,新闻舆情,专利信息,软件著作权,供应商信息,客户信息等;(2)拟采用基于bert和bilstm的命名实体识别模型对公司名、人名进行命名实体识别;(3)用基于半监督学习的deepdive筛选和构建结构化的数据。(4)拟采用图数据库和关系数据库结合的方式存储知识图谱数据,关系数据库主要作为数据处理过程中的过度,图数据库用于最终的可视化分析;(5)拟采用python的django框架开发b/s系统,可视化知识图谱,方便用户进行可视化分析。
3. 研究计划与安排
(1)2020/1/13—2020/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2020/3/1—2020/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2020/5/1—2020/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1]zhang, ce . "deepdive: a data management system for automatic knowledge base construction." dissertations 2013: 993-996.
[7]frank j r , kleiman-weiner m , roberts d a , et al. building an entity-centric stream filtering test collection for trec 2012[c]// text retrieval conference. 2012.
[8]ré, christopher, sadeghian a a , shan z , et al. feature engineering for knowledge base construction[j]. computer science, 2014.1-19.