领域知识图谱的构建与可视化分析毕业论文
2021-11-05 19:24:04
摘 要
随着互联网时代的到来,各行各业都意识到了信息的重要性。但是面对着网络中井喷式增长的数据,传统的仅包含网页间超链接的万维网页面无法满足人们快速获取信息的需求,在这种需求的驱使下,知识图谱应运而生。互联网中的信息大都是半结构化和非结构化数据,而知识图谱的构建技术力求将网络上杂乱的知识更加有序、结构化地组织起来。
构建一个特定领域的知识图谱将帮助行业领域从事人员更高效地获取数据,提高行业的信息化程度,能够为行业所面向的用户提供更好地服务。本文将以证券行业的港股数据构建领域知识图谱的数据层,并实现图谱的可视化。
本文首先介绍了知识图谱的研究背景和意义,然后阐述了知识图谱的构建流程,并分析了构建过程中各种技术方法的优缺点。本文利用Scrapy爬虫框架爬取了同花顺证券网站的港股数据,在知识三元组的抽取阶段,本文使用MSRA语料探究了BiLSTM-CRF算法模型在实体抽取中的效果,并通过依存句法分析完成了非结构化数据的三元组提取工作,最后基于实体的相似度进行知识融合。本文采用Neo4j图数据库作为知识图谱的存储层,使用Java语言和Neo4j进行交互,后端采用了MVC架构的Spring Boot框架,前端使用Echarts来实现数据的可视化。
关键词:知识图谱;依存句法;证券;Neo4j
Abstract
With the advent of the Internet age, all walks of life are aware of the importance of information. However, in the face of the blowout data in the network, the traditional web page, which only contains hyperlinks between web pages, can not meet the needs of people to get information quickly. Driven by this demand, knowledge map came into being. The information in the Internet is mostly semi-structured and unstructured data, and the construction technology of knowledge map strives to organize the disordered knowledge on the network more orderly and structurally.
Building a knowledge map of a specific field will help industry practitioners to obtain data more efficiently, improve the level of industry informatization, and provide better services for the users of the industry. This paper will build the data layer of domain knowledge map with the Hong Kong stock data of securities industry, and realize the visualization of the map.
This paper first introduces the research background and significance of knowledge map, then describes the process of building knowledge map, and analyzes the advantages and disadvantages of various technical methods in the process of building. In this paper, the scrapy crawler framework is used to crawl the Hong Kong stock data of Tonghuashun securities website. In the stage of knowledge triple extraction, MSRA corpus is used to explore the effect of BiLSTM-CRF algorithm model in entity extraction, and the triple extraction of unstructured data is completed through dependency syntax analysis. Finally, knowledge fusion is carried out based on the similarity of entities. In this paper, Neo4j map database is used as the storage layer of knowledge graph, Java language is used to interact with neo4j, Spring Boot framework of MVC architecture is used in the back end, and Echarts is used in the front end to realize data visualization.
Key Words: Knowledge Graph; Dependence Grammar;Securities;Neo4j
目录
第一章 绪论 1
1.1研究背景与意义 1
1.2研究现状 2
1.3本文研究目标及内容 2
1.4论文结构 3
第二章 知识图谱构建概述 4
2.1知识图谱概述 4
2.2知识图谱构建流程 4
2.2.1实体抽取 5
2.2.2关系抽取 6
2.2.3知识融合 7
2.2.4知识图谱存储与可视化 9
2.3知识三元组抽取技术 10
2.3.1基于机器学习的三元组抽取 10
2.3.2基于依存句法的三元组抽取 12
2.4本章小结 13
第三章 证券领域知识图谱数据层构建 14
3.1证券领域知识图谱构建框架 14
3.2基于网络爬虫的数据获取 15
3.3知识三元组的抽取 17
3.3.1结构化数据的三元组抽取 17
3.3.2非结构化数据的三元组抽取 19
3.4基于实体相似度的知识融合 20
3.5本章小结 21
第四章 证券领域知识图谱系统设计与实现 22
4.1需求分析 22
4.2系统架构 22
4.3功能实现 24
4.3.1用户登录功能 24
4.3.2依存句法分析功能 24
4.3.2知识查询功能 26
4.3.2图谱可视化功能 27
4.4性能测试 28
4.5本章小结 29
第五章 结束语 30
5.1论文工作总结 30
5.2问题与展望 30
参考文献 31
致谢 33
第一章 绪论
1.1研究背景与意义
近年来,随着互联网在世界范围内的蓬勃发展,搜索引擎被广泛使用,社会行业领域的信息化程度不断提高。但是对互联网上爆炸式增长的数据信息,传统的万维网页面无法满足人们快速获取信息的需求。在这种需求的驱使下,知识图谱应运而生。
互联网中的信息大都是半结构化和非结构化数据,而知识图谱的构建技术力求将网络上杂乱的知识更加有序、结构化地组织起来。智能化技术依托于互联网对各个行业领域的发展有着极大地促进作用,而构建智能化应用的基础之一就是知识库的构建。合理地构建行业领域的知识图谱,能够为技术开发人员提供便捷的数据访问接口,帮助用户和行业从事人员准确快速地获取所需的知识信息。
各个领域的公司和机构可以通过已有的数据资料构建一个知识图谱,基于这个知识图谱就可以构建特定领域的智能化服务,比如智能搜索和可视化展示、反欺诈和智能推荐。