基于BiLSTM的金融知识图谱构建毕业论文
2021-10-28 20:30:15
摘 要
随着金融行业的发展以及市场的进一步扩大,在金融领域每天都有海量数据产生,特别是源源不断的文本新闻中携带着大量的信息量与有限的人力以及脑力处理信息的极限形成鲜明对比。单纯依靠人力的手段已经难以适应投研分析、金融监管和处理事件关联的需求。目前如何应用新技术手段处理文本数据提高处理效率已成为目前亟需解决的问题。而知识图谱作为一种全新的自然语言技术,通过图数据库以及结构化的架构描述海量蕴藏在文本中的信息,提高金融文本得处理效率。
本文将采用较为成熟且得以广泛利用的实体抽取以及关系抽取模型——双向长短时记忆神经网络(Bidirection Long Short-Term Memory,BiLSTM)为基础,并配合卷积神经网络(Convolutional Neural Networks,CNN)实现对文本特征值的提取以及文本实体及文本关系等信息的获取。同时图数据库NEO4J实现知识图谱的可视化展示的功能。
关键词:知识图谱;双向长短时记忆神经网络;卷积神经网络;NEO4J
Abstract
With the development of the financial industry and the further expansion of the market, a large number of data are gerearted in the financial field every day,especially in the continues text news with a large of information, which in sharp contrast to the limited manpower and the limit of brain processing information. It is difficult to meet the needs of investment research and analysis simply by relying on human resources. At present, how to use new technology to process text data and improve the processing efficiency has become an urgent problem. As a new natural language technology, knowledge graph describes the massive information contained in the text through graph database and structured architecture, so as to improve the efficiency of financial text processing.
In this paper, based on a mature and widely used entity extraction and relationship extraction model, Bidirection Long Short-Term memory (bilstm), combined with Convolutional Neural Networks (CNN), the feature value extraction and text entity and text relationship information acquisition are realized. At the same time, figure database NEO4J realizes the function of visual display of knowledge graph.
Keywords:knowledge graph; Bidirection Long Short-Term memory; Convolutional Neural Networks;NEO4J
目 录
目 录 1
第1章 绪论 1
1.1研究背景及意义 1
1.2国内外发展现状 2
1.3论文组织结构 2
第2章 文本预处理技术 4
2.1基于词向量及字向量的嵌入模型 4
2.1.1字向量 4
2.1.2词向量 4
2.1.3Word2vec模型 4
2.2文本三元组提取算法 6
第3章 双向长短时记忆神经网络 7
3.1长短时记忆神经网络结构及原理 7
3.2 双向长短时记忆神经网络网络结构及原理 10
第4章 基于BiLSTM-CNN的文本三元组抽取 11
4.1数据集处理 11
4.1.1数据标注处理 11
4.1.2基于标注数据的向量化处理 12
4..2卷积神经网络实现 12
4.2.1卷积神经网络原理及结构 12
4.2.2基于卷积神经网络的文本抽取 13
4.3神经网络的性能评估及优化 15
4.3.1损失计算机制 15
4.3.2评估机制 16
4.3.3预测机制 17
4.4基于文本三元组的知识图谱搭建 17
4.4.1NEO4J图数据库应用 17
4.4.2基于py2neo的知识图谱搭建 18
4.5实验结果及分析 18
4.5.1神经网络的性能分析 18
4.5.2文本三元组抽取的结果及分析 20
4.5.3基于三元组的知识图谱搭建 22
第5章 总结与展望 24
5.1论文总结 24
5.2未来展望 24
参考文献 25
附录 26
致谢 34
第1章 绪论
1.1研究背景及意义
随着社会经济的发展已经互联网的普及应用,社会上各个领域每时每刻都产生新的消息,互联网上的信息量正在以几何级数的增长速度增加。无论是文本消息还是数字消息,目前有限的人力资源无法处理无限的信息。而在这个信息爆炸的时代,快速获取信息成为了制定策略,优化方案,改变政策的关键。而另一方面,随着互联网的高速发展,目前每一个人都可以通过智能设备随时随地获取大量的信息。由《互联网发展报告(2019)》可知,截止2018年底,中国互联网使用用户已经达到8.29亿人,同比去年增长了5653万人[1]。随着互联网的发展,5G技术的日渐成熟以及人们对信息资源获取的需求都使得对信息获取的质量有了较大的提升。但目前面对浩瀚的信息海洋,人们往往需要在众多消息中获取自己需求的部分,并且过滤冗杂的信息。不仅如此,互联网上更充斥着虚假的信息,这给使用的用户以及需要获得信息的企业带来了极大的麻烦于不便。如何从庞大且复杂的信息体系中获取有用且简捷的信息被学界广泛讨论,这是一个亟待解决的问题。
为处理目前信息量巨大但有效信息有限且人力资源难以处理的问题,知识图谱(Knowledge Graph)应运而生。知识图谱,在学术界称为专业知识结构可视化或将专业知识转化或映射为一张简单易懂的图。通过一系列各种不同的图形,用可视化技术描述文本信息及其载体。从而使文本信息得以简化和提炼。知识图谱给在互联网领域中的自然语言处理以及文本搜索技术带来了新的研究方向与技术,同时也在自动回答领域显示出出色的性能。知识图谱已经得到广泛的应用,目前将知识图谱与机器学习,人工智能结合一起,成为推动互联网进步以及自然语言处理发展的核心驱动力之一[2]。