基于迁移学习的地理实体关系抽取方法毕业论文
2021-03-19 22:04:07
摘 要
自然语言是作为地球生物对事物和空间的表示,其中地理实体关系在地理科学中占有重要作用,是构建类人智能项目中的地理知识库的关键步骤,利用迁移学习能够弥补含有地理领域实体关系少的缺陷。本论文在学习国内外研究相关内容的基础上,着重于基于迁移学习的地理实体关系抽取。主要包括以下工作的几个研究方面:
(1)构建地理及开放域普通文本训练资源库。互联网上有大量文本内容,利用爬虫解析网页上的文本信息作为数据集,是一个快速且充足的数据来源。通过人工构建部分地理领域语料,对数据进行预处理后存入到数据库中,为后面实体关系提供基础。
(2)对数据集利用LSTM进行实体关系抽取。这一步工作是在本文中至关重要的步骤,首先将文本语料进行tag标注,利用双层双向LSTM模型能够有效的捕捉语义的能力进行预测,再应用viterbi算法进行标注,同时将该抽取方法应用在地理领域文本抽取地理实体关系。
(3)利用迁移学习进行模型训练以提高对地理领域实体关系抽取的正确率。已知的专业地理领域的文本是少量的,利用含有大量实体关系的普通文本,用迁移学习进行地理文本训练,可以将普通文本中的大量实体关系应用在地理领域实体关系的抽取,纠正抽取实体关系的错误率。
关键词:地理实体关系;LSTM;迁移学习
Abstract
Natural language is a representation of things and space as a living object in the earth. Geographical entity relations play an important role in geography, and it is a key step in constructing geo-knowledge base in humanoid project. It can make up for the relationship of geography Less defects. Based on the study of relevant content at home and abroad, this paper focuses on the extraction of geographic entity relations based on transfer learning. It mainly includes several research aspects of the following work:
⑴to build a geography and open field general text training resource library. There are a lot of text on the Internet, the use of crawlers to parse the text on the page as a data set, is a fast and adequate data source. Through the artificial construction of part of the geographical field corpus, the data pre-processed into the database, for the back of the entity to provide the basis for the relationship.
⑵he data set using LSTM entity relationship extraction. This step is a crucial step in this paper. First, the text corpus is tagged, and the two-way two-way LSTM model can be used to predict the ability to capture semantics. Then, the viterbi algorithm is used to annotate the method. Geographic entity relations in geography.
⑶ using transfer learning to model training to improve the accuracy of the extraction of physical relations in the geographical area. The text of the known professional geography field is a small amount. Using the ordinary text with a large number of entity relations, the geographic text training with transfer learning can be used to extract the large number of entity relations in the general text into the extraction of the entity relations in the geographical field, The error rate of the relationship.
Key Words:Geographic entity relations; LSTM; Transfer learning
目 录
摘 要 I
目 录 II
第一章 绪论 1
1.1 课题研究背景与意义 1
1.2国内外研究现状 2
1.2.1实体关系抽取 2
1.2.2迁移学习 3
1.3 论文研究内容及技术路线 5
1.5 论文组织结构 6
第二章 实体关系数据集预处理 7
2.1 地理领域实体关系特点 7
2.2 基于开放域文本的实体关系获取 7
2.3 实体关系数据集预处理 10
2.3.1 地理文本训练集预处理 10
2.3.2 普通文本训练集预处理 10
2.4 本章小结 11
第三章 基于LSTM的实体关系抽取 12
3.1 基于LSTM的实体关系标注模型 12
3.1.1 LSTM和GRU模型优差 12
3.1.2 基于LSTM的实体标注模型 15
3.2 实体关系抽取网络结构设计 17
3.3 本章小结 19
第四章 基于迁移学习的地理实体关系抽取 20
4.1 基于权重迁移的地理实体关系抽取 20
4.2 地理领域迁移学习方案设计与实现 20
4.3 实验统计及评估 21
4.4本章小结 22
第五章 总结与展望 23
5.1总结 23
5.2展望 23
参考文献 24
致 谢 26
第一章 绪论
1.1 课题研究背景与意义
人类社会的发展已经不在局限于人类本身,人类对于机器也提出了高要求,希望机器能够像人脑那样思考、学习和判断,帮助人类完成以肉体难以完成的作业。机器学习就在一些计算机领域中的学者提出下应运而生,由于时代的局限,人类对机器学习的定义产生争论。机器学习有以下定义:机器学习是对能通过经验自动改进的计算机算法的研究[1]。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中,改善具体算法的性能。机器学习,是用数据或以往的经验,以此优化计算机程序的性能指标[1]。更进一步,发展出了深度学习,深度学习[16,17]是机器学习中,一种基于对数据进行表征学习的方法[2]。随着机器学习的发展,在2006年深度学习被提出,其动机在于建立、模拟人脑进行,分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本[3]。
深度学习的不断发展,构建了数种深度学习结构,包括深度神经网络、递归神经网络、深度置信网络、卷积神经网络和结合体卷及深度置信网络,这些深度学习框架在计算机视觉、自然语言处理和语音识别等领域产生了良好的效果。自然语言处理中的一个重要范畴信息抽取[4],信息抽取就是要把各种文本资源里的非结构化信息进行逻辑推理等转化为结构化信息,然后以结构化的形式利用和存储。信息输入的资源可能使毫无关联的文本内容,但是抽取出来的可能就是一段含有意义的结构化信息。要让机器能够向人脑转化需要大量的资源,传统的书籍、纸质图片要让机器获取需要耗费漫长时间,网络诞生为机器学习提供了大量所需资源。然而网络上的信息资源良莠不齐,为机器学习和深度学习增加了难度,人脑对于这些信息无法进行有效的处理,让机器来筛选这些信息在某些环境下可能更难实现,应用迁移学习则能够缓解这一压力。