基于神经网络的命名实体识别及关系抽取联合学习研究毕业论文
2021-10-26 22:35:38
摘 要
随着文本信息在互联网上的指数增长,自动化语言处理成了一项关键技术,如何将非结构化的文本抽取为结构化的信息受到了学界的广泛关注。信息抽取框架下两个最重要研究内容是命名实体识别和关系抽取,传统的研究主要采用流水线方法,将信息抽取分解为两个子任务,可以各自套用不同的模型,实体识别的结果会影响关系抽取而带来累积误差;近几年逐渐流行的联合学习方法很好的整合了实体和关系信息,降低了中间步骤产生的错误,但很多研究仍存在信息冗余的问题。
本文提出了一种标记策略,构建CNN-LSTM端到端神经网络模型,结合了CNN容易获取局部特征和LSTM可以处理长距离依赖的特点,一定程度上避免了冗余信息的产生。在NYT数据集上实验结果表明,联合学习方式比流水线方法F1值提高28%,精确率比CoType提升13%,初步解决了冗余信息问题。
关键词: 神经网络;联合模型;命名实体识别;关系抽取;LSTM
Abstract
With the exponential growth of text information on the Internet, automated language processing has become a key technology, and how to extract unstructured text into structured information has attracted widespread attention in the academic community. The two most important research contents under the information extraction framework are named entity recognition and relationship extraction. Traditional research mainly uses the pipeline method to decompose information extraction into two sub-tasks. Different models can be applied to each. The result of entity recognition will affect the relationship extraction It brings cumulative errors; the joint learning methods that have become popular in recent years have well integrated entity and relationship information and reduced errors in intermediate steps, but many studies still have the problem of information redundancy.
We propose a labeling strategy to construct an end-to-end neural network model of CNN-LSTM, which combines CNN's easy access to local features and LSTM's ability to handle long-distance dependence, to a certain extent, avoiding the generation of redundant information. The experimental results on the NYT data set show that the joint learning method is 28% higher than the pipeline method F1 value, and the accuracy rate is 13% higher than CoType, which initially solves the problem of redundant information.
Key words: Neural network; Joint method; Named entity recognition; Relation Extraction; LSTM
目 录
第1章 绪论 1
1.1研究背景及意义 1
1.2国内外研究现状 1
1.3课题研究内容 3
1.4论文结构安排 3
第2章 实体识别和关系抽取相关理论与方法 5
2.1实体-关系三元组 5
2.1.1实体 5
2.1.2关系 5
2.1.3实体-关系三元组 6
2.2神经网络算法 6
2.2.1卷积神经网络 6
2.2.2长短时网络 9
2.3注意力机制 11
2.4条件随机场 12
第3章 基于流水线的命名实体识别及关系抽取 14
3.1基于BiLSTM-CRF的命名实体识别 14
3.1.1 BIOES标注 14
3.1.2词嵌入层 14
3.1.3 BiLSTM-CRF模型 14
3.2基于CNN的关系抽取 16
3.2.1嵌入层 16
3.2.2 CNN编码层 16
3.2.3 Softmax层 17
第4章 基于CNN-LSTM的实体及关系联合抽取 18
4.1标注策略 18
4.2端到端模型 18
4.2.1词嵌入层 19
4.2.2 CNN编码层 20
4.2.3 LSTM解码层 21
第5章 实验结果分析 23
5.1实验设定 23
5.2实验结果 24
第6章 总结与展望 27
6.1总结 27
6.2展望 27
绪论
1.1研究背景及意义
当代信息技术的发展对人类社会生活产生巨大的影响,互联网上的信息越来越呈现出指数形式爆发增长的态势,而文本信息在网络内容中占据了相当重要的组成部分,如何更准确地抽取信息并进行语言处理成为亟待解决的问题。
信息抽取的基本单元是三元组,即(实体1,关系,实体2),如(北京,首都,中国)。信息抽取可分为命名实体识别和关系抽取两大块,命名实体识别是信息抽取的根本,需要从文本或XML文档中准确识别出实体元素并转换为预先规定的几大类型,而关系抽取主要目的是识别并分类两个或多个实体之间的语义关系。如句子“Martin, the district attorney for Lehigh County in Pennsylvania, said that after his office 's review of the records, he was satisfied with Mr. Cullen 's denials.”包含的三元组是(Pennsylvania, contains, Lehigh County);句子“The husband, Carlos Alvarez, an associate professor of psychology at Florida International University in Miami, and his wife, Elsa Alvarez, right, a social worker also employed by the university, were arrested this month on charges of spying on Cuban-American exile groups and providing information to Cuba without registering as foreign agents.”包含的三元组是(Elsa Alvarez, born in, Miami).
命名实体识别及关系抽取对NLP中的高级应用,如文本摘要、自动问答系统、机器翻译起着关系作用。从应用来看,他们在许多领域有着丰富的应用,下面列举其中五种:
(1)构建学术文本库。如谷歌学术、科塔学术等。
(2)网购商品搜索引擎,如AliNLP对用户搜索偏好的分析。
(3)生物信息学。如临床结果生成、基因交互等。
(4)财经领域。如公司全部的收购、获利、雇佣报表。
(5)商业/政府情报部门。如恐怖事件的涉案人数、使用的武器以及袭击的目标。
1.2国内外研究现状
命名实体识别和关系抽取的研究方法可以分为两大类。第一类是基于流水线的方法,将信息抽取分解为两个子任务,两个子任务可以各自套用不同的模型。第二类是同时进行命名实体识别与实体关系抽取,将两者视为一个统一的互相依赖的任务。
早期的大部分研究还是采用第一种方式,分离的框架让整个流程非常简单,且每一块也可以比较灵活[1]。然而由于两个子任务是独立的模型,两者间的关联被忽视,造成误差累积传播。另一方面,这些研究往往依赖于大量精细的人工特征工程[2, 3]和核方法[4, 5]。人工特征标注存在局限性和不稳定性的特点,且和领域相关,迁移性差[6]。
随着计算能力的大幅提升和模型的改进,卷积神经网络[7](Convolutional Neural Network)、长短时网络[8, 9] (Long Short-Term Memory Network)、循环神经网络[10](Recurrent Neural Network)在自然语言处理的很多领域都取得了突破性的进展,被广泛应用于实体识别和关系抽取任务中。深度学习方法不需要手工标注特征,输入可能是字符级、词级或者句子级的向量。最初的深度学习研究还是采用流水线方式。Santos[11]搭建的CR-CNN模型在SemEval-2010task 8数据集上取得了84.1%的F1值,优于当时最好的非深度学习方法;Socher[12]通过构建解析树模型来求解两实体间最短结点距离;Zhou[13]设计了Attention Bi-LSTM模型,在双向 LSTM 产生的词向量基础上,该模型通过注意力层组合词的向量产生句子向量,进而基于句子向量将关系分类;Yan提出依存树最短路径模型来应用于两个实体[14]。然而,这几种方法并不是端到端的联合模型,他们只是将深度学习方法应用在流水线问题上,忽略实体标签生成过程中引入的噪声,而直接在嘈杂的标签数据上训练机器学习模型,并没有解决误差累积问题。
为了降低误差传播,有研究开始构建基于深度学习的联合实体关系抽取方法。Miwa和Bansal[15]通过搭建双向树结构LSTM-RNNs来获取词序列和依存树关系,填表方式采用启发式搜索,实体识别与关系抽取通过参数共享提升了关系抽取的准确率。Zheng[16]设计了一种新型标注策略将联合学习问题转变为了标注问题,这让关系抽取模型变成了在BiLSTM编码基础上的LSTM解码。Pankaj[17]设计了多任务循环神经网络TF-MTRNN模型,实体-关系依赖被建模为捎带确认机制,也是采取参数共享的方法。Fu[18]提出了一种图卷积网络,既考虑了连续特征,也考虑了区域依赖特征,评测F1值在NYT数据集上达到了61.9%.然而,大部分研究目前仍存在的问题是关系仍是通过命名实体两两配对得到的,这样关系冗余并不能得到解决。
1.3课题研究内容
本文的主要研究内容是复现实体识别和关系抽取现有研究的模型,并找到一种准确率高、冗余信息少的方法,故设计了基于流水线方法和联合学习方法两个模型,具体工作如下:
(1)基于流水线的方法 第一步是命名实体识别,采用BIOES标注,利用双向LSTM网络编码,CRF进行解码,将实体连同句子输入CNN网络,最后通过Softmax层对实体对进行关系分类。
(2)基于联合学习的方法 联合学习方法使用了一种融合关系类型和实体角色的标注策略,设计了基于CNN-LSTM的端到端模型,最后的Softmax层引入注意力机制。
我们的模型是有监督学习模型,但手工标注实体-关系对太耗时且容易出错,因此我们在远程监督方式标注的NYT数据集[19]上实验,并复现几个经典的基线模型,与我们设计的联合学习方法进行比较,文本预处理部分采用相同的词嵌入方法,课题的技术路线图如图1.1。