基于神经网络的命名实体识别和关系抽取联合学习研究毕业论文
2021-11-05 19:07:19
摘 要
随着网络信息量的日益增长,越来越多的学者开始关注如何从海量的文本信息中提取出有效的信息,学术界对于从非结构化的文本中抽取信息这一课题的研究也越来越多。在信息提取领域,命名实体识别和关系抽取是两个十分重要的任务,对于知识抽取和知识库的自动构建有着重要意义[1]。目前的解决方案主要分为两类,即流水线方法和联合学习方法。
早期的研究,多为流水线方法,该类方法将命名实体识别和关系抽取当作是独立的工作,这样的做法虽然使得两个模块之间得以相互独立工作,且各个模块自由度高容易实现,不过这样忽略了两个任务之间的内部关系,还可能导致错误的传播,命名实体识别的结果可能影响到关系抽取的结果。其次,使用提取出的实体进行关系抽取时,如果将本不存在关系的实体两两组合,将会产生大量冗余信息。
对此,本文做了如下的工作:1.使用流水线的方法,利用BILSTM-CRF模型完成命名实体识别任务,利用PCNN模型完成了关系抽取任务;2.使用BiLSTM-LSTM端到端模型完成了联合学习的任务,同时抽取实体和关系;3.对比流水线方法和联合学习方法在NYT数据集上的完成情况,对比结果,分析得出结论。最终,联合学习方法的精度(0.5431)远高于流水线方法的精度(0.1207),这表明,联合学习方法的实际效果更好,在减少中间误差和信息冗余方面有着更优秀的表现。
关键词:神经网络;标记策略;联合抽取;命名实体识别;关系抽取
Abstract
With the increasing amount of information on the Internet, more and more scholars have begun to pay attention to how to extract effective information from massive text information. The academic research on the topic of extracting information from unstructured text More and more. In the field of information extraction, named entity recognition and relationship extraction are two very important tasks, which are of great significance for knowledge extraction and automatic construction of knowledge base[1]. There are two main types of current solutions, namely pipeline method and joint learning method.
Early researches are mostly pipeline methods. This kind of method regards named entity recognition and relationship extraction as independent work. Although this approach allows the two modules to work independently, and each module has a high degree of freedom, it is easy to implement However, this neglects the internal relationship between the two tasks, and may also lead to the propagation of errors. The results of named entity recognition may affect the results of relationship extraction. Secondly, when using the extracted entities for relationship extraction, if two entities that do not have a relationship are combined in pairs, a lot of redundant information will be generated.
In this regard, this article does the following work: 1. Using the pipeline method, using the BILSTM-CRF model to complete the named entity recognition task, using the PCNN model to complete the relationship extraction task; 2. Using the BiLSTM-LSTM end-to-end model to complete the joint The task of learning is to extract entities and relationships at the same time; 3. Comparing the results of the two methods on the NYT dataset, the analysis draws a conclusion. In the end, the accuracy of the joint learning method is 0.5431, which is higher than the 0.1207 of the pipeline method. This shows that the actual effect of the joint learning method is better and it has better performance in reducing intermediate errors and information redundancy.
Key Words:neural network; tagging scheme; joint extraction; named entity recognition; entity relationship extraction
目 录
第1章 绪论 1
1.1 研究背景和意义 1
1.2 国内外研究现状 2
1.3 论文研究内容 3
1.4 论文结构安排 3
第2章 基于BiLSTM-CRF模型的命名实体识别 5
2.1 命名实体识别 5
2.2 BIOES标注策略 5
2.3 模型说明 6
2.3.1 循环神经网络 6
2.3.2 长短时记忆模型 7
2.3.3 BiLSTM模型 8
2.3.4 条件随机场模型 8
2.3.5 BiLSTM-CRF模型 9
第3章 基于CNN模型的关系抽取 10
3.1 关系抽取方法 10
3.2 卷积神经网络 10
3.3 PCNN模型 10
3.3.1 向量表示 11
3.3.2 卷积 11
3.3.3 分段最大池化 12
3.3.4 Softmax输出 12
第4章 基于端到端模型的联合学习方法 13
4.1 联合学习方法 13
4.2 标注策略 13
4.3 从标注序列抽取结果 14
4.4 端到端模型的使用 14
4.4.1 BiLSTM-LSTM模型 14
4.4.2 BiLSTM-CRF模型 16
第5章 实验 17
5.1 实验设置 17
5.2 实验结果 18
5.3 结果分析 18
第6章 总结与展望 20
6.1 总结 20
6.2 展望 20
参考文献 22
致 谢 23
第1章 绪论
1.1 研究背景和意义
当前,随着网络信息量的增长,越来越多的学者开始关注如何从海量的文本信息中提取出有效的信息这一问题。从非结构化的文本中抽取信息这一课题也受到越来越多的学者的关注。在信息抽取领域,命名实体识别和关系抽取是两个十分重要的任务,对于知识抽取和知识库的自动构建有着重要意义。目前的解决方案主要分为两类,即流水线方法和联合学习方法。
图1.1 两种方法举例比较
在信息抽取这一领域当中,命名实体识别和实体关系抽取这两个任务是其中十分重要的两个研究方向,这两项课题也是构建知识库的重要步骤,这对于许多自然语言处理(NLP)任务都是有益的。目前完成这个问题的方法主要可以划分为流水线的方法和联合学习的方法这两类。前面一种方法首先需要先完成命名实体识别任务,获取文本中的实体,然后将识别出来结果进行相互组合,再通过模型完成关系分类,找出这两个实体间的关系。例如图1.1中,使用流水线方法时,先从文本中提取“Peking University”和“Beijing”两个实体,再根据模型,识别出其中的具体关系“Location-Contains”。流水线的方法将命名实体识别与实体关系抽取定义为两个相互独立的子任务,这一做法的优点是使得这两个模块之间相互独立,具有了更高的灵活度,更加易于分布进行实现[1]。但是在实际操作过程中,命名实体识别出现的错误会进一步带进关系抽取中,比如在未正确识别的实体间抽取关系,这样就可能导致错误传播,前一个模块的结果对后一个模块造成了影响,忽略了两个子任务之间的可能存在的联系。此外,在识别出来的实体当中,并非任意的两个实体之间均存在关系,对于抽取多个实体的文本,如果对不存在关系的实体对进行操作,将会造成信息的冗余,影响提取效果。而联合学习的方法,是同时进行实体和关系的抽取,如图1.1的例子中,直接从句子中抽取出(Peking University, Location-Contains , Beijing)这一三元组信息。为此,本文提出一种端到端的联合学习模型,通过一种标注策略,来同时提取实体和它们之间的关系,降低中间过程产生的误差,使得信息抽取的效果更加好。文中将通过在NYT数据集上的实验,来对比流水线方法和联合学习方法之间的差异,从而来证明我们的结论。
1.2 国内外研究现状