基于电力设备缺陷文本的实体关系抽取及可视化毕业论文
2021-11-07 21:09:07
摘 要
随着电网信息化的不断发展,在电网的运行过程中,会产生大量的有关于电力设备缺陷文本的数据,这些数据很难被高效的利用。针对这一问题,从电力设备缺陷文本中提取挖掘出故障的成因和因果关系成为了可以发展的方向。现如今对于文本处理的方法不断发展,深度学习、人工智能的发展也为达到这一目的提供了条件。本文拟采用BiLSTM-CRF算法对于电力设备缺陷文本实体抽取进行研究,采用BiLSTM-Attention模型对于电力设备缺陷文本实体关系抽取进行研究。
首先,对于电力设备缺陷文本进行预处理。由于缺陷文本中存在大量专有词汇以及特定的去停用词表,所以首先需要对于缺陷文本进行分词、去停用词、正则化处理。经过这一过程,可以得到相对标准化的文本格式。之后需要对于得到的文本进行实体抽取,这个过程采用了BiLSTM-CRF算法,通过三层的架构对于电力设备缺陷文本进行分析,得到实体抽取的结果。接下来就是对于电力设备缺陷文本中的实体关系进行抽取,采用了BiLSTM-Attention算法,通过添加了注意力机制可以对于影响程度进行加权得到更优的模型性能。
最后对于电力缺陷文本的实体抽取以及实体关系抽取的结果进行分析,在电力设备缺陷文本的实体抽取中,对比了添加特征向量与不添加特征向量两种输入对结果产生的影响。在电力设备缺陷文本的实体关系抽取中,对比了添加注意力机制与不添加注意力机制两种模型在相同的输入语料的情况下的输出变化。
关键词:BiLSTM模型;Attention机制;实体识别
Abstract
With the continuous development of power grid informatization, a large amount of data about power equipment defect texts will be generated during the operation of the power grid, which is difficult to be used efficiently. In response to this problem, extracting the causes and causality of faults from power equipment defect texts has become a development direction. Nowadays, the methods of text processing continue to develop, and the development of deep learning and artificial intelligence also provides conditions for achieving this goal. This paper intends to use BiLSTM-CRF algorithm to study entity relationship extraction.
First, pre-process the defect text of power equipment. Due to the existence of a large number of proprietary vocabulary and a specific stop word list in the defect text, the word segmentation, stop word removal, and regularization of the defect text need to be performed first. After this process, a relatively standardized text format can be obtained. Afterwards, it is necessary to perform entity extraction on the obtained text. This process uses the BiLSTM-CRF algorithm to analyze the defect text of the power equipment through a three-layer architecture to obtain the result of entity extraction. The next step is to extract the entity relationship in the power equipment defect text. The BiLSTM-Attention algorithm is used. By adding the attention mechanism, the degree of influence can be weighted to obtain better model performance.
Finally, the entity extraction of power defect text and the results of entity relationship analysis are analyzed. In the entity extraction of power equipment defect text, the effects of adding feature vectors and not adding feature vectors on the results are compared. In the entity relationship extraction of power equipment defect text, the output changes of the two models with and without attention mechanism are compared under the same input corpus.
Keywords:BiLSTM model; Attention mechanism; entity recognition
目录
摘 要 I
Abstract II
第1章 绪论 3
1.1 课题研究背景及意义 3
1.2 国内外研究现状 3
1.2.1 电力缺陷文本的研究现状 3
1.2.2 电力缺陷文本实体抽取研究现状 4
1.2.3 电力缺陷文本实体关系抽取研究现状 4
1.3 研究内容与组织架构 5
第2章 电力缺陷文本数据预处理 6
2.1 中文文本分词 6
2.1.1 分词工具 7
2.1.2 分词结果对比 7
2.2 去停用词 8
2.3 本章总结 9
第3章 电力缺陷文本实体抽取算法研究 10
3.1 电力缺陷文本实体抽取算法概述 10
3.1.1. 词向量 10
3.1.2 BiLSTM神经网络 11
3.2 基于BiLSTM-CRF的模型架构 11
3.2.1输入层的构建 12
3.2.2隐含层的构建 12
3.2.3 标注层的构建 13
3.3 电力设备缺陷文本实体抽取的模型训练 13
3.3.1前向神经网络 13
3.3.2 损失函数 14
3.4 本章总结 14
第4章 电力缺陷文本实体关系抽取算法研究 15
4.1 关系抽取的一般过程 15
4.2 相关技术原理 16
4.2.1 BiLSTM模型原理分析 17
4.2.2 Attention机制原理分析 17
4.3 BiLSTM-attention模型的构建 18
4.3.1 模型概述 18
4.3.2 模型训练 19
4.4 本章总结 19
第5章 电力缺陷文本实体关系抽取实验结果分析 21
5.1 实验语料与评价标准 21
5.1.1 实验语料 21
5.1.2 评价标准 22
5.2 实验结果分析 22
5.2.1 电力设备缺陷文本实体抽取结果分析 22
5.2.2 电力设备缺陷文本实体关系抽取结果分析 23
5.3 本章总结 23
第6章总结与展望 25
6.1 总结 25
6.2 展望 26
参考文献 27
致谢 28
第1章 绪论
1.1 课题研究背景及意义
随着电网信息化的快速发展,逐步积累了大量的数据资源,而这其中的电力缺陷文本数据蕴含着丰富的缺陷问题信息、检修记录、故障问题、故障因素等故障的关键特征[1],对于电力公司指导运检工作和缺陷分析诊断分析有着重要的作用。由于电网数据体量大、类型多、价值密度低的特征,我们通常采用大数据分析的方法来分析这部分数据。同样由于挖掘前景好,对于电力网络安全运行的意义大,电力网络大数据分析也成为了未来的趋势,对电力网络的提前维护有着重要作用。通过分析电力缺陷文本中的设备类型、设备型号、缺陷原因、缺陷部位等数据,可以找出某些设备的缺陷是否有家族成因、设备容易损坏的期限等问题,从而提前对于电力设备进行维护、对于某一批次的电力设备进行质量检测,也可以避免用户端发生用电安全问题。
在电网领域中,命名实体的数量多而且形式丰富,如线路名称、设备类型、缺陷等都有各个方面的专有名词,需要建立电力文本语料库。在电网运行的过程中,这个语料库一定是不断增加的,会有补充和修订,这也关系到电力文本挖掘的准确性和科学性[2]。