在深度学习框架下的中文文本自动摘要生成毕业论文
2021-04-05 00:46:14
摘 要
学院(系): | 信息工程学院 |
专业班级: | 电信1502班 |
学生姓名: | 宁可为 |
指导教师: | 郭志强副教授 |
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包括任何其他个人或集体已经发表或撰写的成果作品。本人完全意识到本声明的法律后果由本人承担。
作者签名:
年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保障、使用学位论文的规定,同意学校保留并向有关学位论文管理部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权省级优秀学士论文评选机构将本学位论文的全部或部分内容编入有关数据进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本学位论文属于1、保密囗,在 年解密后适用本授权书
2、不保密囗。
(请在以上相应方框内打“√”)
作者签名: 年 月 日
导师签名: 年 月 日
摘 要
在这个属于互联网的时代,互联网的发展与普及速度超乎我们的想象,现在已经处于了几乎是人人都能上网冲浪的时代了。与此同时,在如此众多的网民上网的同时也会产生大量的文本信息,如何在如此浩瀚的文本中快速筛选出自己需要的信息,此时就需要利用到文本自动摘要技术[1]。
文本自动摘要技术就是关于单个或多个文本作为输入,输出简明扼要的总结性文本,向读者传达最为关键的信息[2]。现在主流的单篇文本的文本自动摘要有两个方向——生成式和抽取式。在学习深度学习与文本向量化表示的同时,基于seq2seq-attention模型实现了生成式的自动摘要。同时,对于抽取式的我选择了基于TextRank算法计算句子权重再抽取摘要句子的方法。
本文的主要工作如下:
首先是对语料库使用python语言进行预处理,包括文本分词、去停用词、建立词典和生成词向量。
在实验阶段对两种不同的摘要方法进行了ROUGE评价。
关键词:深度学习;中文文本自动摘要;seq2seq- attention模型;TextRank算法;编码-解码结构
Abstract
In this era of the Internet, people's lives are already inseparable from the Internet. The rapid development and popularity of the Internet and mobile terminal devices is now in an era where almost everyone can surf the Internet. At the same time, when so many netizens access the Internet, they will also generate a large amount of text information. How to quickly filter out the information they need in such a vast text, and then use the automatic text summarization technology.
Text automatic summarization technology is about inputting single or multiple texts, outputting concise summary texts, and conveying the most critical information to the reader. The automatic text summary of the current single text has two directions—generating and decimation. While learning deep learning and text vectorization representation, the automatic summary of the generator is implemented based on the seq2seq-attention model. At the same time, for the decimation method, I chose the method of calculating the sentence weight based on the TextRank algorithm and extracting the summary sentence.
The main work of this paper is as follows:
The first is to use the Python language for preprocessing of the corpus, including text segmentation, degenerate words, build dictionaries, and generate word vectors.
ROUGE evaluations were performed on two different summary methods during the experimental phase.
Key Words:Deep learning;Chinese text automatic summary;seq2seq-attention model;TextRank algorithm;encoding-decoding structure
目 录
第1章 绪论 1
1.1 研究背景和意义 1
1.2 国内外研究现状 2
1.3 论文主要工作 3
1.4 论文组织结构 3
第2章 相关研究和方法 5
2.1 文本摘要技术 5
2.1.1 简单的中文文本摘要技术 5
2.1.2 基于深度学习的中文文本摘要技术 5
2.2 文本摘要的相关工具与算法 6
2.2.1 中文分词工具Jieba 6
2.2.2文本向量化算法word2vec 6
2.2.3 深度学习平台TensorFlow 7
2.3 文本摘要的评价方法 7
2.3.1 ROUGE评价方法 7
2.3.2 Edmundson评价方法 8
第3章 基于注意力的seq2seq模型的生成式文本摘要 9
3.1 基于注意力的seq2seq模型探讨与研究 9
3.1.1 RNN编码解码器 9
3.1.2 循环神经网络RNN原理 9
3.1.3 注意力机制 12
3.1.4 集束搜索方法生成摘要 13
3.2 基于双向LSTM的编码解码结构的概念与实现 13
3.2.1 单向LSTM的编码解码结构 16
3.2.2 双向LSTM的编码解码结构 17
3.4 数据集选择与数据集预处理 18
3.4.1 数据集选择 18
3.4.2 文本分词 18
3.4.3 文本预处理 18
3.4.4 建立词典 18
3.4.5 词向量生成 18
3.5 实验结果与分析 19
第4章 基于TextRank的抽取式自动文摘方法 28
4.1 PageRank算法思想 28
4. 2 TextRank算法思想 28
4. 3数据集选择与数据集预处理 29
4. 4实验结果和分析 29
第5章 总结与展望 33
5.1 论文总结 33
5.2 未来展望 33
参考文献 35
致谢 36
第1章 绪论
1.1 研究背景和意义
来到了二十一世纪,2019年已经是属于互联网的时代。当代人们的生活早已离不开互联网,互联网和移动终端设备的快速发展与普及,已经不知不觉中身陷其中了。由中国互联网网络信息中心公开的数据可以发现,截止2018年底,中国的网民数量规模已经高达7.31亿人,互联网的普及率也达到了53.2%,在这其中移动终端设备的联网用户比如手机网民占比高达95.1%,可见现在已经处于了几乎是人人都能上网冲浪的时代了[3]。与此同时,在如此众多的网民上网的同时也会产生大量的文本信息。以新浪微博为例,在短暂的24小时的时间里,新浪微博上就会产生高达亿计数量的微博。在这个互联网发达,信息爆炸的时代里,人们在通过搜索引擎查阅信息时,面对浩瀚无边的信息海洋,往往需要耗费一定的时间在众多文字信息中筛选出来自己真正需要的信息,滤除冗余的无用信息。不仅如此,某些搜索引擎甚至会在搜索结果里搪塞许多无用乃至是欺骗性的广告,给人们是生产生活带来许多不便。如何将庞大冗余的知识以一种简明扼要的方式展现给用户,使用户能在浩瀚的搜索结果中迅速寻觅到自己所需要的信息或知识,这是一个亟待解决的问题。而文本自动摘要技术的出现就是为了妥善解决这个问题[4]。
文本自动摘要技术就是指对文本的内容信息进行概括总结,通过输入文本,提取其中的关键内容信息进而输出其对应的摘要,反应文本的核心内容与中心思想。而使用深度学习的相关方法进行文本自动摘要是近几年来开始采用的技术方案。随着最近几年,深度学习正以人们意想不到的速度快速发展,越来越多的研究者开始尝试将神经网络和深度学习的相关技术应用在文本自动摘要上,这对于文本自动摘要的发展带来了长足的进步[5]。