在深度学习框架下的中文文本自动摘要生成文献综述
2020-04-14 17:27:12
1.1 研究意义
随着二十一世纪的到来,互联网和移动终端设备的快速发展与普及,让越来越多的人们可以方便快捷地接触到网络上各种各样的信息。由中国互联网络信息中心发布的数据显示,截止2016年底,中国网民规模已经达到7.31亿,互联网普及率达53.2%,其中手机网民占比95.1%,可见现在已经处于几乎是人人上网的时代了。与此同时,互联网上每时每刻也在产生着大量的信息,仅以新浪微博为例,在短短一天之内新浪微博上就会产生数以亿计的微博。在这个信息爆炸的时代里,人们在通过搜索引擎查阅资料时,面对浩瀚无边的信息海洋,往往需要花费一定的时间精力去筛选出有效信息,滤除冗余的备选信息。不仅如此,某些搜索引擎还会在搜索结果里搪塞广告信息。这给人们在网络上获取有用的信息带来了巨大的阻碍,给人们的生产生活造成了诸多不便。如何将庞大冗余的知识以一种简明扼要的方式展现给用户,使用户能在浩瀚的搜索结果中迅速寻觅到自己所需要的信息或知识,这是一个亟待解决的问题。而文本自动摘要技术便是妥善解决这个问题的一个有效途径。
文本自动摘要技术就是指对文本的内容信息进行概括总结,通过输入文本,提取其中的关键内容信息进而输出其对应的摘要,反应文本的核心内容与中心思想。而使用深度学习的相关方法进行文本自动摘要是近几年来开始采用的技术方案。随着近年来深度学习的快速发展,越来越多的研究者开始尝试将神经网络的相关技术应用在文本自动摘要上,这对于文本自动摘要的发展带来了长足的进步。
研究文本自动摘要技术,不仅仅可以对互联网海量的文本信息进行及时有效的压缩,并且对于改善搜索引擎的检索结果、提高信息时效性、舆情风向检测、话题检测与跟踪等方面都有着非常重大的意义。
在现如今信息时代的背景下,文本自动摘要技术有着其必然的需求和广泛的应用前景,研究和改进文本自动摘要的技术方法,对于自然语言处理乃至信息技术的发展都有着至关重要的现实意义。
1.2 国内外研究现状
国际上对于文本自动摘要的研究始于上个世纪50年代。IBM公司的H.P.Luhn在1958年发表了文本自动摘要领域的第一篇学术论文,Luhn以统计学为基础,融合了词频、位置等信息,通过计算机对词频的统计计算自动地得到文本自动摘要,并且Luhn首次提出了给予关键词提取的自动摘要技术。自此,文本自动摘要的发展便拉开了序幕。随后,Baxendale提出了文章中句子位置对于句子权重的影响,Baxendale发现主题句有85%的概率出现在段首,有7%的概率出现在段尾,对于这些主题句可以有特殊的权重。同时他在对特征词的选取上也做出了部分改进,具体方法是删除功能词、从论题句中选择内容词、从正文的介词短语中选词。紧随其后的Edmundson综合了多种特征进行句子排序,包括词频、线索词、句子位置和文章的结构信息。在60年代,同样是IBM公司对Luhn的方法在句子权重方面进行了进一步的改进,在其基础上开发了文本自动摘要系统ACSI-Matic。与此同时,James A.Rush在俄亥俄州立大学也研发了文本自动摘要技术ADAM,强调摘要生成过程中不是选择句子而是排斥句子。来到了90年代,随着互联网的发展和普及,文本自动摘要的价值被充分体现了出来,引起了人们的广泛关注,同时机器学习的快速发展,一些研究者开始将机器学习的相关方法应用到文本自动摘要领域。1995年Kupiec提出了一种确定文章中某个句子是否应该作为摘要被提取,即通过计算每个句子成为文章摘要的概率,将概率值最高的句子提取出来作为摘要的方法。2001年Conroy将马尔科夫模型应用在了文本自动摘要领域。Kupiec等人将文本自动摘要作为二分类问题进行处理,参考Na#239;ve-Bayes算法预测分类的概率问题,摘要提取句子特征包括词频、句子位置、线索词和文章的框架信息,并考虑了词中大写单词和句子长度这两个新的特征。Hovy和Lin共同研发的Summarist新闻摘要系统采用了数量较多的特征集,同时通过决策树学习,对特征和特征的组合方式进行了处理和优化分析。Ouyang等人提出根据句子和人工编写的参考摘要在n-gram粒度的相似度计算句子的分数,并在此之上构造训练数据。PrekshaNema等人提出基于编码-解码模型并在此基础上引入注意力模型的用户查询方法的生成式摘要方法,其使用的多样化注意力模型可以有效减少摘要生成重复部分。Narasimhan等人通过强化学习框架,基于文本的前后文的信息,基于已知信息作出最佳判断,从而提高摘要抽取的精度。2013年后,随着深度学习技术在分布式语义、视觉图像、机器翻译、语言模型等任务上取得了一系列进展性的突破,并取得了一定成果,越来越多的人们开始将深度学习和文本自动摘要融合了起来。基于深度学习的方法进行文本自动摘要,可以免去人工特征提取这一繁琐的步骤,只要有足够多的输入输出即可开始训练。2016年,Facebook团队利用新闻中的首句和新闻标题作为输入输出对,成功地完成了摘要生成。2017年Paulus等提出了一种获取长文本摘要的方法,其具体方法是结合注意力机制对英文新闻长文本进行自动文摘获取。
而我国对于文本自动摘要的研究起步较晚,直到80年代中后期才开始。中文与英文在信息的最基本负载单位的不同,导致了中文文本自动摘要存在特有的分词问题。中文词汇的浩瀚无边、缺乏表示语法意义的词性变化,也给词频统计和句法分析带来了不小的困难。虽然困难重重,我国的研究人员在文本自动摘要领域里取得了显著的成果。1992年,哈尔滨工业大学的王开铸教授开发的MATAS系统,是基于自然语言理解的文摘实验系统。1997年,上海交通大学的王永成教授研制了OA中文文献自动摘要系统,该系统融合多种特征以提升性能。复旦大学的吴立德教授研制的FDASCT系统是综合文摘系统,以统计分析为主。2016年,清华大学的万小军等人开发了PKUSUMSUM系统,其支持单文档、多文档和基于主题的多文档摘要。{title}2. 研究的基本内容与方案
{title}2.1 研究目标
使用Python语言,实现基于深度学习的中文文本自动摘要。近年来,随着深度学习的火热研究,循环神经网络(RNN)这种能执行序列数据计算的神经网络已经成为了自然语言处理(NLP)中对于序列生成任务处理的标准方法,在文本自动摘要中也是展现出了不错的性能。本次主要研究自然语言处理中的基于深度学习的中文文本自动摘要技术,包括文本预处理和自动摘要提取等技术,设计并搭建仿真验证平台完成文本自动摘要算法并验证摘要结果。
2.2 研究内容
研究深度学习在中文文本摘要自动生成中的应用,完成中文自动摘要的文本信息过滤、中文分词实现、词性标注、关键词提取、摘要提取等内容,以及其在Linux或Windows环境下基于Python语言的实现,并采用ROUGE(Recall-OrientedUnderstudy for Gisting Evaluation)来进行比对、评估与评价。
2.3 拟采用的技术方案及措施
本系统的设计分为基于深度学习的文本预处理和基于深度学习的自动摘要提取和评价两部分。
对于基于深度学习的文本预处理,首先进行文本信息的过滤,文本对象按其层级可以分为词语、词组、句子和文章、文本是高度非结构化的数据,在其中包含着各种各样的噪音,若不对文本中的噪音(冗余信息)进行处理,将无法顺利实现中文分词和词性标注;然后进行中文分词,针对长文本带来的远距离依赖和文字权重不均的问题,我选择采用双向LSTM网络,对待处理的文本进行两次学习,同时引入注意力机制和编码-解码结构以便获得更佳的结果;随后进行词性标注,使用基于序列标注的方式,以词为单位对句子进行词边界和词性的标注,同时引入线性统计模型CRF以获得更大的优势。
对于基于深度学习的自动摘要提取和评价,首先进行关键词的提取,我选择使用word2vec模型将词汇转化成为特定维度的词向量形式,可通过对输入数据的训练,得到可以表征词语见语义关系的低维向量形式,然后利用词向量计算词汇之间的相似性来获取更新后的词语特征权重;然后便是重中之重的自动摘要提取的步骤了,我选择使用Google公司提出的基于句子权重迭代计算的文本排序方法TextRank来实现文本自动摘要。TextRank提取关键词短语的方法基于关键词提取,即如果提取出的若干关键词在文本中相邻然后构成一个被提取的关键短语。最后采用ROUGE来对自动摘要结果进行评价,ROUGE是受到机器翻译自动评价方法BLEU的启发,不同之处是ROUGE采用召回率来作为评价依据,其基本思想是将模型生成的摘要与参考摘要的n元贡献统计量作为评判依据。