在深度学习框架下的中文文本自动摘要生成开题报告
2020-02-18 19:22:38
1. 研究目的与意义(文献综述)
1.1 研究意义
随着二十一世纪的到来,互联网和移动终端设备的快速发展与普及,让越来越多的人们可以方便快捷地接触到网络上各种各样的信息。由中国互联网络信息中心发布的数据显示,截止2016年底,中国网民规模已经达到7.31亿,互联网普及率达53.2%,其中手机网民占比95.1%,可见现在已经处于几乎是人人上网的时代了。与此同时,互联网上每时每刻也在产生着大量的信息,仅以新浪微博为例,在短短一天之内新浪微博上就会产生数以亿计的微博。在这个信息爆炸的时代里,人们在通过搜索引擎查阅资料时,面对浩瀚无边的信息海洋,往往需要花费一定的时间精力去筛选出有效信息,滤除冗余的备选信息。不仅如此,某些搜索引擎还会在搜索结果里搪塞广告信息。这给人们在网络上获取有用的信息带来了巨大的阻碍,给人们的生产生活造成了诸多不便。如何将庞大冗余的知识以一种简明扼要的方式展现给用户,使用户能在浩瀚的搜索结果中迅速寻觅到自己所需要的信息或知识,这是一个亟待解决的问题。而文本自动摘要技术便是妥善解决这个问题的一个有效途径。
文本自动摘要技术就是指对文本的内容信息进行概括总结,通过输入文本,提取其中的关键内容信息进而输出其对应的摘要,反应文本的核心内容与中心思想。而使用深度学习的相关方法进行文本自动摘要是近几年来开始采用的技术方案。随着近年来深度学习的快速发展,越来越多的研究者开始尝试将神经网络的相关技术应用在文本自动摘要上,这对于文本自动摘要的发展带来了长足的进步。
研究文本自动摘要技术,不仅仅可以对互联网海量的文本信息进行及时有效的压缩,并且对于改善搜索引擎的检索结果、提高信息时效性、舆情风向检测、话题检测与跟踪等方面都有着非常重大的意义。
2. 研究的基本内容与方案
2.1 研究目标
使用python语言,实现基于深度学习的中文文本自动摘要。近年来,随着深度学习的火热研究,循环神经网络(rnn)这种能执行序列数据计算的神经网络已经成为了自然语言处理(nlp)中对于序列生成任务处理的标准方法,在文本自动摘要中也是展现出了不错的性能。本次主要研究自然语言处理中的基于深度学习的中文文本自动摘要技术,包括文本预处理和自动摘要提取等技术,设计并搭建仿真验证平台完成文本自动摘要算法并验证摘要结果。
2.2 研究内容
研究深度学习在中文文本摘要自动生成中的应用,完成中文自动摘要的文本信息过滤、中文分词实现、词性标注、关键词提取、摘要提取等内容,以及其在linux或windows环境下基于python语言的实现,并采用rouge(recall-orientedunderstudy for gisting evaluation)来进行比对、评估与评价。
2.3 拟采用的技术方案及措施
本系统的设计分为基于深度学习的文本预处理和基于深度学习的自动摘要提取和评价两部分。
3. 研究计划与安排
第 1-3周:查阅相关文献资料,明确设计内容,了解基于深度学习的中文文本自动摘要的相关理论知识,完成开题报告;
第 4-6周:学习python语言和开发平台的使用,明确设计方法;
第 7-8周:完成软件仿真设计及软件的编写;
4. 参考文献(12篇以上)
[1]rush a m, chopra s, weston . a neural attention modelfor abstractive sentence summarization. 2015
[2]hu b t, chen q c, zhu f z. lcsts: alarge scale chinese short text summarization dataset. 2015
[3]nallapati r, zhou b, santos c n d,gulcehre c, et al. abstractive text summarization using sequence-to-sequencernns and beyond. 2016
[4]gu j t, lu z d, li h, et al.incorporating copying mechanism in sequence-to-sequence learning. 2016