基于循环神经网络的新闻摘要生成模型研究与实现开题报告
2022-01-14 21:44:33
全文总字数:2724字
1. 研究目的与意义及国内外研究现状
如今我们处在一个信息泛滥的时代,随着互联网的迅猛发展,网络中的新闻资源日益增长,人们每天都需要接受大量的信息,然而许多虚假的欺骗性的新闻标题会浪费很多的时间和精力。如果这时候有一种工具能先替我们阅读新闻,再提炼出关键内容,生成真正合适的标题。这对我们的生活无疑会有非常大的便利。而这需要的就是“文本摘要自动生成”技术。文本摘要充斥着我们生活的方方面面,而自动摘要技术可以提高我们在信息检索过程中获取信息和知识的效率。将文本摘要技术运用到新闻标题上,既可以帮助用户筛选新闻,也可以帮助企业对用户的兴趣进行智能推荐。
国内外研究现状
现在国内外对自动文本生成摘要已经有一定研究,目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。抽取式的摘要目前已经比较成熟,但是抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要的质量和流畅度都有很大的提升,但目前也受到原文本长度过长、抽取内容不佳等的限制。至今并没有一个非常让人满意的、成熟的技术来解决这个问题。所以对自动文本摘要问题进行学习和研究,其重要意义是显而易见的。
在总结文章时,我们的大脑使用抽象思维,现在我们可以通过深度学习来模拟这个过程。循环神经网络(rnn)是一种可以存储记忆信息的递归神经网络,是自然语言处理序列任务中非常有效的模型。近年来,对机器学习和神经网络的研究迅速发展,在技术领域有多种应用,如翻译,图像识别,聊天机器人控制,疾病预测等。我们相信它在文本摘要中也会表现良好。
2. 研究的基本内容
研究的主要内容包括:
(1)文本分析过程:对原文进行分析处理,识别出冗余信息;
(2)文本内容的选取和泛化过程:从文档中辨认重要信息,通过循环神经网络学习文本,形成文摘表示;
3. 实施方案、进度安排及预期效果
该程序通过对新闻的概括和标题的生成,使读者能够更快捷的阅读自己所需要的新闻,也可以帮助企业对用户的兴趣进行智能推荐。算法智能推荐在将来也必将成为该领域的主流,基于循环神经网络的文摘研究的重要性显而易见。
进度安排:
2019.1.1—2019.2.26 完成论文整体框架和演示系统主要功能
4. 参考文献
[1] huang z, xu w, et al.: bidirectional lstm-crf models for sequence tagging[j], arxiv:1508.01991 (2015)
[2] c. cortes, n.d, et al.: lawrence advances in neural information processing systems 28, nips(2015)
[3] martin s, ralf s, et al.: from feedforward to recurrent lstm neural networks for language modeling, ieee (2015)