基于Word2Vec和TextRank的中文文档自动文摘任务书
2020-04-17 19:46:25
1. 毕业设计(论文)的内容和要求
本课题的目标旨在利用各类中文新闻、文献,根据word2vec和textrank算法,学习和训练出一套适用的模型,用以快速归纳总结出文章主题,进而解决信息过载问题。
另外也可以解决人工文摘成本较高的问题。
人工智能的出现和深度学习的普及,自动文摘的提出,让传统人工文章摘要地位受到冲击。
2. 参考文献
[1] Mihalcea R, Tarau P.TextRank: Bringing Order into Texts [C]. In: Proceedings of Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004: 404-411. [2] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013(9): 30-34. [3] 顾益军, 夏天. 融合LDA与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2014(7-8): 41-47. [4] Goldberg Y, Levy O. Word2vec Explained: Deriving Mikolov et al. 's Negative-sampling Word-embedding Method [OL]. ArXiv, 2014. arXiv: 1402.3722v1. [5] Frank E, Paynter G W, Witten I H, et al.Domain-Specific Keyphrase Extraction [C]. In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. San Francisco: Morgan Kaufmann Publishers Inc., 1999: 668-673. [6] 耿焕同, 蔡庆生, 于琨, 等. 一种基于词共现图的文档主题词自动抽取方法[J]. 南京大学学报: 自然科学版, 2006, 42(2): 156-162. [7] 刘菲, 黄萱菁, 吴立德. 利用关联规则挖掘文本主题词的方法[J]. 计算机工程, 2008, 34(7): 81-83. [8] 蒋昌金, 彭宏, 陈建超, 等. 基于组合词和同义词集的关键词提取算法[J]. 计算机应用研究, 2010, 27(8): 2853-2856. [9] 刘俊, 邹东升, 邢欣来, 等. 基于主题特征的关键词抽取[J]. 计算机应用研究, 2012, 29(11): 4224-4227. [10] 李跃鹏, 金翠, 及俊川. 基于Word2vec的关键词提取算法[J]. 科研信息化技术与应用, 2015(4): 54-59. [11] 周练. Word2vec的工作原理及应用探究[J]. 科技情报开发与经济, 2015(2): 145-148. [12] Tomas M, Kai C, Greg C, et al. Efficient Estimation of Word Representations in Vector Space [OL]. ArXiv, 2013. arXiv: 1301.3781v3. [13] 曹洋.基于TextRank算法的单文档自动文摘研究[D].南京:南京大学,2016. [14] 王良芳.文本挖掘关键词提取算法的研究[D].杭州:浙江工业大学,2013. [15] 王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4.
3. 毕业设计(论文)进程安排
2019.1.8-1.10 确定题目 2019.1.11-1.31 查阅参考文献,了解课题要求,完成开题报告 2019.3.1-3.15 完成系统的相关理论知识学习 2019.3.16-3.25 完成系统的基本模型以及设计方案 2019.3.26-4.15 完成系统的详细设计 2019.4.16-5.1 初步完成整个系统的设计 2019.5.2-5.5 撰写软件使用说明书 2019.5.6-5.21 撰写论文,并通过电子邮件发给指导老师审核 2019.5.22-5.27 按指导老师意见修改论文并定稿打印装订 2019.5.28-6.15 准备毕业论文的答辩,包括答辩演示文稿等