基于Word2Vec和TextRank的中文文档自动文摘毕业论文
2020-04-17 15:07:45
摘 要
在互联网时代,随着信息技术的高速发展,人们迎来了大数据时代。互联网上信息的爆发式增长使得市场对于快速且高准确度的文摘需求日益增长。传统的文摘方式大多采用人工阅读后总结,其结果可能带有主观性,此外其高时间与高人力成本也与现代社会节奏不符。因此在人工智能技术高速发展的当下,人们在自然语言处理方面也对自动文摘进行了研究。随着研究深入以及准确率的提高会使得自动文摘成为大数据信息时代文字处理的利器。
本论文利用Python开发技术,在PC Windows10平台下开发出一个中文文档自动文摘系统。首先利用Python对从网络获取的语料库进行文档繁简中文转换、句子分割、分词和语义分析处理,然后使用Word2Vec进行模型训练并对文档进行关键词抽取,再利用TextRank算法对句子进行抽取形成摘要,最后将模块整个并加上简单UI用户界面,完成整个自动文摘系统。
关键词:Python Word2Vec TextRank 自然语言处理 自动文摘系统
Chinese document automatic digest based on
Word2Vec and TextRank
Abstract
With the rapid development of information technology, in the Internet age,, people have ushered in the era of big data. The explosive growth of information on the Internet has led to an increasing demand for fast and highly accurate Summairzations. Most of the traditional abstracts are summarized after manual reading, and the results may be subjective. In addition, their high time and high labor costs are also inconsistent with the pace of modern society. Therefore, in the current rapid development of artificial intelligence technology, people also studied automatic summairzation in natural language processing. With the deepening of research and the improvement of accuracy, automatic summairzation will become a tool for word processing in the era of big data information.
This paper uses Python to develop a Chinese document automatic summairzation system under the PC Windows10 platform. Firstly, using Python to carry out document conversion Chinese sentence conversion, sentence segmentation, word segmentation and semantic analysis processing from the corpus obtained from the network, then use Word2Vec to carry out model training and keyword extraction of the document, and then use TextRank algorithm to extract the sentence to form a summary. Finally, the entire automatic summairzation system is completed by adding a simple UI user interface to the module.
Keywords: Python; Word2Vec;TextRank; Natural Language Processing; Automatic Summairzation System;
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 背景和研究意义 1
1.2 研究现状 1
1.3 研究内容 2
1.4 结构安排 3
第二章 研究综述 4
2.1 自动文摘 4
2.1.1 自动文摘的定义 4
2.1.2 自动文摘的分类 4
2.1.3 自动文摘的研究方法 4
2.1.4 自动文摘的基本流程 5
2.1.5 自动文摘的评价 6
2.2 TextRank算法 8
2.2.1 算法介绍 8
2.2.2 关键词抽取 8
2.2.3 关键句抽取 9
2.3 Word2Vec 10
2.3.1 Word2Vec简介 10
2.3.2 自然语言处理中词的表示 10
2.3.3 两种模型 11
2.3.4 两种训练方法 13
2.4 本章小结 16
第三章 研究设计 17
3.1 基于词特征的关键词提取 17
3.2 句子相似度计算 17
3.2.1 基于信息量的相似度计算方法 17
3.2.2 基于编辑距离的相似度计算方法 18
3.2.3 基于语义词典的相似度计算方法 18
3.3 句子权重计算 18
3.3.1 基于TextRank的句子权重计算 18
3.3.2 基于位置的句子权重计算 18
3.3.3 基于线索词的句子权重计算 18
3.4 界面设计 19
3.5 本章小结 19
第四章 实验与分析 21
4.1 实验语料库 21
4.2 实验环境 21
4.3 语料库处理和模型建立 22
4.4 关键词抽取实验分析评价 24
4.5 关键句抽取实验分析和评价 26
第五章 总结与展望 27
5.1 总结 27
5.2 展望 28
参考文献 29
致谢 30
第一章 绪论
互联网的高速发展使得网络信息呈现爆发式增长。在尤其重视高效的今天,对于新闻业,追求新闻的“快、准、短”成为重要课题,因此一个准确快速的文档自动摘要系统就显得十分必要。自动文摘不但能减少新闻业的人工和时间成本,还能减少读者阅读所需时间以吸引更多的读者。
背景和研究意义
近几年,在国家政策的引导下,国内信息技术和互联网迅猛发展,中国迎来了大数据时代,大数据时刻围绕在周围,每个人不断地获取与贡献着数据信息。处在这信息数字化的世界,人们获取信息的途径也不再局限于纸质文章、广播电视或巷间消息,互联网这一新兴且高效的传播方式正在展现它强大的竞争力。据中国互联网络信息中心第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模达8.29亿,互联网普及率为59.6%,较2017年底提升了3.8%。其中网络新闻用户规模达6.75亿,较2017年底增长4.5%,网民使用比例为81.4%[1]。此外,随着十三五计划的进行,基础设施的铺设,互联网覆盖面将继续扩大,必将迎来更多新网民。
由此可知,互联网已经成为人们获取新闻的首要来源。此外,随着中国国际地位的提高,汉语被广泛应用于各种重要的国际场合。对于国内外的新闻发布者而言,如何快速准确的将获取到的中文长文进行浓缩并形成摘要已经成为一个迫切需要解决的重要课题。而自然语言处理提出的自动文摘正好为这需求提供了方案。