基于Word2Vec和TextRank的中文文档自动文摘文献综述
2020-04-17 16:52:54
文 献 综 述 一、开发背景 信息技术和互联网的高速发展,使现代社会迎来大数据时代的到来,无论在工作中还是生活中人们都被海量的信息所包围。
在这个信息数据的时代里,人们获取信息的途径越来越偏向于网络。
据中国互联网络信息中心第36次中国互联网络发展状况统计报告截至2015年6月,我国网民规模达6.68亿,互联网普及率为48.8%,较2014年底提升了0.9个百分点。
iUserTracker是艾瑞咨询网中的互联网数据资讯聚合平台推出的网民连续用户行为研究系统,其中最新数据显示,2015年5月,网页搜索日均覆盖人数达1.4亿人,网民到达率为57.5%,位居第一。
由此可知,互联网成为人们获取信息的首要来源。
如何快速有效的浏览和查阅互联网上信息,对信息进行有效的浓缩和摘要,己成为这个时代所要解决的重要课题之一。
文本摘要是通过简洁的语句来表达原始文本的主要内容,所以读者可以通过摘要初步了解文本的主要内容,从而快速准确地找到所需要的信息。
在这个海量信息的时代,自动化处理文本获取文本摘要越来越受到了专家和研究者的关注。
二、国内外的研究现状 自动文摘技术从上世纪50年代国外就有专家学者开始研究,经历了半个多世纪的研究与发展,国外的研究水平已经相当成熟。
汉语语言是一种特殊的自然语言与西方的英语有着许多不同的地方,就词而言,英文单词之间是以空格作为自然分隔符的,而中文只有字、句和段能通过明显的分隔来简单划界,唯独词与词这间没有一个形式上的分隔符。