短文本自动摘要算法研究文献综述
2020-04-14 19:52:15
1.1目的及意义
科技的发展极大地促进了社会的进步,社会节奏愈发加速,我们已经进入信息化时代。得益于科技革命,网络门槛的降低使得人们更直接,更容易,更平等的接触信息,获得信息,发布信息以及使用信息。但通过网络能获得的信息以多种形式呈现,如文本、音频、视频、图片等,致使由此携带的信息已经远远地超出了人类接收信息的速度;另外,信息存在即时性、易变性、碎片化的特点,使得人们难以在信息大爆炸的时代快速有效地获取信息,为降低信息超负荷化对获取信息造成的难度,又虑及并不是每个人都具备良好的信息过滤能力,自动摘要技术被提出并加以发展,协助人们在信息化时代更高效、更快速地获取以网络为载体的文本信息,是一种利用计算机自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。利用此技术,在一定程度上促进了人们对有效信息的获取与利用。
当下的信息化时代,各种社交网络、社交媒体蜂拥而至,文本信息也因此更加多样化,如新闻文本及评论、博客、论坛发帖、商品评价、微博以及手机的短信息文本等。随着社会的发展进步,即时信息的获取更趋向于手机一类的移动设备,文本信息也随之由大化小,变为海量短文本,这推动了自动摘要技术向短文本处理的转化。
互联网的快速发展,网络的交互作用日益显著,网络用户即是网络内容的接受者,又是网络内容的创造者。通过网络的交互作用,大量短文本随之产生,已经成为当今社会网络中信息的主要载体。短文本具有实时性,关键词词频低,大量同音词、同义词、新词,特征稀疏,表达不够规范,且文本中含有一定的社会关系的特点,短文本中的数字、特殊字符也需要特别注意,短文本的这些特点导致对短文本的计算和分析困难。
另外,对于用户而言,网络用户的显示身份不会直接反映在虚拟的网络上,用户产生内容的质量也参差不齐,描述语言丰富多彩,集合了书面用语和口语,以及融入了网络时代特点的网络用语。多种原因使得用户需要花费大量的时间和精力,从海量信息中获取自己需要的内容,给用户造成大量的阅读和选择负担。对于平台而言,网络平台信息量是一个庞大的整体,据IDC统计,互联网数据量已经跃居ZB(230GB)级别,预计2020年达到35ZB。网络用户一般通过平台用关键字词搜索了解内容,大量的相似冗余信息往往使用户疲于应对。单条搜索文本虽然简短但往往信息量较小,需要周边数据的补充。综合而言,用户希望在大量的数据中迅速了解事件的概况和关键信息,由于平台信息按发布时间自动排列,使得用户获取信息时存在时间差或者相近时间下信息内容的无序状态,同样增加了用户获取有效信息的难度。因此,通过关键字词搜索获取信息已经不能满足网络用户对信息获取越来越高的要求。对于短文本进行关键信息抽取成为了自动摘要技术研究的领域的热点。
文本自动摘要技术的出现能够很好地帮助用户压缩信息、提取主题、聚焦事件重点,为用户提高获取信息的效率。其本质为信息挖掘和信息的浓缩。它能有效地理解概括自然语言文本,从海量的信息中提取最为重要、最具有价值的信息,以简短精准的内容呈现,是解决信息获取的关键技术之一。短文本自动摘要技术,对于企业而言,可根据获取的摘要做出准确的判断和决策;对于政府而言,可提升相关部门突发事件的预警能力,有利于政府舆情控制工作的开展。因而,对于短文本自动摘要算法的研究工作于多方面具有一定的现实意义。
本次论文正是面向信息化时代信息过载的问题,从而提出的一种信息挖掘技术。旨在通过现阶段已有的技术弱化信息过载问题的影响,从而提高读者的阅读效率,使其能更快更好地获取最新资讯的有效信息,降低读者阅读强度,减少读者的非必要的阅读时间,避免因信息过载造成的阅读疲劳和烦躁情绪,也能避免某些网络“标题党”的蒙骗。
1.2短文本自动摘要算法的研究现状
文本的自动摘要技术起源于1958年,IBM研究员H.P.Luhn以统计学为支撑,根据词频对句子打分的方法,然后所有的句子按照得分进行排序,取得最高排名的句子生成摘要。Baxendale在Luhn研究的基础上提出句子位置这一重要因子。据Baxendale统计,有85%的主题句位于段落第一句,有7%的主题句位于段落最后,位置特征对于主题句的抽取有重要意义。
国内对文本自动摘要技术的研究从1988年开始。北京大学马希文教授同中科院软件所学者李小斌和徐越开发出处理英文文本的EAAS文本摘要系统,生成的摘要较为符合阅读习惯。2005年,复旦大学吴立德教授设计并实现了FDASCT系统,率先在国内实现多文档摘要生成系统。