网页正文自动提取方法研究文献综述

2020-04-14 19:58:55

1．目的及意义

目的及意义：

从20世纪90年代初诞生之后，万维网——WWW，从最初的一个由CERN设计的用于访问多种不同的文件格式的超文本系统，成长为了一个公众可以通过web浏览器进行访问的服务。伴随着万维网的成长，在其中蕴藏的信息资源的愈加丰富。因此，网页已成为信息检索和数据挖掘技术所需要的数据资源的一个新的源头。

然而，拥有海量数据的网页通常会包含许多不同的部分，并且这些部分通常并不都是有价值的数据资源。举个例子，一个新闻网页里，除了报道的文章部分外，还包括用户评论、导航菜单、其他新闻的链接以及广告等等部分，而通常只有报道文章对于我们是有价值的。一般来说，对于人类，忽略无用的部分并将注意力集中在有用的地方是非常简单的，但是人类并不能快速处理大量的数据。而对于能够处理大量数据的软件来说，又很难快速而精确地区分一个网页中有用和无用的部分。比如说，搜索引擎常常会把一个网页的全部文本编入索引。软件不加区分的保留全部信息的结果便是无用的部分(即干扰内容)会降低搜索结果的质量和精度。

综上所述，为了解决这个问题以更好地开发网页的数据资源，就必须开发一个能够从网页中提取有用的部分(即正文)的方法。

国内外研究现状：

因为网页内蕴藏的资源的丰富性和网页正文提取方法的必要性，国内外在这一方向上均有着相当多的研究。这些研究总结出了不同网页类型的之间的共同点和区别，并且面向这些共同点和区别，有针对性地开发出了聚焦于不同特征、分别适应不同类型的多种网页正文提取方法。例如有聚焦于网页文档的DOM节点并利用节点内HTML标签特征进行提取的方法、有聚焦网页文本密度并利用行块分布规律进行提取的方法等等。

虽然在这一研究方向上已经存在相当丰富的研究和方法，但是由于HTML的快速发展和网页类型的不停增加，对于网页内容提取方法的需求依然存在。比如：由于HTML5的使用新增了一些标签，而其中部分标签就用于定义网页文档结构，因此针对这部分新增的标签，那些利用HTML标签特征进行提取的方法便需要进行更新，甚至于将直接吸收之前方法的思想进行重构。{title}

2. 研究的基本内容与方案

{title}

基本内容：

本次项目的提取方向主要是新闻网页，通过使用整理后的一些开源的网页正文提取方法分别对测试用的新闻数据集进行提取测试，同时将获取并分析提取结果的各项数据，然后基于得到的分析结果，对这些网页正文提取方法进行分类，最终优化并整合为所需的网页正文自动提取方法。

目标：

开发一个网页正文自动提取方法，其将在输入网页源码后，提取出网页正文并抛弃其余干扰内容。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码