网页正文自动提取方法研究开题报告

2020-02-18 19:33:12

1. 研究目的与意义（文献综述）

目的及意义：

从20世纪90年代初诞生之后，万维网——www，从最初的一个由cern设计的用于访问多种不同的文件格式的超文本系统，成长为了一个公众可以通过web浏览器进行访问的服务。伴随着万维网的成长，在其中蕴藏的信息资源的愈加丰富。因此，网页已成为信息检索和数据挖掘技术所需要的数据资源的一个新的源头。

然而，拥有海量数据的网页通常会包含许多不同的部分，并且这些部分通常并不都是有价值的数据资源。举个例子，一个新闻网页里，除了报道的文章部分外，还包括用户评论、导航菜单、其他新闻的链接以及广告等等部分，而通常只有报道文章对于我们是有价值的。一般来说，对于人类，忽略无用的部分并将注意力集中在有用的地方是非常简单的，但是人类并不能快速处理大量的数据。而对于能够处理大量数据的软件来说，又很难快速而精确地区分一个网页中有用和无用的部分。比如说，搜索引擎常常会把一个网页的全部文本编入索引。软件不加区分的保留全部信息的结果便是无用的部分(即干扰内容)会降低搜索结果的质量和精度。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

基本内容：

本次项目的提取方向主要是新闻网页，通过使用整理后的一些开源的网页正文提取方法分别对测试用的新闻数据集进行提取测试，同时将获取并分析提取结果的各项数据，然后基于得到的分析结果，对这些网页正文提取方法进行分类，最终优化并整合为所需的网页正文自动提取方法。

目标：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

(1)2019/1/19—2019/2/28：确定选题，查阅文献，外文翻译和撰写开题报告；
(2)2019/3/1—2019/4/30：系统架构、程序设计与开发、系统测试与完善；
(3)2019/5/1—2019/5/25：撰写及修改毕业论文；
(4)2019/5/26—2019/6/5：准备答辩

4. 参考文献（12篇以上）

[1] r. hartono a.f.r. rahman, h. alam,content extraction from html documents, in 1st int. workshop on web documentanalysis (2001).

[2] t.g. dietterich, approximatestatistical tests for comparing supervised classiication learning algorithms,neural computation, vol. 10, 1998, pp. 1895-1924.

[3] george c. runger douglasc.montgomery, applied statistics and probability for engineers, wiley, 2007.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码