网络爬虫技术提取网页信息应用与研究开题报告

2021-03-10 23:38:06

1. 研究目的与意义（文献综述）

1.1 研究目的及意义

科技的进步带动了互联网的高速发展，导致了网络信息以指数级的速度增长，特别是在如今的大数据时代下，不仅仅各行各业的大型集、国家每天源源不断的向整个互联网输送各种信息，就连我们自己也会各种社交媒体上发送消息。互联网上的信息量过于巨大，而且每天不停地更新，导致了用户并不能在海量的信息中快速定位、准确的获取自己想要的信息。在这个形势下，人们迫切的想要一个工具帮助他们管理、组织这庞大、凌乱的信息，然后建立索引，能根据自己的需求快速定位，所以，在经过科研人员的大量研究后，搜索引擎出现在了我们的生活中。

现在每个人都离不开了搜索引擎，并且有研究表明，搜索引擎已经极大的改变了人们的记忆方式：人们会忘记自己能在网络上找到的信息，而记住自己认为无法在网络上获取的信息。研究也发现，人们会记住自己从何处获得的信息，而不是信息的内容本身。所以引擎已经在潜移默化影响了我们的生活，但是随着网络的不断发展，技术的创新，web网页的不断更新，内容，种类等等也越来越多，导致了现有的搜索引擎越来越跟不上网名的需求，暴露出了各种不足，所以引起了相关的技术人们注意，必须要不断更新搜索引擎的效率。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

本次的研究设计是针对互联网上web网络上巨大的信息，在.net平台上运用c#语言编写一款网络爬虫来爬取相关数据，然后反馈给用户使用。网络爬虫（webcrawler），又称为网络蜘蛛（web spider），是一个下载网页的计算机程序。网络爬虫通常是通过一个初始化url，从其指定的页面中解析出url结合，放入队列中，一一遍历，然后下载网页的内容，如此循环。

本次设计的是通用网络爬虫（scalable web crawler），该类型的爬虫适用于为搜索引擎搜索广泛的主题，有较强的经济价值。通用网络爬虫可以大致分成页面爬行模块，页面分析模块，链接过滤模块，页面数据库，url队列，初始url集合几个部分。其结构如图1所示。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1－3周：查阅相关文献资料，明确研究内容，了解研究所需理论基础。确定方案，完成开题报告。

第4－5周：熟悉掌握基本理论，完成英文资料的翻译，熟悉开发环境。

第6－9周：编程实现各算法，并进行仿真调试。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1] 明日科技 c#从入门到精通（第3版）[m] 清华大学出版社 2012

[2] 罗刚自己动手写网络爬虫[m] 清华大学出版社 2010

[3] 郝以珍基于页面分析的网络爬虫系统的设计与实现[d] 华中科技大学 2012年

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码