网络爬虫技术提取网页信息应用与研究开题报告
2021-03-10 23:38:06
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
科技的进步带动了互联网的高速发展,导致了网络信息以指数级的速度增长,特别是在如今的大数据时代下,不仅仅各行各业的大型集、国家每天源源不断的向整个互联网输送各种信息,就连我们自己也会各种社交媒体上发送消息。互联网上的信息量过于巨大,而且每天不停地更新,导致了用户并不能在海量的信息中快速定位、准确的获取自己想要的信息。在这个形势下,人们迫切的想要一个工具帮助他们管理、组织这庞大、凌乱的信息,然后建立索引,能根据自己的需求快速定位,所以,在经过科研人员的大量研究后,搜索引擎出现在了我们的生活中。
现在每个人都离不开了搜索引擎,并且有研究表明,搜索引擎已经极大的改变了人们的记忆方式:人们会忘记自己能在网络上找到的信息,而记住自己认为无法在网络上获取的信息。研究也发现,人们会记住自己从何处获得的信息,而不是信息的内容本身。所以引擎已经在潜移默化影响了我们的生活,但是随着网络的不断发展,技术的创新,web网页的不断更新,内容,种类等等也越来越多,导致了现有的搜索引擎越来越跟不上网名的需求,暴露出了各种不足,所以引起了相关的技术人们注意,必须要不断更新搜索引擎的效率。
2. 研究的基本内容与方案
本次的研究设计是针对互联网上web网络上巨大的信息,在.net平台上运用c#语言编写一款网络爬虫来爬取相关数据,然后反馈给用户使用。网络爬虫(webcrawler),又称为网络蜘蛛(web spider),是一个下载网页的计算机程序。网络爬虫通常是通过一个初始化url,从其指定的页面中解析出url结合,放入队列中,一一遍历,然后下载网页的内容,如此循环。
本次设计的是通用网络爬虫(scalable web crawler),该类型的爬虫适用于为搜索引擎搜索广泛的主题,有较强的经济价值。通用网络爬虫可以大致分成页面爬行模块,页面分析模块,链接过滤模块,页面数据库,url队列,初始url集合几个部分。其结构如图1所示。
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。
第6-9周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
[1] 明日科技 c#从入门到精通(第3版)[m] 清华大学出版社 2012
[2] 罗刚 自己动手写网络爬虫[m] 清华大学出版社 2010
[3] 郝以珍 基于页面分析的网络爬虫系统的设计与实现[d] 华中科技大学 2012年