基于python的网络爬虫的研究与实现开题报告

2021-12-18 21:12:30

全文总字数：726字

1. 研究目的与意义及国内外研究现状

随着互联网的普及与发展，互联网上的信息内容日益丰繁复杂，各大网站的信息熵越来越多，信息获取成本下降的同时信息筛选成本越来越高。爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分，可以说，搜索引擎优化很大程度上就是对爬虫软件进行优化。爬虫为索搜引擎从互联网上下载网页，通过优化网络爬虫，我们便可以实现信息的定向抓取。

国内外研究现状

面对混乱的互联网信息，国内外都出现了上述问题，目前的解决方案大都是RSS订阅，然而遗憾的是，很多网站并没有这项功能。对于新兴的聚焦爬虫以及智能爬虫来说，国内研究尚不算深入，国外已经存在大量研究成果。近几年，国内关于网络搜索引擎的研究从无到有，直到渐成热点，研究现象的专题聚集特征较为明显。

2. 研究的基本内容

本课题主要研究基于python的简单的爬虫软件的开发。主要包括，第一，基本的爬虫工作原理；第二，基本的http抓取工具，Scrapy；第三，使用分布式爬虫进行大规模的网页抓取；第四，后续处理，诸如网页析取，网页存储等等。

3. 实施方案、进度安排及预期效果

2016年3月至4月拟定论文开题报告，资料与数据收集、整理与分析；

2016年4月至5月完成论文初稿并请导师修改，完成论文二稿并请导师修改，完成软件的调试等工作；

2016年5月至6月论文定稿与答辩。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1]司维，曾军崴，谭颖华.Python基础教程（第二版）[M].人民邮电出版社

[2]罗刚，王振东.自己动手写网络爬虫[M].北京：清华大学出版社

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码