微博信息采集与分析开题报告
2022-01-04 20:48:22
全文总字数:2277字
1. 研究目的与意义及国内外研究现状
本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。
网络爬虫主体网站的特性。对url进行构造。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:微博信息等。研究网络爬虫的原理并实现爬虫的相关功能。
最终实现的网络爬虫应该能根据设定的主题,从构造的url进行一定数据爬取,并最终得到需要的数据 。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容
- 选取开发语音
- 根据网站主体特性不同构造url
- 绕过模拟登陆选择存储cookie
- 编写爬虫文件xpath
- 选择数据库
- 选择前端框架
- 将数据显示到前端界面
3. 实施方案、进度安排及预期效果
- 实施方案:参考网上开源的网络爬虫和各种网络爬虫相关的书籍、视频等信息,学习了解网络爬虫运行机制,基本原理,根据所爬取的目标网站设计自己的爬虫,学习python,mysql的简单操作,bootstrap框架学习、编写、调试。
搭建了繁琐的环境,在windows下进行了爬虫的开发、调试,最终成功的实现了信息的爬取与提取,将爬去下来的数据,展示到前台界面。
- 进度安排:2016.12.28-2017.01.10查阅资料完成任务书 ,完成开题报告。剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 参考文献
[1] 齐鹏,李隐峰,宋玉伟.基于python的web数据采集技术[j]. 电子科技. 2012(11)[2] 郭晓云.基于python和selenium的新浪微博数据访问[j]. 电脑编程技巧与维护. 2012(15)
[3]罗刚 王振东.自己动手写网络爬虫[m].北京:清华大学出版社,2010年10月.
[4]李晓明,闫宏飞,王继民.搜索引擎:原理、技术与系统——华夏英才基金学术文库[m].北京:科学出版社,2005年04月.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付