基于python网络爬虫技术的气象数据收集与分析开题报告
2022-01-11 17:45:11
全文总字数:2263字
1. 研究目的与意义及国内外研究现状
本课题的主要目的是设计基于python的网络爬虫的程序,使之能够实现对气象数据的收集与分析。
网络爬虫又被称为网络蜘蛛、网络机器人,只要目的是为获取在互联网上的信息。网络爬虫利用网页中的超链接遍历互联网,通过ulr引用一个html文档爬行到另一个html文档。http://dmoz.org 可以作为整个互联网抓取得入口。网络爬虫收集到的信息可以有多种用途,如建立索引,html文件的验证,url连接验证,获取更新信息,站点信息等。
网络爬虫多线程的实现,让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现对气象数据的爬取,网络爬虫还要完成信息提取任务,将抓取回来的信息提取出来并分析。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待,研究网络爬虫的原理并实现爬虫的相关功能。
2. 研究的基本内容
本课题研究的内容是如何使网络爬虫灵活高效的收集与分析气象数据。
1)构造url。
3. 实施方案、进度安排及预期效果
2018.03.18—2018.03.31 查阅资料完成任务书 ,完成开题报告。
2018.04.01—2016.08.14 开题报告会,学习网络爬虫基本机制,学习使用mysql数据库,学习python。
2018.04.15—2018.04.28 查阅资料,进行论文基本章节的写作,与导师探讨设计缺陷,并提出解决方案,完成初稿,并完成基础代码编写。2018.04.29—2018.05.12 编写设计好的爬虫文件,并进行系统稳定性测试调试,修复bug。2018.05.13—2018.05.26 运行爬虫,提取有用信息,将其存储至mysql数据库中,数据整合,通过脚本程序将数据迁移至mysql。2018.05.27—2018.06.10 数据可视化,完成论文等相关文档的编写。
4. 参考文献
1.罗刚----解密搜索引擎技术实践lucenejava(精华版)[m].电子工业出版社。
2. 罗刚、王振东----自己动手写网络爬虫 [m].清华大学出版社,2010年10月。
3.winter----中文搜索引擎技术:网络蜘蛛 [m].人民邮电出版社,2004年。