基于爬虫技术的农产品信息收集及分析开题报告
2022-01-09 21:52:19
全文总字数:1486字
1. 研究目的与意义及国内外研究现状
本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。
网络爬虫主体网站的特性。对url惊醒构造。网络爬虫使用scrapy实现多线程,让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现特定主题的爬取,还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等,研究网络爬虫的原理并实现相关功能。《基于爬虫技术的农产品信息收集及分析系统》的选题背景是源于农村淘宝在苏北农村的普及现象,网络越来越贴近每个人的生活,农民们也是一样,可以去通过网络了解各种农作物。然而对于如何通过各种网页去使用检索却存在障碍。《基于爬虫技术的农产品信息收集及分析系统》对于这一现状,专门面向农产品信息的收集及分析,会简易很多。
2. 研究的基本内容
本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs存入数据库。
3. 实施方案、进度安排及预期效果
- 周日对整周毕设的作出详细相应的规划。
- 周一至周四完成相应的计划及记录有问题的点。
- 周五与老师修正毕设内容及相应的计划,并与老师请教讨论毕设过程所遇到的问题,以及相应的解决方案。
- 周六周日查询研读相关文献及书籍。
- 计划6—8周基本完成,可实现相关功能的网络爬虫。
4. 参考文献
[1]萨师煊,王珊.《数据库系统概论(第四版)》.高等教育出版社,2002.
[2] 黄梯云,李一军.《管理信息系统(第4版)》.高等教育出版社,2005.
[3] 卫军,夏慧军,孟腊春.《extjs web应用程序开发指南》. 机械工业出版社 ,2011.