基于爬虫技术的农产品信息收集及分析开题报告

2022-01-09 21:52:19

全文总字数：1486字

1. 研究目的与意义及国内外研究现状

本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。

网络爬虫主体网站的特性。对url惊醒构造。网络爬虫使用scrapy实现多线程，让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现特定主题的爬取，还要完成信息提取任务，对于抓取回来的网页提取出来：新闻、电子图书、行业信息等，研究网络爬虫的原理并实现相关功能。《基于爬虫技术的农产品信息收集及分析系统》的选题背景是源于农村淘宝在苏北农村的普及现象，网络越来越贴近每个人的生活，农民们也是一样，可以去通过网络了解各种农作物。然而对于如何通过各种网页去使用检索却存在障碍。《基于爬虫技术的农产品信息收集及分析系统》对于这一现状，专门面向农产品信息的收集及分析，会简易很多。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题：为何使用广度优先的爬行策略，以及如何实现广度优先爬行；为何要使用多线程，以及如何实现多线程；系统实现过程中的数据存储；网页信息解析等。通过实现这一爬虫程序，可以搜集某一站点的URLs，并将搜集到的URLs存入数据库。

3. 实施方案、进度安排及预期效果

周日对整周毕设的作出详细相应的规划。
周一至周四完成相应的计划及记录有问题的点。
周五与老师修正毕设内容及相应的计划，并与老师请教讨论毕设过程所遇到的问题，以及相应的解决方案。
周六周日查询研读相关文献及书籍。
计划6—8周基本完成，可实现相关功能的网络爬虫。

4. 参考文献

[1]萨师煊，王珊.《数据库系统概论(第四版)》.高等教育出版社,2002.

[2] 黄梯云,李一军.《管理信息系统（第4版）》.高等教育出版社，2005.

[3] 卫军，夏慧军，孟腊春.《extjs web应用程序开发指南》. 机械工业出版社，2011.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码