基于JAVA爬虫技术的图书信息收集及分析系统开题报告
2022-01-09 22:53:56
全文总字数:1654字
1. 研究目的与意义及国内外研究现状
网络爬虫是目前网络实时刷新数据和搜索引擎技术的共同产物,通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。 本文在深入分析web crawler技术的基础上,利用java语言实现了一个基于广度优先算法的多线程爬虫程序。
本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。
2. 研究的基本内容
1. 需求综述: 1用户功能需求分析:爬取目标网站数据,并对数据进行结构性分析,最后将分析后的数据展示在页面上。 2性能需求:友好;高性能;可拓展。 3关键技术分析:前端dwr和jQuery;后端有spring mvc 2. 详尽设计: 1数据库设计:数据库连接技术。 2爬虫系统设计:代码及框架设计。 3系统界面设计:设计界面展示数据库存储的数据。 3. 系统调试与测试: 1程序调试:调试系统程序。 2系统展示:系统结果展示界面。
|
|
3. 实施方案、进度安排及预期效果
1. 开发环境搭建:myeclipse开发环境搭建 2. 系统需求及架构设计:需求综述以及架构的设计必须完成。 3. 爬虫代码设计:完成爬虫的代码以及要实现的功能。 4. Web展示界面:完成网页设计以用来调取数据库中的数据。 5.系统调试及运行:调试程序以完成系统的运行检查。
|
4. 参考文献
[1]萨师煊,王珊.《数据库系统概论(第四版)》.高等教育出版社,2002.
[2] 黄梯云,李一军.《管理信息系统(第4版)》.高等教育出版社,2005.