基于JAVA爬虫技术的图书信息收集及分析系统开题报告

2022-01-09 22:53:56

全文总字数：1654字

1. 研究目的与意义及国内外研究现状

网络爬虫是目前网络实时刷新数据和搜索引擎技术的共同产物，通过网络爬虫不仅能够为搜索引擎采集网络信息，而且可以作为定向信息采集器，定向采集某些网站下的特定信息，如招聘信息，租房信息等。本文在深入分析web crawler技术的基础上，利用java语言实现了一个基于广度优先算法的多线程爬虫程序。

本论文阐述了网络爬虫实现中一些主要问题：为何使用广度优先的爬行策略，以及如何实现广度优先爬行；为何要使用多线程，以及如何实现多线程；系统实现过程中的数据存储；网页信息解析等。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

1. 需求综述：

1用户功能需求分析:爬取目标网站数据，并对数据进行结构性分析，最后将分析后的数据展示在页面上。

2性能需求:友好；高性能；可拓展。

3关键技术分析:前端dwr和jQuery；后端有spring mvc

2. 详尽设计：

1数据库设计：数据库连接技术。

2爬虫系统设计：代码及框架设计。

3系统界面设计：设计界面展示数据库存储的数据。

3. 系统调试与测试：

1程序调试：调试系统程序。

2系统展示：系统结果展示界面。

3. 实施方案、进度安排及预期效果

1. 开发环境搭建：myeclipse开发环境搭建

2. 系统需求及架构设计：需求综述以及架构的设计必须完成。

3. 爬虫代码设计：完成爬虫的代码以及要实现的功能。

4. Web展示界面：完成网页设计以用来调取数据库中的数据。

5.系统调试及运行：调试程序以完成系统的运行检查。

4. 参考文献

[1]萨师煊，王珊.《数据库系统概论(第四版)》.高等教育出版社,2002.

[2] 黄梯云,李一军.《管理信息系统（第4版）》.高等教育出版社，2005.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码