基于Java的网络爬虫技术的研究与实现开题报告

2022-11-19 10:03:04

1. 研究目的与意义

当今时代，信息发展迅速，网络发展也是日渐蓬勃，然而在发展的同时，各种各样的繁杂信息扑面而来。

在当下，虽然获取信息变得容易，但是想准确获取自己想要的信息就比较困难。

即使有诸如百度，谷歌这些大型搜索引擎也不能每次都能帮我们找到想要了解的信息，所以，做一个自己的私人搜索引擎显得尤为方便，根据自己的想法爬取网络上相应的信息然后分类储存起来。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 课题关键问题和重难点

本系统主要由查询页面、搜索引擎结果页面、蜘蛛（爬虫、机器人）、数据库、搜索算法、检索和排序这几部分构成，前两者为用户可看见的部分。

本系统的难点之一就在于搜索算法，需要根据不同的请求来指定相关的符合要求的算法。

搜索引擎的工作方式是以搜索算法为基础的，它与用户发现数据的方式紧密相关。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 国内外研究现状（文献综述）

网络爬虫定义有广义和狭义之分，狭义上的定义为利用标准的http协议根据超级链接和web文档检索的方法遍历万维网信息空间的软件程序;而广义则是所有能利用http协议检索web文档的软件都称之为网络爬虫。

网络爬虫是一功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页，是搜索引擎重要组成。

它通过请求站点上的html文档访问某一站点。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 研究方案

对于搜索的关键字从其他地方进行爬取，为了提高检索效率，对每次查询的信息进行分类存储，按图片，音乐，视频等类型分类。

如果用户登录的话，用户所搜索的记录会有历史记录，如果不登录，则不会有历史记录。

用户的用户名不可以重复。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

5. 工作计划

1.第一周-第二周熟悉爬虫开发工具的使用（idea、vsCode等等），过一下java相关的知识2.第三周-第四周网上查找java相关的搜索引擎的例子以及一些普及书籍，熟悉一些开发中需要注意的操作，并学习爬虫先关的框架3.第五周-第十周动手开始操作，按照计划书一步一步操作实现4.第十周-十三周撰写毕业论文，修改论文内容、格式，填写相关材料，进行论文答辩。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码