文章详情_毕业论文网

登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文章详情

基于Java的网络爬虫技术的研究与实现开题报告

 2022-11-19 10:03:04  

1. 研究目的与意义

当今时代,信息发展迅速,网络发展也是日渐蓬勃,然而在发展的同时,各种各样的繁杂信息扑面而来。

在当下,虽然获取信息变得容易,但是想准确获取自己想要的信息就比较困难。

即使有诸如百度,谷歌这些大型搜索引擎也不能每次都能帮我们找到想要了解的信息,所以,做一个自己的私人搜索引擎显得尤为方便,根据自己的想法爬取网络上相应的信息然后分类储存起来。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

本系统主要由查询页面、搜索引擎结果页面、蜘蛛(爬虫、机器人)、数据库、搜索算法、检索和排序这几部分构成,前两者为用户可看见的部分。

本系统的难点之一就在于搜索算法,需要根据不同的请求来指定相关的符合要求的算法。

搜索引擎的工作方式是以搜索算法为基础的,它与用户发现数据的方式紧密相关。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

网络爬虫定义有广义和狭义之分,狭义上的定义为利用标准的http协议根据超级链接和web文档检索的方法遍历万维网信息空间的软件程序;而广义则是所有能利用http协议检索web文档的软件都称之为网络爬虫。

网络爬虫是一功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎重要组成。

它通过请求站点上的html文档访问某一站点。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

对于搜索的关键字从其他地方进行爬取,为了提高检索效率,对每次查询的信息进行分类存储,按图片,音乐,视频等类型分类。

如果用户登录的话,用户所搜索的记录会有历史记录,如果不登录,则不会有历史记录。

用户的用户名不可以重复。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

1.第一周-第二周熟悉爬虫开发工具的使用(idea、vsCode等等),过一下java相关的知识2.第三周-第四周网上查找java相关的搜索引擎的例子以及一些普及书籍,熟悉一些开发中需要注意的操作,并学习爬虫先关的框架3.第五周-第十周动手开始操作,按照计划书一步一步操作实现4.第十周-十三周撰写毕业论文,修改论文内容、格式,填写相关材料,进行论文答辩。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图