面向Web Services的网络爬取系统设计与实现开题报告
2020-07-05 17:38:06
1. 研究目的与意义(文献综述包含参考文献)
文 献 综 述
过去多年来,伴随着互联网的不断发展与进步,web服务技术也得到了不断蓬勃的创新与发展,通过web服务技术在互联网中传递的信息也十分庞大。与此同时,想要在这浩瀚庞大的信息海洋中找到自己想要的信息,只有借助于搜索引擎的网络工具来搜索自己需要的信息,但在实现搜索引擎技术的时候,网络爬虫技术作为选取符合搜索要求的利器也活跃于大众眼前。搜索引擎技术随着互联网的日益壮大而飞速发展.作为搜索引擎不可或缺的组成部分,网络爬虫的作用显得尤为重要。
web服务技术作为soa思想的最佳实现方式,已成为产业界和学术界热门的研究方向。而如今通用的搜索引擎技术在查询相关的服务信息时不能很好地支持webservice,在这个过程中需要对查询地信息进行分类去除冗余、整合等一系列繁琐的步骤,大大降低了web服务发现的效率,成为如今在web服务中爬取信息的一大问题。
2. 研究的基本内容、问题解决措施及方案
(1) 使用怎样的逻辑算法来爬取信息
本次网络爬取系统设计首先使用根据以树形结构为基础的数据结构算法,其中利用深度优先搜索从网页中某个链接出发,访问该链接的网页,并通过递归算法实现依次向下访问,直至到达网页内容的末端。之后利用广度优先搜索从网页中的某个链接出发,访问该链接网页上的所有链接,访问完成后,再同构递归算法实现对下一层链接的访问,直至到达所有链接的末端。
当然,在本次的网络爬取系统的设计中也将根据爬取过程中出现的具体问题采用更多更高效的算法来进行爬取。