智能网络爬虫系统文献综述
2020-06-23 20:43:44
文 献 综 述 一、选题背景 网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。
搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。
最初的检索功能通过索引站的方式实现,而有了网络机器人。
但是,这些通用性搜索引擎也存在着一定的局限性。
不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。
为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。
二、研究现状 目前,大多数的搜索引擎都是基于关键词的搜索引擎。
基于关键字匹配的搜索技术有较大的局限性:首先,它不能区分同形异义。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付