基于概念背景图的气象灾害主题爬虫设计与实现开题报告
2022-01-09 22:29:37
全文总字数:2611字
1. 研究目的与意义及国内外研究现状
当前人类所处的生存环境形势严峻,面对互联网上数量庞大、种类繁多、更新迅速的气象灾害网页,运用通用搜索引擎抓取信息的方式已经不能满足人们的需要,面向主题的智能检索系统应运而生。主题爬行虫抓取互联网上的与主题相关的页面来满足用户查询的需求,研究表明:主题爬行虫花费时间少,所需存储空间小,能够满足用户个性化需求,能够主动识别主题信息,快速、有选择地遍历与主题相关的区域并下载网页,所以本课题的研究对气象灾害网页的查询具有很重要的意义。
本文利用hits算法选取高质量的主题背景知识,通过已检索的网页的内容和链接信息来预测主题爬行的爬行方向。引入形式概念分析,通过计算概念格中概念之间的语义相似度来进行预测,把主题爬行方向的预测提高到语义预测的层面,提高了链接价值预测的准确性,从而实现基于概念背景图的主题爬虫设计。国内外研究现状
主题爬虫在爬行过程中会对页面内容进行主题相关度判定,并对待访问链接进行主题价值预测,只保留主题相关页面,并且沿着该页面的方向继续前行。主题爬虫不仅可以大大节省网络资源的消耗与硬件成本,而且爬行的整体性能得到很大提高,能更好的满足多个领域用户的需求。
1994年debra等人提出的“fish-search”,被认为是最早的主题爬虫算法,该算法将一个链接的爬取优先级比喻成一条鱼的繁殖能力当发现食物(相关信息)时进行繁殖(抓取子链接),来继续寻找食物;当没有食物或水(带宽或存储资源)时,则死掉。利用二值判定内容与查询主题是否相关,算法的关键是根据代表用户感兴趣的种子站点和主题关键词,动态维护待爬行 urls 的优先级队列。1998年hersovici等人提出了“shark-search”,对“fish-search”进行了两点改进,一是将相似度度量范围从二值改为连续值0-1 之间;二是相似度计算上不但继承了双亲的值,而且充分利用了锚文本和其上下文,因此比fishsearch 方法精度高,能更好的保证爬行器正确的搜索方向。best first search 方法,基本思想是给定一个待爬行url队列,从中挑选最好的url优先爬行。该算法有一定的竞争力,所以很多研究人员将其作为算法性能的比较基准。
2. 研究的基本内容
论文及系统设计主要内容应为主题爬虫系统的设计与实现,包括:
1、提出一种HITS算法,并用java语言实现该算法,选取高质量的主题背景知识。2、构建概念背景图,利用概念背景图结合锚文本、父网页等计算链接主题相关性。3、设计并实现主题爬虫系统。
3. 实施方案、进度安排及预期效果
实行方案:
搜集资料,查阅文献,在对主题爬虫策略有一定了解以后研究hits算法,在算法有一定理解的基础上,实现该算法;最后编程实现主题爬虫系统。
进度:
4. 参考文献
[1]关卫国, 骆永成. 基于概念背景图的主题爬虫设计与实现[j]. 计算机工程与设计, 2016, 37(10):2679-2684.
[2]于娟, 刘强. 主题网络爬虫研究综述[j]. 计算机工程与科学, 2015, 37(2):231-237.
[3]马雷雷, 李宏伟, 连世伟,等. 一种基于本体语义的灾害主题爬虫策略[j]. 计算机工程, 2016, 42(11):50-56.