主题网络爬虫的研究与实现任务书
2020-04-08 15:02:41
1. 毕业设计(论文)主要内容:
主题网络爬虫是一种自动抓取网页并提出网页内容的程序,是搜索引擎的信息获取渠道。
主题网络爬虫是按照预先定义的爬行主题在给定初始url种子集后,根据一定的分析算法,对爬行网页进行主题相关分析,过滤与主题不相关的网页,在不断抓取相关网页的过程中,将与主题相关的链接放进待爬行队列中,重复这个过程,直到达到一定条件为止。
本课题要求设计实现一种主题网络爬虫并获取网络数据。
2. 毕业设计(论文)主要任务及要求
(1) 查阅不少于15篇的相关资料,其中近5年外文文献不少于3篇,完成开题报告(设计目的意义至少800汉字,基本内容和技术方案至少400汉字)。
(2) 掌握主题爬虫的结构及其算法原理。
(3) 实现主题爬虫的功能,并爬取网络数据,对获取的数据的准确性加以分析,并进一步改进爬虫。
3. 毕业设计(论文)完成任务的计划与安排
(1) 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。
(2) 第4-5周:掌握主题网络爬虫的实现原理,完成英文资料的翻译,熟悉开发环境。
(3) 第6-9周:完成整个系统的设计。
4. 主要参考文献
[1]于娟,刘强.主题网络爬虫研究综述[j]. 计算机工程与科学,2015,37(02):231-237.
[2] filippo menczer,gautam pant, padmini srinivasan. topical web crawlers[j] . acm transactionson internet technology (toit), 2004, vol.4 (4), pp.378-419
[3] 白玉昭,梁久祯. 基于概率模型的主题爬虫的研究和实现[j]. 计算机工程与科学,2013,35(01):160-165.