基于主题的网页爬虫的设计与实现开题报告

2021-03-14 22:02:48

1. 研究目的与意义（文献综述）

根据2017年1月中国互联网络信息中心发布的《中国互联网络发展状况统计报告》，截至2016年12月，中国网民规模达7.31亿，中国的网站数量为482万个，中国网页数量为2360亿个。

由此可见互联网上存在巨大的信息资源，如何在海量的网络信息中获取有用的信息成为网络研究领域的一个焦点问题。

爬虫在此环境下应运而生。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

1.研究（设计）的基本内容
设计爬虫首先要确定初始的统一资源定位符url，在获取新的链接时避免将重复的链接放入队列以防爬虫进入一个死循环，还要研究爬虫的架构，为了提高爬取网页的速度设计编写多线程的爬虫程序，由于涉及到访问网络服务器，如何防止使爬虫程序占用大量的带宽给网络服务器带来压力涉及到爬虫的“道德”问题，在获取了网页后如何分析网页，首先就要研究网页的结构、html的相关知识，抽取信息时需要使用一些工具，如正则表达式，研究如何使用正则表达式抽取网页中的有效信息，最后存储信息，需要研究使用合适的数据库存储。

2.目标
设计并实现一个简单的主题网络爬虫程序，通过“豆瓣读书”获取其网站上的所有图书信息，包括图书的名称、作者、分类、价格、评分等内容。

3.拟采用的技术方案及措施
爬虫程序的流程图如下图所示，爬虫程序主要使用python语言完成，python语言有丰富的第三方库，可以使抓取的过程更容易；分析网页拟采用正则表达式及其他方式进行分析；由于可能会获取大量的信息，保存信息拟采用数据库方式进行存储。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1周，搜集资料；
第2周，搜集资料；
第3周，撰写开题报告；
第4周，学习编程语言；
第5周，编写普通爬虫；
第6周，学习网页知识；
第7周，编写网页分析程序；
第8周，学习数据库知识；
第9周，编写数据库程序；
第10周，整合调试爬虫程序；
第11周，整合调试爬虫程序；
第12周，撰写论文初稿；
第13周，撰写论文初稿；
第14周，撰写论文初稿；
第15周，修改论文；
第16周，修改论文；
第17周，论文答辩。

4. 参考文献（12篇以上）

1.于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,02:231-237.
2.王贤明.主题爬虫研究进展[D].成都:四川大学计算机学院,2014.
3.钱程,阳小兰,朱福喜.基于Python的网络爬虫技术.湖北武汉:武昌理工学院信息工程学院,2016.
4.谭翔纬.基于主题的网络爬虫系统的研究与实现.科技信息化.广东广州:广州大学华软软件学院软件工程系,2016.
5.周萍.基于关键词的主题网络爬虫.江苏南京:南京航空航天大学,2016.
6.郎振红.基于主题网络爬虫思想的Web数据挖掘算法研究.天津:天津电子信息职业技术学院,2016.
7.周立柱,林玲.聚焦爬虫技术研究综述.北京:清华大学计算机科学与技术系,2005.
8.甘国华,刘梦赤,胡婕.面向大学领域的聚焦爬虫设计与实现.湖北武汉:武汉大学计算机学院软件工程国家重点实验室,2015.
9.闵钰麟,黄永峰.用户定制主题聚焦爬虫的设计与实现.北京:清华大学电子工程系信息认知与智能系统研究所,2015.
10.罗刚.自己动手写网络爬虫(修订版),清华大学出版社,2016.
11.Richard Lawson.用Python写网络爬虫.人民邮电出版社,2016.
12.Ayoub, M.H.E. and S.M.A. Kalaiarasi, Focused Web Crawler. 2012: Kuala Lumpur, Malaysia. p. 5.
13.Bal, S.K. and G. Geetha, Smart distributed web crawler. 2016 INTERNATIONAL CONFERENCE ON INFORMATION COMMUNICATION AND EMBEDDED SYSTEMS (ICICES), 2016.
14.Pu, Q., The Design and Implementation of a High-efficiency Distributed Web Crawler. 2016 IEEE 14TH INTL CONF ON DEPENDABLE, AUTONOMIC AND SECURE COMPUTING, 14TH INTL CONF ON PERVASIVE INTELLIGENCE AND COMPUTING, 2ND INTL CONF ON BIG DATA INTELLIGENCE AND COMPUTING AND CYBER SCIENCE AND TECHNOLOGY CONGRESS (DASC/PICOM/DATACOM/CYBERSC, 2016: p. 100-104.
15.Zhao, F., et al., SmartCrawler: A Two-Stage Crawler for Efficiently Harvesting Deep-Web Interfaces. IEEE TRANSACTIONS ON SERVICES COMPUTING, 2016. 9(4): p. 608-620.
16.Panagiotis Liakos, Alexandros Ntoulas,Alexandros Labrinidis.Focused crawling for the hidden web.New York:Springer Science Business Media.2015.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码