一款网络爬虫软件的实现及对策研究-开题报告
2022-10-08 10:37:04
1. 研究目的与意义
随着互联网的普及,越来越多的人可以在家中,学校或者办公室中上网浏览并搜集对自己有用的信息,人们浏览互联网信息的记录如果并不及时删除会留在网页的url(统一资源定位符)中,而如果这些信息被不法分子通过用网络爬虫获取,就有些不必要的麻烦。
所以在此,我就想借其原理来探寻方式并思考解决办法,可不可以把这种行为转换成一种能为人所用的东西呢,比如在一些求职人员上网搜索一些感兴趣的职业时,将一些不涉及隐私的信息记录下来,并在他们找的同时发送给一些相关对口的公司,这样就能极大的提高双方的效率并节省时间。
搜索引擎是一个计算机程序,搜索特定的关键字,并返回一个列表中的文件,他们发现,特别是商业服务,扫描文件在互联网上。
2. 课题关键问题和重难点
课题关键问题:(1)熟悉网络爬虫原理。
(2)系统地学习一门新的语言python。
(3)逐渐在掌握的基础上做更多的改进,并准备收集数据的地方以便更好地做收集工作。
3. 国内外研究现状(文献综述)
网络爬虫也叫网络蜘蛛(web spider),它广泛应用于搜索引擎和数据挖掘中,可以对网络上的信息进行高效快速实时性采集。
1993年,世界上出现了第一个网络爬虫,正是由于它的出现,才为今天搜索引擎的蓬勃发展奠定了坚实的基础。
网络爬 虫技术实际上是一个以网页为中心出发,通过深度遍历和广度遍历来获取其他网页页 面的技术。
4. 研究方案
根据本网络爬虫的概要设计本网络爬虫是一个自动提取网页的程序,根据设定的主题判断是否与主题相关,再根据已下载的网页上继续访问其它的网页,并将其下载直到满足用户的需求。
1.设计基于多线程的网络爬虫。
2.通过http将待爬取url列表对应的url的网页代码提取出来。
5. 工作计划
第1周:接受任务书,领会课题含义,熟悉课题,按要求查找相关资料;第2周:阅读相关资料,分析整理资料,理解有关内容;第3周:翻译相关英文资料,提出拟完成本课题的方案,写出相关开题报告一份;第4周:大量查阅关于Python语言的书籍并查看视频流程,学会独立用新的语言来进行编程并有初步的进展;第5周:尝试用Python语言编写基础的程序;第6周:尝试编写一种爬虫程序并用在一些小网站上的测试;;第7周:尝试编写一种爬虫程序并用在一些小网站上的测试;第8周: 在收集到一定量的数据后,就会发现所用的服务器及电脑速度及容量会有所局限,所以必须有更好的服务器及运用其他方法;第9周:学会运用Linux系统就可以解决这方面问题;第 10周:用Linux操作系统将数据直接保存在服务器上并在需要用的时候上传到己方电脑,在这些的基础上总结解决的办法;第 11周:总结设计成果,提出进一步需要解决的问题与研究的方法;第 12周:整理设计资料,完成设计论文,将毕业设计论文成果按规范形式整理装订成册交指导教师批阅;第 13周:认真全面总结毕业设计工作,完善设计论文,准备答辩,评阅教师评阅论文;第 14周:准备参加答辩。