登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 理工学类 > 自动化 > 正文

基于Python的网络爬虫系统设计开题报告

 2020-04-13 15:20:46  

1. 研究目的与意义(文献综述)

本课题的主要目的是设计基于Python的网络爬虫系统设计,同时需要满足的是具有一定的性能,要考虑到设计网络爬虫时各种可能出现的问题[1]。

互联网是一个庞大的非结构化的数据库,将数据有效的检索、筛选、提取、重新组织呈现出来有着巨大的应用前景[2]。而通过搜索引擎进行搜寻的人工手段,既因为其手段的限制,获取数据的速度十分缓慢,通过人工的数据分析同时也费时费力,又因为搜索引擎的局限性,通常会因为关键词的变化返回大量无用或者说与用户需求契合度低的结果。而这时,一个可靠而高效的专业型网络爬虫,就能够体现其巨大的价值[3]。基于Python设计的网络爬虫系统拥有以下两个优点:1、拥有各种成熟的爬虫框架,方便高效的下载网页;2、多线程、进程模型成熟稳定,整个系统的下载和分析能力很强。[4]而Python语言自身带有十分强大科学运算能力,而基于Python的统计概率高效率算法[5]也被逐步开发出来,在网络爬虫系统设计上有得天独厚的优势。综上所述,基于拥有众多优点的Python的网络爬虫系统设计,在大数据时代有着十分重要的意义。

对于网络爬虫的研究从上世纪九十年代就开始了,网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)[6]。目前爬虫技术已经日趋成熟,网络上比较著名的开源爬虫包括Nutch、Larbin、Heritrix等,基于Python语言的代表性爬虫有QuickRecon、PyRailgun、Scrapy。在国内,随着大数据时代的到来,爬虫的需求呈爆炸式增长的趋势,火车头和八爪鱼团队则是走在了时代的发展方向上,率先开发了相对完备的爬虫产品[7],获得广大用户的一致好评。但是在实际的工作过程中,使用这些技术工具往往需要逾越技术的鸿沟,而更多的用户更愿意选择技术外包的平台,例如猪八戒,规避技术鸿沟,去解决实际工作中的问题[8]。其他互联网或互联网相关的公司也开始意识到,对于数据精准采集和快速分析的重要性,Python语言兼具多线程爬虫设计方便快捷和数据分析功能强大的优点,是国内大数据分析中炙手可热的编程语言。针对这样的人才需求,国内很多本科院校甚至职业院校都新增了Python的学习课程[9]。

2. 研究的基本内容与方案

2.1设计基本内容

1)以网易云音乐为例,设计出能够爬取各热点榜单下歌曲的基本信息和热门评论。

2)通过python的urllib2函数进行源代码获取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅相关文献资料,明确研究内容,了解研究所需的相关知识。确定方案,完成开题报告。

第4-9周:完成英语论文翻译;参考相关文献研究python以及网络爬虫技术,编写爬虫程序,收集相关的文档和资料,初步完成程序编写和试验数据采集。

第10-15周:调试程序,正式的数据采集和结果分析,撰写毕业论文。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]郭丽蓉.基于python的网络爬虫程序设计[j].电子技术与软件工程,2017(23):248-249.

[2]李琳.基于python的网络爬虫系统的设计与实现[j].信息通信,2017(09):26-27.

[3]熊畅.基于python爬虫技术的网页数据抓取与分析研究[j].数字技术与应用,2017(09):35-36.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图