基于Python的数据爬虫程序设计与商品数据分析研究开题报告
2020-02-18 18:25:25
1. 研究目的与意义(文献综述)
如今正处于信息时代,人们对于信息搜集的要求越来越高。大家都希望能用越来越短的时间,而越来越准确地搜集到更全面更清晰的数据信息,以便为后期数据分析提供高质量的基础数据,从而应对市场客户的需求和市场行情的飞速变化。
python 语言具备易用、高效、可移植、可扩展等特性,已成为云计算、大数据、人工智能时代的首选程序设计语言。作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用python这样的简单编程语言,可以使用少量编程技能就可以爬取复杂的网站。python 语言已有 10 万多个第三方库,形成了庞大的计算生态,涵盖信息技术所有方向,如 requests、beautifulsoup 库用于网络爬虫,re 用于正则表达式处理,sqlalchemy 用于数据库操作,matplotlib 用于绘图数据分析。
网络爬虫 (webcrawler) 是指遵循特定规则,自动抓取web 网页的一种应用程序或脚本,其最典型的应用是搜索引擎的数据抓取系统。爬虫程序的主要作用就是将网页下载到本地形成数据备份。理论上网络爬虫可以通过分析初始页面源文件的中的 url,抓取其中的 web 链接,从而抓取到更多的新 web 网页,再继续分析抓取新 web 网页中的 url,不断循环,直至获取到想要获取的数据。它可以模仿浏览器访问网络资源,从而获取用户需要的信息。
2. 研究的基本内容与方案
本文的研究内容为基于python的数据爬虫程序设计与商品数据分析研究,学会使用python语言设计爬虫程序爬取京东等电商平台的iphone xs (a2100)商品的上万条评论信息,即完成数据采集工作,再利用爬取到的数据进行一定的数据分析并得出一类商品的销售情况分析等。
首先需要从爬取电商网站的数据,爬取数据的第一步是要分析一下 web 页面中数据是如何来的,也就是说数据是通过何种方式发送到客户端浏览器的。当静态页面先装载完,通过 ajax 技术从服务端获取 json 格式的数据,再利用 javascript 将数据显示中相应的 web 组件上。使用 urllib 3 中的 api 向服务端发送 http 请求,首先需要引用 urllib 3 模块,然后创建 poolmanager 类的实例,该类用于管理连接池;最后就可以通过 request 方法发送 get 请求了,得到数据后再进行数据清洗。
数据清洗是指发现并纠正数据中可识别的错误或让数据更加规范的最后一道程序,包括检查数据一致性,处理无效值和缺失值,以及统一数据格式、转换数据格式等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,还有的数据的格式不是我们想要的,这些数据统称为“脏数据”,我们要按照一定的规则把“脏数据”洗掉,而数据清洗的任务是过滤和处理那些不符合要求的数据,最后将处理好的数据存到sqlite 数据库中。
3. 研究计划与安排
第1周—第3周 搜集资料,撰写开题报告;
第4周—第5周 论文开题,学习python基础知识;
第6周—第12周 逐步实现预期功能,撰写论文初稿;
4. 参考文献(12篇以上)
[1]张啸宇,李静. python数据分析从入门到精通[m].北京:电子工业出版社,2018.
[2]李东方.python程序设计基础[m].北京:电子工业出版社,2017.
[3]吴剑冰.基于python3爬虫获取最新上架图书的实现[j].电脑编程技巧与维护,2018(04):31-33 39.