登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 电子信息类 > 电子信息工程 > 正文

基于Python的数据爬虫程序设计与商品数据分析研究文献综述

 2020-04-14 17:21:10  

1.目的及意义

如今正处于信息时代,人们对于信息搜集的要求越来越高。大家都希望能用越来越短的时间,而越来越准确地搜集到更全面更清晰的数据信息,以便为后期数据分析提供高质量的基础数据,从而应对市场客户的需求和市场行情的飞速变化。

Python 语言具备易用、高效、可移植、可扩展等特性,已成为云计算、大数据、人工智能时代的首选程序设计语言。作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,可以使用少量编程技能就可以爬取复杂的网站。Python 语言已有 10 万多个第三方库,形成了庞大的计算生态,涵盖信息技术所有方向,如 requests、BeautifulSoup 库用于网络爬虫,re 用于正则表达式处理,sqlalchemy 用于数据库操作,matplotlib 用于绘图数据分析。

网络爬虫 (WebCrawler) 是指遵循特定规则,自动抓取Web 网页的一种应用程序或脚本,其最典型的应用是搜索引擎的数据抓取系统。爬虫程序的主要作用就是将网页下载到本地形成数据备份。理论上网络爬虫可以通过分析初始页面源文件的中的 URL,抓取其中的 Web 链接,从而抓取到更多的新 Web 网页,再继续分析抓取新 Web 网页中的 URL,不断循环,直至获取到想要获取的数据。它可以模仿浏览器访问网络资源,从而获取用户需要的信息。

2019年2月28日,中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》。报告显示,截至2018年12月,我国网民规模达8.29亿,全年新增网民5653万,互联网普及率为59.6%,较2017年底提升3.8个百分点。截至2018年12月,我国网络购物用户规模达6.10亿,年增长率为14.4%,网民使用率为73.6%。

从上面数据来看,我国网购用户不断增多,国内网络市场规模也在不断扩大,本文旨在通过Python语言设计爬虫程序爬取京东等电商平台的商品信息即完成数据采集工作,再利用爬取到的数据进行一定的数据分析并得出一类商品的销售情况分析等。

如今消费者所购买的产品不再是单一的产品,而是演变为"商品 服务 数据 内容"的组合。没有网购,就没有今天网络市场如此丰富的产品和多样化的消费。本文希望能够通过爬取各大电商平台的数据并进行分析以为提升网购的体验贡献一份力量。

{title}

2. 研究的基本内容与方案

{title}

本文的研究内容为基于Python的数据爬虫程序设计与商品数据分析研究,学会使用Python语言设计爬虫程序爬取京东等电商平台的iPhone XS (A2100)商品的上万条评论信息,即完成数据采集工作,再利用爬取到的数据进行一定的数据分析并得出一类商品的销售情况分析等。

首先需要从爬取电商网站的数据,爬取数据的第一步是要分析一下 Web 页面中数据是如何来的,也就是说数据是通过何种方式发送到客户端浏览器的。当静态页面先装载完,通过 AJAX 技术从服务端获取 JSON 格式的数据,再利用 JavaScript 将数据显示中相应的 Web 组件上。使用 Urllib 3 中的 API 向服务端发送 HTTP 请求,首先需要引用 Urllib 3 模块,然后创建 PoolManager 类的实例,该类用于管理连接池;最后就可以通过 Request 方法发送 GET 请求了,得到数据后再进行数据清洗。

数据清洗是指发现并纠正数据中可识别的错误或让数据更加规范的最后一道程序,包括检查数据一致性,处理无效值和缺失值,以及统一数据格式、转换数据格式等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,还有的数据的格式不是我们想要的,这些数据统称为“脏数据”,我们要按照一定的规则把“脏数据”洗掉,而数据清洗的任务是过滤和处理那些不符合要求的数据,最后将处理好的数据存到SQLite 数据库中。

最后一步,先要装载数据,利用Pandas库的若干函数统计计算用户所购买的手机的版本数据(如金色—64G,银色—128G等),以及利用ze库正则表达式来匹配评论统计数据的关键字,例如“信号不好”、“正品”、“方便好用”,“外观一流”等等,最后将分析统计的结果用 Matplotlib 库展现出来。通过分析的数据,我们能够了解到广大用户对iPhone XS (A2100)商品的需求和满意度、对该商品的体验感受,以及用户体验到的该商品的不足之处。我们在了解到用户指出的商品缺陷和不足后,便可以在下一代产品中不断改进,让商品的品质和用户体验更加完美。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图