家电产品评论文本数据挖掘与分析毕业论文
2021-11-07 20:48:58
摘 要
本课题利用京东平台家电评论文本,找出在用户角度下的家电产品重要维度,分析维度之间的关联性,给家电开发运维环节提供决策支持。
研究路线按照采集、清理、可视化与分析的流程对评论文本进行处理。利用基于中文编辑算法、余弦相似度算法、基于Python difflib的文本相似度算法三者加权算法进行短文本相似度分析剔除相似度较高评论,利用基于高频词库的方法对评论进行观点提取,对观点进行量化从而找出商品维度之间的联系。最终,通过对电饭煲的实例分析,找出了电饭煲各重要维度的比例,以及维度之间的关联,同时也对这种关联进行了诊断分析。
本文创新点是对行业和品牌的重要维度进行横向和纵向分析,从而对产品维度进行分级。通过研究实践,论证了研究方向的可行性,可以对家电行业的产品进行广泛应用与分析。
关键词:家电 京东 评论文本 数据分析 文本相似度
Abstract
This topic makes use of the jd platform home appliance review text to find out the important dimension of home appliances under the user's perspective, analyzes the correlation between dimensions, and provides decision support for the development and operation of home appliances.
The research route processes the comment text according to the process of collection, cleaning, visualization, and analysis. Using the Chinese-based editing algorithm, cosine similarity algorithm, and Python difflib-based text similarity algorithm, the text similarity algorithm based on the text similarity algorithm of short text similarity analysis rejects the higher similarity of the comments, and uses the high-frequency thesaurus method to extract the opinions of the comments, and quantifies the views to find out the connection between the commodity dimensions. Finally, through the example analysis of rice cooker, the proportion of each important dimension of the rice cooker and the correlation between the dimensions are found, and the diagnosis and analysis of this correlation is also carried out.
The innovation point of this paper is to analyze the important dimensions of industry and brand horizontally and vertically, so as to grade the product dimensions. Through the research practice, the feasibility of the research direction is proved, and the products of the home appliance industry can be widely used and analyzed.
Key Words: Home Appliances JD Comment Text Data Analysis Text Similari
目 录
第1章 绪论 1
1.1课题背景与意义 1
1.1.1背景 1
1.1.2意义 1
1.2国内外研究现状 2
1.3课题研究内容与方法 2
1.3.1研究内容 2
1.3.2研究方法 3
1.3.3研究对象以及数据来源 3
1.4课题研究主要创新点 3
第2章 家电产品运维相关理论基础 5
2.1网络家电购物环境概述 5
2.1.1网络家电购物的特点 5
2.1.2网络家电购物的趋势 5
2.1.3网络购物对购物平台各方面的影响 6
2.2家电产品的内容 7
第3章 京东商城数据分析概况 8
3.1数据分析基本概念 8
3.2京东商城中的数据增长与管理 8
3.3数据分析的模式分类 8
第4章 家电产品评论文本数据挖掘与分析技术思路 10
4.1京东平台数据概述 10
4.2京东平台网络数据采集 10
4.2.1数据采集内容 10
4.2.2数据采集工具介绍 10
4.2.3数据采集技术路线 10
4.3评论数据清理 11
4.3.1数据清理原则 11
4.3.2数据清理工具概述 12
4.3.3数据清理技术路线 12
4.4数据存储 15
4.4.1Txt概述 15
4.4.2Csv概述 15
4.4.3MySQL概述 15
4.4.4数据库文件设计 16
4.4.5数据文件存储方案 16
4.5数据分析与可视化 17
4.5.1 matplotlib概述 17
4.5.2matplotlib可视化过程 17
第5章 家电评论文本数据挖掘与分析实例—以电饭煲为例 20
5.1数据采集过程 20
5.1.1商品编号采集 20
5.1.2电饭煲好评与差评分类采集 21
5.1.3特定品牌评论采集——以飞利浦电饭煲为例 22
5.2数据清理过程 22
5.2.1高相似度评论剔除 22
5.2.3评论观点量化 23
5.3数据可视化代码执行结果 25
5.3.1堆积折线图展示 25
5.3.2圆形饼图展示 26
5.3.3飞利浦电饭煲评价星级可视化展示 28
5.5数据分析的结果阐述 30
5.6基于可视化分析的电商平台电饭煲开发运维的建议 32
第6章 总结与展望 33
6.1总结 33
6.2展望 33
参考文献 34
附录 35
附录A 评论采集关键代码展示 35
致谢 36
绪论
1.1课题背景与意义
1.1.1背景
互联网诞生的诞生使得信息的传递跨越了时空和地域,正是这一点使得21世纪成为信息时代。自上世纪八十年代互联网投入实际应用以来,其成长速度之快、影响力之广泛深远都远远超出人们的预想。这期间也伴随着B2B、B2C平台的激烈竞争与快速崛起,如亚马逊、阿里巴巴等。这一系列平台的立足使得贸易离开现金、离开场地、跨越空间成为可能。也正因如此贸易平台的成长速度会令人如此惊讶。
随着国内外贸易平台的成熟,各种商品被放在网上展示,到如今,人们买任何东西都可以足不出户。同时,所有的交易信息都被保留下来,这些交易信息包括商品本身的品牌、型号,也包括商品运输时产生的物流信息还有顾客们在使用商品过后及时的反馈…一次交易就会产生如此多信息,网络上每天都会有成千上万次交易,因此每天网络上产生的商品信息数量非常庞大。
交易信息体系如此庞大,产生数据量如此之多,研究海量的交易商品信息成为社会热点。本课题旨在研究用户在使用商品过后的评论,找出用户角度下围绕家电产品从设计、制造、运输、服务等维度的重要性以及维度之间的相关性,从而给家电产品行业或者家电品牌商提供可靠运维建议。
1.1.2意义
上世纪八十年代以来,我国人民生活水平不断提高,家中必备物件从七十年代的手电筒、自行车、手表和缝纫机变成二十一世纪初的冰箱、彩电、洗衣机,再到现在人人们已经无法离开家电生活,这些变化都离不开党领导的改革开放。2015年,李克强总理签署的《中国制造2025》印证了我国政府要把中国从制造大国建设成制造强国的决心[1]。如今中国拥有世界最全面的工业链,在实现国家复兴的道路上又迈进了一步。