登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 经济学类 > 电子商务 > 正文

基于用户在线评论的商品改进毕业论文

 2020-02-19 17:01:09  

摘 要

随着互联网技术的快速发展,电子商务成为人们生活中不可或缺的必需品,消费者在交易完成后在互联网上发表了大量的商品在线评论信息,而对商品评论文本的挖掘分析可得到用户关于商品各个特征属性的观点,对商品进一步的改进具有重大意义。以往研究中经常围绕用户的所有评论,而对差评的单独研究很少,但也正是这些差评给予商家以建设性意见。文中以具体商品为研究对象,通过对商品差评与中评评论文本中用户普遍关注的商品特征属性的提取、用户对特征属性的观点关键词的提取等处理过程。实验实现了对用户评论文本商品特征属性与用户情感观点词的权重抽取,得到在消费者体验过程中发现商品的劣势与不足,最终为商家提出商品改进方面的意见提供了理论依据。

关键词:在线评论 特征提取 特征观点 商品改进

Abstract

With the rapid development of Internet technology, e-commerce has become an indispensable necessity in people's lives. After the transaction is completed, the consumer publishes a large number of online product review information on the Internet, and the mining analysis of the product review text can obtain the user's views on the various characteristic attributes of the product, which is of great significance for further improvement of the product. In the past, research often focused on all the user's comments, while the separate research on the bad reviews was rare, but it was these bad reviews that gave the merchants constructive opinions. In the paper, the specific commodity is taken as the research object, through the extraction of the commodity feature attributes that the users generally pay attention to in the commodity bad review and the middle review comment text, and the extraction of the user's viewpoint keywords from the feature attributes. The experiment realizes the weight extraction of the user's commentary text product attribute and the user's emotional point of view word, and obtains the disadvantages and shortcomings of the product found in the process of consumer experience, and finally provides a theoretical basis for the merchant to put forward the product improvement opinions.

Key words: Online Comment; Feature Extraction; Feature View; Improvement of Product

目 录

摘要 I

Abstract II

第1章 绪论 1

1.1 研究背景与意义 1

1.2 研究方法与内容 3

1.3 研究创新点与难点 3

第2章 文献综述 4

2.1 在线评论特征词提取与情感分析 4

2.2 在线评论在产品领域的应用 4

2.3 在线评论在其他领域的应用 5

2.4 现有文献综述 6

第3章 研究框架与关键技术 7

3.1整体研究框架 7

3.2 关键技术 8

3.2.1爬虫技术 8

3.2.2 中文分词 8

3.2.3 去停用词 10

3.3.4关键词提取 10

第4章 实验与数据处理 12

4.1 数据采集 12

4.2 文本预处理 14

4.2.1 中文分词 14

4.2.2 去停用词 16

4.3 手机关键属性提取 16

4.4 手机关键属性分析 17

4.5 实验结果分析 19

第5章 结论与展望 21

5.1主要结论 21

5.2 研究展望 21

参考文献 23

致谢 24

第1章 绪论

1.1 研究背景与意义

在互联网时代,无论是移动网络还是PC互联网,都在悄无声息中影响了人们生活的各个方面,无论是在吃穿住行的哪一方面都离不开互联网,尤其在网络购物方面,相较于传统实体店,互联网环境下产生新的交易方式——电子商务,成为越来越多的消费者购买商品和服务的第一选择。自2012年起,中国在线用户规模与网上购物交易规模呈爆发式增长,据统计,到2018年12月,我国网络购物用户规模达到6.1亿,与2017年底相比,增长了14.4%,占网民总体比例达73.6%。2017年网络购物零售市场规模达71751亿元,比去年同期增长34.6%,2018年超过8万亿人民币[1]。具体数据如图1.1,图1.2所示。

图1.1 2013-2017年中国零售市场交易规模

图1.2 2012-2017年中国网络购物用户规模及占比

自在接纳快速增长的用户的同时,电子商务购物网站保存了消费者大量的行为轨迹,包括用户在购买商品或服务后的评论文本信息,据中国互联网信息中心研究,消费者在京东等电商平台上购买数码商品时,50%的人群选择购买之前参考商品评论,即使他们没有购买意愿,仍有89.8%的被调查者选择关注商品的相关评论;48.7%的被调查者表示他们会持续观看所关注的商品评论。可见,商品评价对消费者购买决策影响是不容忽视的,他们是获得其他用户对商品体验反馈的第一手资料,因此对商家而言,对用户在线评论进行深度挖掘,找到自己产品的不足之处,它在提高商品质量和用户满意度方面起者至关重要的作用。

对于商家而言,如何更好的改进商品,进而提升用户的消费体验是至关重要的,所以评论信息中隐藏的大量的有价值信息对商家提高商品质量提供有力的数据支持,相较于问卷调查、咨询等传统调研方式,在线评论数据更为庞大直接,消费者的亲身体验使在线评论更具有可信度,在大量的在线评论中找到用户关注的有关商品属性并进行分类分析,可以快速有针对性的改进商品。但正是由于在线评论信息数量庞大,呈现非结构化形式,这些海量且冗余,且夹杂虚假信息,商家如何挖掘有用信息,提取有关商品属性的摘要词,并将有用性强的信息应用于自身商品改进上,将具有重大的意义。

1.2 研究方法与内容

本文的主要研究内容是挖掘用户的商品在线评论,通过对评论的分析,挖掘用户体验过程中针对商品提出的意见,进而在这些方面提取用户反映较为集中的问题,得到商品的特征不足,进而提出针对性改进建议。

研究方法主要如下:首先,阅读大量在线评论价值挖掘,基于评论文本的用户情感分析与挖掘,在线评价系统对商品的影响等相关文献,之后撰写文献综述,理清论文思路,撰写论文提纲;其次,确定华为mate20 Pro为研究对象,收集近阶段京东平台上相关的商品评论,运用Python与Excel等相关软件对评论进行处理,得到商品在消费者口中的优势与不足;最后,基于在线评论的分析结果,对商家提出针对性的商品改进方面的建议。

1.3 研究创新点与难点

(1)研究创新点:因本文研究的重点是用户在线评论在商品改进方面的作用,所以本文研究的重点是用户的中评与差评,而以往论文等文献的研究基本是所有用户的评价,涵盖好评与差评。第二,文中提出的研究方法较一般方法具有简单有效的优点;第三,本文会根据对评论的分析结果对商家提出针对性的建议,使得研究更具有使用价值。

(2)研究难点:第一,在数据的获取方面,本文的数据主要来源与京东平台华为旗舰店,在运用爬虫软件八爪鱼时需要一定的数据获取能力;第二,由于评论文本的非结构化与半结构化特点,而且评论用户具有随机性,所以文本处理具有一定的难度,因含否定意义的字与词语复杂多变,在提取时极易与相关形容词分离,便产生相反的情感,所以对含有否定修饰词的文本研究总是达不到预期的效果。

第2章 文献综述

总结上面的研究背景与意义,可以看出商品在线评论隐藏着多数消费者重视的商品属性与情感态度,而商品属性与情感态度的提取又对生产商对商品的改进起至关重要的作用。从商品的在线评论为切入点,对商品的属性进行深入分析,在很早就已经有大量中外学者进行研究,而且深度与广度方面均有较大的成果。

基于此,如何在非结构化或半结构化的评论文本中提取商品属性特征词与特征观点词,并将技术应用于商业研究将是研究的重点。

2.1 在线评论特征词提取与情感分析

在海量非结构化的评论文本中挖掘出对研究者有价值的信息方面,国内外学者已形成了较多的理论成果。吴桐[1](2014)提出了一种基于商品属性词聚类、评论相关排序及情感倾向分析统计的结构化摘要生成方法,并根据实证分析验证准确率与召回率有很好的效果。李涵昱[2](2017)通过ICTCLAS汉语分析系统,实现了对商品属性和评论情感词的自动化方式的抽取,通过PMI-IR计算公式实现了商品评论的情感倾向性分析。胡云凤[3](2017)利用改进的SSTM模型对在线评论进行情感分析,并区分显示评论与隐式评论,利用构建的属性词-评价词对隐式评论进行处理,提高了情感分析的精确性。

2.2 在线评论在产品领域的应用

在张璐[4](2015)等研究的用户网络在线评论信息的产品创新中,研究采集小米品牌手机的用户在线评论样本数据,在经过对评论文本的处理后,包括提取特征属性词,中文分析和词频统计等,重点研究用户在线评论中特征属性词与产品本身应如何创新改正的关系。经过实证分析,通过用户的在线评论对商品进行改进是可行和有效的,因为两者之间存在较强的相关性。周红伟[5](2015)以华为手机评论数据为切入点,依据不同的评论句型,构建了多策略分析方法,尤其注重负面情感的抓取,利用情感分析找到产品的不足与优点,对产品做出进一步的改进。利用在线评论对商品的进行研究时,最重要的是挖掘产品属性与观点词。Somprasertsir[6](2010)在其论文中的研究的商品属性抽取方法为通过训练大量的语料进行模板的抽取,再通过模板对收集的评论语句抽取商品属性,进而对商品进行研究。对于用户对于商品的评论词的抽取,Hu和Liu[7](2010)认为大多数的评论词都是形容词,所以可以定义一个距离,只要在所研究的商品特征属性的这个距离范围内的形容词,都可以认为是形容该特征的评论词。Scaffidi[8](2007)等人在研究一个新的搜索系统Red Opal的过程中,采用词性标注、TF-IDF等方法对商品的属性进行提取,另外采用情感分析方法对提取的方法进行评分。Xue[9](2016)等人在对iPhone SE和Galaxy S7 edge的研究过程中,采取FP-growth算法对商品特征进行提取,并观察用户对这些特征的关注度,排序后计算单词的情感极性。彭云[10](2015)在采用LDA模型提取商品的特征属性时,不仅关注词语出现的频率以及语法结构,又将词语相似度与上下文之间的相关性考虑在内,使LDA模型识别商品特征词的能力。涂顺林[11](2016)等提出了将词性与统计学相结合的方法来提取关键词,先通过此项标注与统计来提取商品属性特征候选集,然后用模式匹配裁剪候选集,最终构建无关词库过滤候选集。桑书娟[12](2012)等人提出一种利用互信息(PMI)的方法,主要原理为先提取出现频率高于某一个特定阈值的名词性短语或词语来作为特征词候选词,在通过搜索引擎来计算他们与产品的PMI值确定两者相关性,从而确定商品特征词,这种发法处理的较慢。徐芳平[13]以两种手机为例,通过基于关联规则的Apriori计算出商品属性特征,然后对提取出的属性词所对应的观点词进行模糊计算,得到属性的评价值,最终根据结果对产品再制定提供修改依据,创新的使用了模糊计算的方法与挖掘技术的结合。

2.3 在线评论在其他领域的应用

在郭恺强、王洪伟等人[14](2014)研究的在线评论的网络零售定价模型中,作者将在线评论的挖掘用于产品定价,以消费者效用理论为理论基础,在网络零售两阶段销售的背景下,依托用户在线评论,建立了产品定价模型。并通过数值模拟发现,在线评论数量与第一阶段的最优价格呈负相关,与第二阶段的最优价格呈正相关。在李金海[15](2015)等研究的在线评论挖掘与企业网络口碑危机预警研究中基于大数据处理引擎MapReduce技术对特征词进行挖掘,然后建立在线评论的情感强度分析模型,在此基础上,构建基于在线文本挖掘的网络口碑危机预警模型,识别企业的哪种属性的负面网络口碑较多,即存在危机,以及企业的未来走势,最终采用人工智能信息处理方法完成企业网络口碑的评估完成危机的预防与控制。本文的新颖之处在于研究者研究的网络在线评论不仅全面,算法模型合理,而且其运用的大数据技术MapReduce使研究者在处理海量的评论文本时,对负面评论的发现更加及时。在杜惠英[16](2017)等研究的在线评论与消费者购买意愿中,分别分析了评论本身,评论者,商家和消费者等维度建立模型,并进行实证分析,研究表明,在线评论自身与同类商品的评价都显著影响着消费者的购买意愿,评论数量越多,质量和效价越高,对购买的意愿越大。

2.4 现有文献综述

虽然上述研究已经取得了较为丰富的成果,建立了基本的模型并进行实证分析,但是仍具有一定的局限,主要表现在下面几个方面:(1)尽管大量学者在研究用户的在线评论时提出评论文本对商家产品的改进具有重要的意义,计算机技术人员也仅仅止步于如何更精确简洁的对评论文本进行要素抽取、评论情感分析、摘要生成等方法进行研究,并没有应用于具体的商品改进中。(2)现有的对在线评论中否定修饰词的句子的研究达不到理想的效果,而正是这些否定词对商家产品的改进起关键性影响,所以本文主要针对评论中否定词进行研究,采取多项分析方法结合的方式。(3)国内学者研究的重点大多是全部商品评价或者商品的正面评价,仅仅研究商品的负面评价的非常少,而对商品质量改进起决定性作用的确是消费者最不满意的地方,所以本文会单独对负面评价进行研究。

第3章 研究框架与关键技术

3.1整体研究框架

为从商品的在线评论中挖掘出商品的劣势,进而对商品的改进提出针对性建议,本文对此做深入探讨并设计研究框架,详细流程如下:

(1)抓取商品评论数据

对于评论数据的抓取,可以使用爬虫软件从天猫、京东等电商平台上获得,可以选择单个电商平台,也可以多个电商平台相结合,为保证数据的公正性,可以采用多个平台多个店铺同时研究的方法。

(2)文本预处理

收集到数据后,为对评论文本进行有效的分析,对数据先进行初步的处理,包括包括文本去重,中文分词与去停用词。

(3)提取商品特征关键字

每一个商品都存在很多的属性,但用户比较关心的一般只有几个,所以为了提高研究的效率与有用性,需要对商品特征词进行提取,这就需要运用关键词的提取,集中分析商品关注度较大的属性特征,因为这些特征很有可能存在商家没有想到的不足。

(4)对商品特征属性再进行关键字的提取

在进行商品特征词的观点分析时,需要用Excel把含有相同商品特征关键词的评论语句提取出来,分别研究。对每个特征属性运用权重计算的方法提取权重较高的修饰词,便完成商品特征与特征观点的匹配。整体流程如图3.1所示。

图3.1 模型流程

3.2 关键技术

3.2.1爬虫技术

在挖掘用户在线评论的价值之前,必须通过一定的渠道获取有关商品的评论文本,最直接简单的方法就是从网站内部数据库直接获取,前提是获得相关公司的允许与支持,因为大部分的数据具有隐私性,轻易的提供给公司外部人员会有泄露用户隐私的风险,即使是一般的学者也很难获取网站公司内部的数据。现在最为受欢迎的数据获取方法是网络爬虫技术,最常用的就是八爪鱼采集器,它是一种专门爬取网页数据的采集器,而且并不是专门为特定行业的数据而设计,对于网页上能看到或网页源代码中有的文本信息几乎都可以进行采集,据八爪鱼采集器官网统计,市面上百分之九十八的网页都可以采集。它无需网页公司的允许即可进行,但是对于用户名中被隐藏的部分和一些详细信息,八爪鱼是没有办法获取的,本论文进行的实验无需用户的详细信息,因此这种缺陷对实验没有任何影响。

对于本文用到的搜索引擎爬虫,工作原理如下:爬虫首先从互联网页面中精心选择一部分的网页作为种子URL,,并对HTML文件进行解析,获取网页的内容并取出页面上的子链接,再从抓取到的链接搜寻下一个页面,如此循环往复,直至遇到终止条件下的页面或加载完页面上的所有信息,最终通过网页下载器下载页面内容。

网络爬虫的另外一个优点是他可以对数据进行初步的预处理,包括重复内容的过滤和网页有效性的更新。在用户购买商品后,可能因为网络原因或者生气等主观因素对商品进行重复相同内容的评论,这样会对研究结果会起到负面影响,所以在预处理时都会进行文本的去重,而八爪鱼采集器等爬虫软件在数据导出与存储时便可以自动实现此功能。

采集到的原始数据包含的信息杂而乱,存在大量的噪声数据,与研究的问题没有任何关系,如果直接对原始数据进行分析,会导致分析效率低且针对性弱,所以在进行文本处理之前,必须先降噪声,其中文本的预处理包括分词,词性标注与关键词的提取。

3.2.2 中文分词

中文分词是文本挖掘的基础,因为电脑只能对切分后的句子实现语义识别,所以在实验之前必须对中文文本进行中文分词处理。但是相较于英文,中文有很多的劣势,第一,中文句子文本中没有空格,有实用意义的一般是两字或多字的词语;另外,中文存在一词多义,歧义和新词错别字等。要想更好更精准的提取出有关商品属性的关键词与关键词的修饰词,必须提高中文分词的质量。目前已经存在很多成熟的中文分词系统,下面介绍三种比较常用的分词系统:

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图