EXPRS:一种用于从在线消费者评论中提取产品特征的扩展的PageRank方法外文翻译资料
2021-12-18 23:05:24
英语原文共 9 页
信息与管理52ensp;(2015)850-858
EXPRS:一种用于从在线消费者评论中提取产品特征的扩展的PageRank方法
闫志军,邢梅明,张东松,马百章
北京市海淀区中关村南大街5号北京理工大学管理经济学院,北京100081;美国马里兰州巴尔的摩市巴尔的摩县马里兰大学信息系统系,美国马里兰州巴尔的摩市山顶环路1000号
关键词:在线产品评论、特征提取、扩展的PageRank算法、同义词扩展、社交媒体分析
摘要:在线消费者商品评论是消费者在做出购买决定前获取产品信息和减少产品不确定性的主要来源。然而,大量的商品评论使得消费者需要一个接一个地阅读,并且在查找他们感兴趣的特定商品特征的评论时变得冗长而无效。本研究提出一种新的命名为EXPRS的方法,它将扩展的PageRank算法、同义词扩展和隐式特征推理相结合,自动提取产品特征。使用三种不同产品的消费者评论的实证评估表明EXPRS比两个基线的方法更有效。
1.介绍
互联网技术的快速发展极大地推动了电子商务的发展。艾瑞咨询报告称,2013年中国网络销售额达到0.3万亿美元。许多电子商务网站和社交媒体平台,如亚马逊,淘宝,Eopinion,Yelp,和Dia-nping提供了一个在线信息共享渠道,允许客户对他们购买或消费的产品发表评论,同时,通过浏览其他消费者的产品评论来获得更多的产品质量信息[7,45]。研究表明,在线消费者产品评论不仅对消费者的在线购买决策有显著影响[9,33],而且有助于制造商改进产品设计和质量,有助于在线零售商改进服务[2,18,30]。
有两个关键问题阻碍消费者充分利用在线消费产品评论。首先,在线产品评论的爆炸式增长使得
消费者为了获得关于产品的有用信息而逐个浏览单个评论,这既耗时又无效,从而导致信息过载问题[25]。以往的研究表明,信息过载对购买决策有很大的负面影响,可能会导致消费者减少购买[5,8,15]。因此,如何处理这样的信息过载问题变得越来越重要。虽然文本挖掘技术已经应用到在线评论分析中,但它们主要用于识别在线消费者评论的一般趋势或某些模式,而不是处理信息过载。
其次,在现实中,个体消费者可能对不同的产品特性有偏好。例如,一些消费者在购买手机时可能会将外观和重量作为最重要的因素,而另一些人可能主要考虑其电池寿命或功能。因此,如果一些消费者认为有帮助的评论没有对另一些人感兴趣的特定产品特性进行评论,那么这些评论对其他人来说可能并不是真正有帮助的。目前大多数的在线消费产品评论平台都没有考虑到个人消费者的需求和偏好。很少有在线评论平台以个性化的、面向产品特性的方式组织和呈现评论。因此,消费者实际上不可能费力地浏览数百甚至数千条评论以查找包含特定产品特性的评论。
从在线消费者评论中提取产品特征是解决上述两个问题的关键。特征提取是消费者评价分析的基础和重要步骤,其目的是自动识别评论中的产品特征[11,36]。现有的特征提取方法有几个局限性。首先,评论中评论的产品特性可以分为两类:显式特性和隐式特性[19]。显式特性是指在评审中直接提到的特性。隐式特性是那些隐式注释但未出现在评审中的特性。在以往的研究中,隐式特征提取一直被忽视。其次,一个产品特性可以由几个不同的情绪术语来修改,一个情绪术语可以用来修改不同的产品特性。基于这一现象,我们将产品特征及其情感项的术语对视为网络节点,将不同候选特征与情感项之间的关系视为网络边缘。这样的网络可能有助于识别产品特性。虽然有一些从在线消费者评论中提取产品特征的方法探索了这种关系的融合[20,35],但没有一种方法是基于产品特征-情感术语关系网络的。第三,之前的研究没有考虑产品特性的同义词(例如,手机的内部存储、内存和RAM)。因此,评论中涉及的一些产品特性可能无法正确识别。
为了提高在线消费者评论产品特征提取的准确性,本文提出了一种新的综合方法,该方法将利用产品特征与情感词之间关系的扩展PageRank算法、添加相关同义词的特征扩展算法和隐式特征推理算法相结合。具体来说,该方法使用词汇分析工具对在线消费者评论进行预处理,然后基于候选产品特征和情感词的词对构建一个网络。接下来,将使用一种名为NodeRank的扩展PageRank算法对所有词汇对进行排序,并派生出一个候选特征集,该特征集将通过使用同义词词典和隐式特征推理进行扩展,以生成最终的产品特征集。
本研究在三个重要方面对知识文献做出了贡献。首先,我们开发了一种扩展的PageRank算法,即NodeRank,通过对候选词进行排序,找到在线消费者评论中讨论的可能的产品特征。评估结果表明,该方法明显优于现有的两种特征提取方法。其次,消费者经常使用不同的术语来表示相同的产品特性,他们也可以用非正式的语言、术语,甚至是捏造的术语[46]来描述产品特性。这些术语隐式指出的产品特性很难被现有方法识别。为了解决这一局限性,本文提出了基于重要的“特征-情感术语对”推断出隐含的产品特征的方法。第三,我们提出的方法通过结合基于同义词词典的候选特征词的同义词来扩展初始特征集。实践结果表明,该特征扩展方法对产品特征提取性能有积极的影响。提出的特征提取方法可以对消费者的在线评论进行个性化、面向特征的总结和呈现,淘宝网、京东等一些网络零售商已经开始提供这种功能。它可以显著缓解信息过载问题,促使更快消费者做出购买决策。产品制造商还可以从消费者那里获得关于产品特性的宝贵反馈。
本文的其余部分组织如下: 第二节将介绍产品特征提取的相关研究;然后在第三节中给出所提出的产品特征提取方法,并对评价结果进行描述;最后,我们将在第四节中讨论本研究的主要研究成果和实际意义。
2.相关工作
目前从在线消费者评论中提取产品特征的方法可以分为三类:基于词典的方法、基于依赖关系的方法和基于机器学习的方法。我们将在本节的其余部分介绍这三种方法。
2.1.基于词典的特征提取方法
这种方法基于词典提取产品特性,词典中包含手动预定义的与产品相关的特性。例如,Poria等人提出了一种基于规则的方法,该方法利用常识性知识和句子依赖树来识别产品特性。使用预定义的隐式特征词典提取产品特征,使用意见词典分析用户的特征倾向性。Lietal.[27]首先构建了一个包含特征词和意见词列表的词典,并用它为每个特征分配一个极性标签。然后运用自然语言处理技术和统计方法,从已定义的词汇中提取特征词和观点词。
基于词典的方法很容易实现。然而,这种方法的有效性很大程度上依赖于预定义的特征词汇。随着在线产品的快速增长,手工开发和更新每个产品的特征词汇是不现实的。
2.2.基于依赖关系的特征提取方法
基于依赖关系的产品特征提取方法基于评论句子中出现的术语之间的依赖关系。研究人员发现,在评论句中,特征词和情感词之间往往存在着联系,这可能有助于提取产品特征[35]。这种方法首先分析句子中的术语依赖关系,然后应用一些规则和算法从已识别的依赖关系中提取产品特征。例如,邱等人[35]认为产品特征和情感词总是与某种特定的依赖关系共存。他们使用语法分析器从评论语句中提取依赖关系,并应用DPensp;(Doubleensp;Propagation)算法从评论中提取产品特征和情感词。张ensp;etensp;al.[48]利用DP算法从意见词与特征之间的词依赖关系中提取特征,并利用HITSensp;(Hyperlinkensp;Inducedensp;Topicensp;Search)算法根据特征的相关性和出现频率对特征进行排序。评估结果表明,该算法对特征提取中的候选特征进行排序是有效的。Huang等人将特征提取作为序列标记任务,利用CRFensp;(conditionensp;Randomensp;Fields)模型从依赖关系中提取产品特征。他们将词性特征和句子结构特征结合到CRF的学习过程中,这些特征通过语法依赖解析器进行分析。Ahmadensp;etensp;al.[4]等主要分析了评论中短语的依赖关系,其中的依赖关系可能更简单,从而提高提取性能。
基于依赖关系的特征提取方法是产品独立的,可以应用于大规模的评论数据。然而,由于语言的复杂性,很难在评论中确定所有依赖关系。某些依赖关系的省略会对提取性能造成很大的影响。因此,在分析依赖关系之后,还需要一些额外的特征提取步骤。
2.3.基于机器学习的特征提取方法
产品特征通常是名词或名词短语,所以另一种通用的方法是在评论中标注名词和名词短语,然后使用一些机器学习算法从中提取候选产品特征。Eirinaki等人[12]提出了HACensp;(High AdjectiveCount)算法来提取潜在的产品特征。他们假设评论中描述产品特性的词总是名词,而表达情感的词总是形容词。词性标注(part-of-speech,PoS)是为一个句子中的每个单词生成一个句法标记(例如,名词、动词、副词和形容词)的过程。他们发现得分越高的名词越有可能是重要的和显著的特征。胡等人应用关联规则挖掘从评论中提取产品特征。他们使用NLProcessor(一种语法解析器)来执行句子分割和词性标注。提取名词和名词短语作为事务,使用Apriori算法识别频繁项集。最后,通过对频繁项集的裁剪得到产品特征。Wong和Lam[43]基于无向图模型从多个拍卖网站中提取产品特征并发现热点项目特征。他们将产品特征提取和热点项目特征汇总的任务用条件随机域表示为单个图形标记问题。实验结果表明,无向图模型作为一种捕获变量间依赖关系的通用模型,对于一般的数据挖掘问题具有良好的可扩展性。Wei等人提出了一种基于语义的产品特征提取技术。他们应用关联规则挖掘算法,在一个复习语料库中查找所有的频繁项集,然后使用在Generalensp;Inquirer[22]中定义的一组积极和消极形容词作为意见词来细化识别出的频繁特征集。
这种方法与产品无关,因为它不需要任何先验的产品知识,也可以应用于大规模的评审数据[28]。然而,机器学习方法主要依赖于名词和名词短语作为产品特征词的概率是根据它们出现的频率计算出来的。它忽略了一个事实,即高频名词或名词短语不一定是产品特征,反之亦然。
3. EXPRS:一种新的综合的特征提取方法
为了解决现有方法的这些问题,我们提出了一种名为EXPRS的集成方法(一种由同义词词典增强的扩展PageRank算法)来从评审语料库中提取产品特征。通过EXPRS,识别和分析名词/名词短语与情感词之间的依赖关系,运用过滤规则生成候选产品特征,通过扩展的PageRank算法NodeRank对候选产品特征进行排序。排序的特征候选词集将使用同义词词典进行扩展,隐式产品特征推导将使用最终的特征词集进行。图1显示了EXPRS的概述,输入的特定产品的文本评论和输出的提取的产品特征。
该方法主要包括以下几个步骤:分词、PoS、依赖关系分析、基于规则过滤,候选特征排序,特征扩展,隐式特征推理。
3.1.分词和词性标注
首先,对产品评论进行预处理,以删除无用的字符,如特殊符号。然后,EXPRS在单个产品评论上执行分词和词性标注。与英语句子不同,汉语句子中相邻的两个词之间不存在空格。所以单词分段是一个基本的操作,它将每个单词与其相邻的单词在一个句子中分开。考虑到产品特征通常是名词或名词短语,生成词性标记和识别名词是发现候选产品特征的关键。我们使用一个叫做ICTCLAS的中文词汇分析工具(计算机技术研究所,中文词汇分析系统,http://www.ictclas.org/)来检查句子的分段和词性标注
3.2.依赖关系分析
依赖语法用一组依赖关系[37]描述句子结构。依赖关系是一个称为头或调控器的术语和另一个称为修饰符或依赖[31]的术语之间的非对称二进制关系。
依赖语法分析可以识别一个词在句子中的角色和依赖关系。在本研究中,通过使用Stanfordensp;Parserensp;(http://nlp.stanford.edu)进行依赖关系分析,识别和分析候选产品特性和相关的情感术语。
句子中可能存在不同的依赖关系,但只有部分关系有助于识别产品特征。与Wu等人的[44]研究类似,我们在产品特征提取过程中考虑了“nsubj”、“amod”、“rcmod”和“dobj”四种主要的依赖关系类型。它们分别指主谓关系、形容词修饰关系、关系从句修饰关系和动-宾语关系。
3.3.基于规则的过滤
有些名词或名词短语(如品牌名称)不是产品的特征。因此,我们开发了一些过滤规则,通过扩展[26]中使用的名词或名词短语来排除非特征名词或名词短语。在本研究中,如果一个初始候选特征属于表1中所列的下列名词或名词短语的一种类型,则从初始特征集中删除该特征,同时从前面步骤生成的候选特征对中删除相应的词对。
3.4.NodeRank:一种扩展的PageRank算法
PageRank是一种著名的有效的网站排名算法[6],用于确定关键网络节点[13]。PageRank算法的背后是,一个网站的重要性取决于其他链接到它的网站[39]。将超链接的价值作为排名因素,PageRank将重要网站与不那么重要的网站区分开来。一个网站的重要性和价值应该平均分配给我所链接的那些人。如果总共有N个网站,向量Pensp;=ensp;(Pensp;(1),ensp;P(2),hellip;,Pensp;(N))T表示重要性值(即 ,网页排名值)。
在特征提取的背景下,一个名词或名词词组在网上消费产品评论更有可能是一个功能项如果是由多个形容词修改评论[12],因为人们倾向于使用形容词来表达他们的情绪倾向对特定产品特性[41]。类似地,如果一个形容词修饰多个产品特性术语,它更有可能是一个感伤词。将产品特征与情感词对视为网络节点,将候选特征与情感词之间的修改关系视为网络边缘。我们把这种自组织的网络称为特征-情感术语关系网络。
PageRank算法根据网络的链路结构来衡量网络节点的重要性。对于特征-情感术语关系网络,一个网络节点的重要性反映了该网络节点中情感词对产品特征的修改程度,这是由来自其他网络节点的链接决定的。来自重要节点的链接比来自不那么重要的节点的链接具有更多的权重,并且一个节点的重要性将由它链接到的所有节点共享
资料编号:[4517]