基于用户评论的情感识别系统研究与实现开题报告
2020-02-18 20:07:06
1. 研究目的与意义(文献综述)
随着中国互联网经济的发展,在“互联网+”的模式下的影响下,电子商务发展迅猛。根据中国电子商务研究中心统计数据,我国电子商务全局保持了快速发展的势头,已经迈入规模发展阶段,成为我国经济发展的主力军。淘宝、京东、亚马逊、当当等电商网站的发展使得网购成为潮流,多样化的需求也推动各网站的发展,竞争也愈发激烈起来。在电商平台这样激烈竞争的的大背景下,除了提高产品质量、压低产品价格和使用一些营销手段外,了解更多消费者的心声,发现产品的不足更是相当重要的一种提高竞争力的方法。其中最为有效的就是方式就是利用消费者的评论数据,进行潜在信息的一种数据挖掘分析工作,这对于电商平台以及产品都会有很大的意义。对于用户来说,在网上确认订单前,通常会去查看该商品的历史评论以了解该商品的评价信息,从而做出是否购买的决策。
目前各大主流网站电商平台用户评论系统都是采用“评分等级 预定义标签 评论文本”的形式对用户评论进行采集和分析。但现有的电商评论系统存在步骤繁多和操作繁琐,而且容易导致错误判断的问题。这样的错误评价不仅会影响到 商家对于产品精准的数据统计、广告推送和商家商品排名,也会使后来购买此商品的用户判断失误造成决策错误。
本论文的目标是,基于文本挖掘技术和情感分析技术的相关理论知识,克服现有电商网站评论分析系统准确度较低的缺陷,利用京东网站部分商品对产品的评论数据进行去重和清洗,并对数据进行分词,分析其依存语法关系,建立情感规则表,并提取情感词,再通过构建面向产品评论文本的情感词库以及辅助词库,对评论的文本情感值进行计算,进而较为准确的识别出用户评论的情感倾向。
2. 研究的基本内容与方案
在电子商务中文本挖掘和情感分析技术起到十分的重要作用。通过分析电商平台的用户评论数据,挖掘用户情感信息,不仅为用户选购相应商品时提供有价值参考,还可以为企业提供更精确的数据统计、广告推送和商家商品排名。本课题主要从预处理的分析电商历史评论数据、历史语料处理和语法依存分析、属性词库与情感词典的建立和多等级分类系统的实现等方面进行,通过对用户评论文本进行分析计算,较为准确地识别出用户评论的情感倾向。本课题主要研究基于电商评价的文本情感分析,以自然语言处理技术为基础,需要完成的主要内容为:(1)利用爬虫工具获取某个产品的评论数据并去重和清洗;(2)详细分析历史评论数据,对数据进行分词,并分析其各种依存语法关系,识别出其中可能包含用户语义倾向的依存关系,建立一个适用于抽取情感词的依存规则表,然后基于规则抽取电商评论文本中的情感词;(3)基于抽取的情感词集合,利用基准词库来构建面向电商评论文本的情感词库;(4)利用建立的基准词库来构建适用于电商领域的情感词库的功能、构建辅助词库,实现情感计算算法的功能,从而完成整个系统的设计与实现。
3. 研究计划与安排
第一周:查阅设计题目的相关资料;
第二至第三周:撰写开题报告,翻译英文资料;
第四至第五周:掌握python自然语言处理的使用方法;
4. 参考文献(12篇以上)
[1] 易剑波. 基于文本挖掘的电商用户评论分析与系统实现[d]. 2017.
[2] 陈涛等译著. python自然语言处理[m].人民邮电出版社, 2014.