基于循环神经网络的商品评论文本情感分类研究开题报告
2020-02-11 00:37:03
1. 研究目的与意义(文献综述)
众所周知,区分用户发帖或者评论文本的情感分类问题,对商家来说是很重要的,不仅可以及时了解到用户的情绪,而且可以帮助商家进行产品迭代。例如,“汽车之家” 网站上的用户评论,进过情感词分类后,可以得到很多有用的信息,如 “发动机有问题”,“总是烧机油” 等。 现今的评论系统虽然都会让用户选择好评中评差评,但有一些表面,有的用户选择好评但其实还是有一些小意见,还有那些选择中评差评的原因和情感倾向也是多种多样。本论文意在将淘宝评论情感分得更细致,让商家可以进一步清楚的了解用户对产品的态度以便更好的改进商品,也为之后的研究提供参考。
国内外的研究现状分析
情感词典作为一种重要的情感分类方法, 能够体现文本的非结构化特征。基于情感词典法需要将分词后的文档或句子中的每个词与情感词典中的词进行匹配, 并统计匹配成功的正负面情感词的数量,通过数量判断文本的情感倾向。基于词典和规则的方法具有省力、省时的优势。赵文婧[1]提出了对于不同领域的语料,给定领域相关种子词,基于模板从语料中互推迭代提取出产品属性词和对应情感词的提取算法。这是基于关联规则法制定的情感词提取方法。陈晓东[2]对新浪微博语料进行实验,自动获得领域情感词,构建了一个面向中文微博的情感词典。实现了一个面向中文微博的情感倾向分类系统,对中文微博的情感倾向分析进行了初步探索,还原。但是对于情感词的识别还不够准确深入。肖江,丁星,何荣杰[3]为了能更准确地识别情感词,构建了基准情感词典,并在基准情感词典的基础上构建了相关领域情感词典,采用相似度计算的方法确定领域情感词的情感倾向。paltoglou等[4] 于2012年采用基于情感词典的情感分类方法,并利用否定词、大写字母、情感增强减弱、情感极性等多种语言学预测函数对微博数据进行情感分类。邓佩,谭长庚[5]针对传统的微博情感分析方法忽略了图片影响因素、特殊符号信息以及上下文信息导致情感分析方法的准确率不高的问题,提出了一种基于转移变量的图文融合微博情感分析方法。首先构建基于转移变量的无监督情感分析模型来分析文本情感分布,然后引入图片作为情感影响因素来分析情感分布,最后计算微博的整体情感倾向。
2. 研究的基本内容与方案
基本内容
从文本情感分类传统模型的思路出发,结合深度学习与自然语言处理克服传统模型对于精度和背景知识问题的局限性。基于lstm(long-short term memory,长短期记忆人工神经网络)搭建一个文本情感分类的深度学习模型对淘宝的商品评论文本进行处理。近年来,深度学习算法被应用到了自然语言处理领域,获得了比传统模型更优秀的成果。如bengio等学者基于深度学习的思想构建了神经概率语言模型,并进一步利用各种深层神经网络在大规模英文语料上进行语言模型的训练,得到了较好的语义表征,完成了句法分析和情感分类等常见的自然语言处理任务。
1. 概论
3. 研究计划与安排
第1-4周:收集和整理资料。
第5-6周:拟定提纲,提交开题报告。
第7-13周:撰写论文初稿和修改稿,保持与指导教师的沟通。
4. 参考文献(12篇以上)
[1]赵文婧. 产品描述词及情感词抽取模式的研究[d].北京邮电大学,2010.
[2]陈晓东. 基于情感词典的中文微博情感倾向分析研究[d].华中科技学,2012.
[3]肖江,丁星,何荣杰. 基于领域情感词典的中文微博情感分析[j].电子设计工程,2015(12):1821.