基于深度学习的电影评论情感分类系统研究文献综述
2020-04-14 17:23:38
1.1研究目的及意义
随着互联网行业的快速发展,越来越多的人选择通过网络表述自己的观念和情感,大量评论、文章、消息、时事报告等文本数据在网络上不断积累。根据中国互联网络信息中心于2017年8月4日发布的第40次《中国互联网络发展状况统计报告》表明,截至2017年6月,我国网民人数达到7.51亿,互联网普及率为54.3%,较2016年底提高1.1个百分点:截至2017年6月,中国手机网民人数达到7.24亿,较2016年底增长2830万人。另一方面,网络上存储和流通大量包含态度和情感的文本数据。以电影评论为例,目前用户在网络上可以观看的电影数量已经超过30万部,一部分电影底下的评论超过10万条。网络上数据量的增长如此之快,以至于对互联网信息的挖掘和分析需求也日益提升。
文本情感分析,也称为观点挖掘、情感分类、意见提取、主观性分析等,就是对文本中语言、态度、情感倾向等信息的挖掘,进一步分析网页上的实体、服务、产品、事件以及属性。情感分析属于自然语言处理中的一个研究领域,通过提取和分析文本中有价值的知识,情感分析有助于在建设性发展方向做出决定。情感分析有着广泛的应用,例如推荐系统、财务研究、市场调研和产品增长策略。在评论、论坛、博客、微博上存在大量包含情感与意见的数据,情感分析研究对自然语言处理、管理科学、政治学、经济学和社会科学都有很大的价值。
当目前的情感分析方法主要包括以下三大类:基于语言规则的方法、基于机器学习的方法和基于深度神经网络的方法。近年来,随着互联网的发展和数据工程的发展,文本数据的体量的急剧增大和语言表达的多元化,深度神经网络技术的优势逐渐凸显。相比于基于语言规则的情感分析方法和基于机器学习的情感分析方法,深度神经网络的方法由于其模型与函数的复杂性,在面对当今复杂多变的语言现象时,可以捕捉更全面、更深层的文本特征,即对文本具有更好的理解能力,在情感分析领域也可以达到更好的效果,因此使用深度神经网络的方法成为主流方法。本文主要研究基于深度神经网络的情感分析方法。
1.2国内外研究现状
前文提到,现有的文本情感分析方法分为三种类型:基于语言规则的方法、基于机器学习的方法和基于深度神经网络的方法。其中,基于语言规则的方法通常需要借助情感词典或情感搭配模板,再通过对比评论文本中所包含的情感词或固定搭配来判断其情感倾向。基于机器学习的方法主要将带有标签的训练语料进行特征提取和建模,从而用机器学习算法自动化地实现情感极性的判断。深度神经网络利用多层非线性的网络结构对数据进行建模,具有优秀的层次结构特征的学习能力,从而弥补了机器学习的局限性。主题特征蕴含文本的语境信息,已被广泛使用于文本聚类、文本分类、摘要抽取和情感分析等自然语言处理任务中。
深度学习在文本情感分析领域的应用主要分为两个部分。第一个部分是神经网络语言模型,早在1986年Hinton等人就提出了词的分布式表示(distributedrepresentation)方法,它的基本思想是通过神经网络语言模型将词映射成低维实数向量空间中的一个向量,通过计算词之间的余弦相似度或欧氏距离来判断他们之间的语义相关性。2003年Bengio]等人实现了通过神经网络训练基于分布式表示的词向量的方法。Mikolovd在2013年提出了一个word2vec的工具包,里面包含了几种新的构造词向量的模型和方法。神经络语言模型可以将文本映射到一个低维向量,同时训练得到的分布式表示的词向量还带有语义信息,解决了传统的文本表示方法one-hot representation高维、稀疏且不含有语义信息的缺点。第二部分是通过神经网络模型捕捉文本深层次的特征及隐含的模式,从而使模型对文本有更好的理解。Kiml提出使用卷积神经网络(convolutin neural network,CNN)进行句子建模,应用在情感分类任务中,在多个数据集上均取得了很好的结果。Socherl在对影评进行情感分析时,引入了递归神经网络,和传统方法比较取得了明显的成效。在国内,朱少杰团将浅层特征与神经网络模型word2vec训练得到的词向量特征加权融合后通过SVM机器学习算法分类。刘艳梅圆通过卷积神经网络获取文本语义特征,然后用RNN与SVM组合构建分类器,与基于情感词典方法的情感分类做对比,分类正确率得到显著提升。梁军、柴玉梅四等人在进行情感分析时,引入LSTM模型和RNN模型,LSTM模型可以有效保存文本的历史信息,而RNN模型又能充分利用句子本身的结构信息。