基于深度学习的情感分类研究开题报告

2020-04-14 15:07:30

1. 研究目的与意义（文献综述）

（1）目的及意义

在文本情感分析任务中较为熟悉的、常用的机器学习方法，比如支持向量机，最大熵，以及随机游走等方法都归类于浅层学习，）等方法都归类于浅层学习，这些学习方法在建模的过程中使用到的函数简单，计算方法也都比较简单，容易实现而且计算量较小，在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制，同时对于复杂的分类问题这些方法的泛化能力也在一定程度上受到制约。。但是深度学习却可以通过学习一种深层的非线性的网络结构来弥补这一约束，它实现了复杂函数的逼近，采用分布式表示输入数据的表征，与此同时，深度学习也展现了它强大的特征学习能力，即其可以从少量的样本集中抓取到数据的本质特征。

深度学习是相对于以往传统的浅层机器学习而言的，深度学习概念是来自于对人工神经网络的研究，多层感知器是一种前馈人工神经网络模型，也属于一类深度学习结构。分布式的特征表示方式是深度学习相较于浅层学习的一个重大进步，传统的浅层学习中样本特征的表示采用的是数数的形式，而深度学习则是通过将底层特征进行组合，形成更加抽象的较高层的表示形式，例如属性类别或者特征等，在此基础上获得样本数据的分布式表示，这些分布式特征则是通过深度学习的神经网络结构中的多个隐层结构逐层计算获得的。同时，深度学习的网络结构神经网络结构中的多个隐层结构逐层计算获得的。同时，深度学习的网络结构因其涉及到多个非线性的处理单元层而导致它的非凸目标的代价函数计算过程中普遍存在着局部最小的问题，优化的过程中极有可能在找到全局最小值之前因局部最小值的出现而终止优化的计算，这也正是深度学习在训练上比较困难的主要原因。

尽管深度学习有着这样的困难，但深度学习拥有的优势仍然让很多研究者趋之若鹜，让深度学习成为当前研究的热点课题之一。深度学习具有多层结构，且这些结构之间均是非线性映射的，这使得深度学习可以很好的完成复杂函数的逼近，这也是深度学习能够成功应用的优势之一；除此之外，深度学习在理论上是可以获得分布式表示的，也就是说可以通过逐层的学习算法来获得输入数据的重要的驱动变量。学习过程中既保证了数据中本质特征的抽样，同时也避免了过拟合现象的出现。

本研究课题选择其中一两种深度学习的方法研究情感分类问题，并与传统的机器学习方法进行对比，目的在于能够理论结合实践的探索深度学习的现状，使其能更好的为自然语言处理研究做贡献。

（2）情感分析的研究现状

经过量的调研发现，在现有的文献中，可归纳为解决情感分析研究的方法可以采用基于规则的方法，也可以采用基于统计学习的方法。前者，大部分的工作集中于分析规则的制定，这部分的工作需要消耗大量的人力和时间，而且当目标样本中的语言现象较多或者较为复杂的时候，规则的制定就是一项非常艰巨的任务，而且这种方法与研究目的紧密关联，导致制定的规则的迁移性非常差。目前，多数研究情感分析的学者均采用基于统计学习的方法，学习目标样本的特征，根据特征的分布对文本做出类别的判断。

情感分析根据研究的任务可划分为情感信息分类和情感信息抽取两类，根据研究的粒度可划分为篇章级情感分析，段落级情感分析和句子级情感分析，以及属性级情感分析四类。已有文献中大多数的研究成果都是篇章级或者是句子级的情感分析研究。而情感信息分类又可以依据划分的类别分为二元分类，即褒贬分类，和多元分类，如褒义，贬义和中性三类，或者根据情感的强度不同划分为五类，七类等。

基于统计学习的方法，大致可以归纳为三类：有监督方法，无监督方法，以及半监督方法。

2. 研究的基本内容与方案

一、基本内容

1. 学习文本采用矩阵表示的方法；

2. 学习支持向量机，多层神经网络，长短时记忆神经网络的基本原理；

3. 学习Python基本语法，以及机器学习框架sklearn，深度学习框架TensorFlow和keras，Python网页编写框架flask；

4. 使用Python中的框架实现支持向量机，多层神经网络，长短时记忆神经网络等，并比较各学习器性能；

5. 通过采用Python中flask框架搭建系统，以展示研究成果。

二、技术方案

基于深度学习的情感问题分类研究主要包括三个部分：数据的预处理，模型的构建与训练以及展示系统的搭建。

选择合适的方式来对文字信息进行唯一的编码，将编码后的数据进行格式处理之后送入学习器中进行训练。通过框架做出显示系统，当用户输入文字并提交后，系统调用训练好的模型进行预测，并相用户返回预测的结果。

下面是本次研究的具体步骤：

第一步，选取合适的方式，将文本信息转化为机器可以使用的数字矩阵；

第二步，将数字矩阵调整格式之后分别放入支持向量机，多层神经网络和长短记忆神经网络进行训练，并在测试集上比较各学习器性能；

第三步，对模型进行优化和创新，训练出较原始学习器表现更好的学习模型；

第四步，使用框架搭建预测系统。

最后，完成毕业论文的撰写和完善。

3. 研究计划与安排

第1~3周查阅文献；分析题目研究现状，学习基本理论；

第4周阅读文献、撰写开题报告，英文文献翻译；

第5周学习了解文本信息处理的方法；

第6~7周学习支持向量机，多层神经网络和长短时记忆网络的基本原理；

第8周对Python基本语法进行学习；

第9周学习TensorFlow和keras框架；

第10周使用框架对三种学习模型进行训练，并分析各模型预测性能；

第11周对现有的模型进行改进，训练出性能更强的模型；

第12周学习Python中flask框架；

第13周使用flask框架搭建展示系统；

第14周撰写毕业论文、完成初稿；

第15周整理、完善论文；

第16周论文打印、装订、准备答辩。

4. 参考文献（12篇以上）

[1]Greff K，Srivastava R K，Koutnik J，et a1．LSTM：A search space odyssey[J]．IEEE Trans on Neural Networks Learning Systems，2016(7)：10-18

[2]Hu Baoting，Lu Zhengdong，Li Hang，et a1．Convolutional neural network architectures for matching natural language sentences[C]//Proc of Advances in Neural Information Processing Systems．Cambridge，MA：MIT Press，2015：2042-2050

[3]Zhu Xiaodan，Sobihani P，Guo Hongyu．Long short-term memory over recursive structures[c]//Proc of Int Conf on Machine Learning．New York：ACM，2015：1604-1612

[4]Wu Qiong，Liu Yue，Shen Huawei，et a1．A unified framework for cross—domain sentiment classification. Journal of Computer Research and Development. 2013.50 (8)：1683—1689

[5]Klm Y. Convolutional neural networks for sentence classification[J]．arXiv preprint，arXiv：1408.5882，2014

[6]孙志军, 薛磊, 许阳明, 王正. 深度学习研究综述[J]. 计算机应用研究. 2012.29(8):2806-2810

[7]徐冰. 基于统计学习的文本情感分析关键技术研究[D]. 2011.

[8]刘龙飞，杨亮，张绍武，等.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报.2015(06):159-165

[9]崔连超.互联网评论文本情感分析研究[D],山东大学，2015

[10]魏慧玲.文本情感分析在产品评论中的应用研究[D].北京交通大学,2014.

[11]张想.面向热点话题型微博的情感分析研究[D].哈尔滨工业大学，2013.

[12]杨文婷.基于微博的情感分析算法研究与实现[D].西南交通大学,2015.

[13]孙艳，周学广，付伟.基于主题情感混合模型的无监督文本情感分析[J].北京大学学报(自然科学版).2013(01):102-108

[14]韦航.面向目标的中文微博情感分析研究[D].湖南大学,2015.

[15]樊小超.基于机器学习的中文文本主题分类及情感分类演研究[D].南京理工大学,2014.



剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码