基于深度学习的文本写作风格的分类与识别开题报告
2020-04-13 14:54:06
1. 研究目的与意义(文献综述)
基于深度学习的方法在自然语言处理领域已经取得了比传统的机器学习方法更好的效果。比如在传统的文本分类词袋模型中,在将文本转换成文本向量的过程中,往往会造成文本向量维度过大的问题,可能还会在训练的过程中丢失了单词的顺序信息,在文本的分类过程中,效果不一定尽如人意。因此,采用深度学习神经网络来发现与文本写作风格相关的特征,来实现对文本写作风格的分类及识别,将比传统的机器学习方法更加高效,判断更加准确。
近年来将文本简化为bow表示,在特征处理和统计学习算法的基础上,获得文本语义内容及类别信息,逐渐成为文本分类的标准模式。但是bow表示没有考虑文本中特征项之间的关系,造成了文本语义信息的缺失,而且向量一般都是字典长度,面临着维度灾难的问题。目前研究的主流方向是文本被表示为向量的这种方式,简称文本的向量表示,而vsm仍是文本表示的主要方法。随着工业界和学术界对文本表示模型的深入研究,文本表示模型开始向基于语义的文本表示方法演变,也就是从特征选择转变为特征提取,有lda模型、lsi、plsi,监督的lda以及ssi等。这些方法提取得到的表示可以认为是文档的深层表示,在一定程度上考虑了文本的语义特征。rcnn模型融合rnn的优点,对于由词向量表示的文档输入,用rnn序列处理文档并与cnn模型提取文档的局部特征相结合,在文本分类应用上取得了不错的效果。但是文档的初始表示仍然面临一个问题,当文档长度不固定时,很难适合深度模型。因此现在的主要内容是如何嵌入词向量表示,结合哪种深度模型,更好的提取高层的文档语义表示。
目前,大量的基于统计的机器学习方法被应用于文本分类系统中,应用最早的机器学习方法是朴素贝叶斯,随后,k邻近算法(knn)、支持向量机(svm)、神经网络、最小二乘和决策树等。但是这些模型都是浅层的机器学习方法,目前已经证实能够高效的解决一些在简单情况或者有多重限制条件下的问题,但是面对复杂的真实问题时,能力就会受到限制,无法满足需求。
2. 研究的基本内容与方案
深度学习通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。基于深度学习的文本写作风格分类与识别,首先进行文本预处理,去除不需要的信息,提取特征,应用递归卷积神经网络对文本进行剖析,该模型可以在学习文本表示时保留更大范围的单词排序,采用最大池化层,可自动判断哪些功能在文本分类中起关键作用,以此捕捉文本中的关键组成部分,分析其语义,并进行分类和识别,判断所属风格类型。
(1)文本的预处理:由网络爬虫等工具爬取到的原始语料,通常都会带有不需要的信息,比如额外的html标签,所以需要对语料进行预处理。使用python作为预处理工具,其中的用到的库有numpy和pandas,而主要的文本工具为正则表达式;
(2)文本写作风格分类与识别:掌握tensorflow框架使用,将深度学习网络框架应用于文本写作风格分类。
3. 研究计划与安排
(1)2018/1/14—2018/3/5:确定选题,查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面),完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面)和撰写800字开题报告;
(2)2018/3/6—2018/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2018/5/1—2018/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1]hogenboom a, frasincar f, de jong f, et al. using rhetorical structure in sentiment analysis[j]. communications of the acm, 2015, 58(7): 69-77.
[2]dong l, wei f, tan c, et al. adaptive recursive neural network for target-dependent twitter sentiment classification[c]. acl (2), 2014: 49-54.
[3] pennington j, socher r, manning c d. glove: global vectors for word representation[c].emnlp, 2014: 1532-1543.