基于bagging 架构用于情感分析的的自动编码器外文翻译资料
2022-12-05 16:51:03
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基于bagging 架构用于情感分析的的自动编码器
关键词:情感分析,Bagging ,自动编码器
摘要
情感分析一直是一个用于理解网民舆论的热门话题。在此之前,许多针对情感分析的机器学习方法比如面向简单特征的支持向量机或者更多更复杂的概率模型已经被提出了。虽然他们已经证明,在极性检测能力,由于基于文本的文档的高维性质,存在一个挑战称为维度灾难。本研究中,在自动编码器的纬度降低和特征提取能力启发下,我们提出了基于自动编码器的bagging 预测架构。这项对常用数据集的实验性研究已经展示了它的潜能。我们相信这个方法可以使这项领域的研究者们加深对于bagging导向的情感分析方法的理解。
1.介绍
情感分析,其目的是从一段陈述中提取极性方向,并确定语句是否为正与否,已成为学术界和工业领域的一个热门话题。作为一个强大的信息收集机制[1],情感分析从Twitter,博客到顾客评论中积累在线文档,并试图了解客户的态度,意见和情绪。它已被证明在不同的领域有用,如电子商务[2],社交媒体分析[3]和政治选举[4]。
在文献中有很多情感分析方法,并且这些方法可以大致分为两种,即计算语言学的方法和机器学习方法。计算语言学的方法是基于语言信息,并采用单体的字被分配极性值的预定义的情感词库。整个语句的极性是由投票句中每个单词的分数计算得出的。机器学习方法利用机器学习模型来执行情感分析,并将情感分析看作是一种形式化的二进制分类问题。
计算语言学方法采用在一般上下文中预定义词语的比分来检测极性信息,而机器学习导向的解决方案采用在任务的具体领域未标记的数据进行情感分析。结果是,情感分析这一特定领域的任务,机器学习方法通常展示出更好的预测能力。
尽管机器学习方法比计算语言学展现出更好的能力,它依然在承受着许多的挑战。其中一个就是纬度灾难。这是一个典型现象,即当特征空间的纬度变得更大时,空间的容量就会飞速增长。并且那么多可用的训练数据会变得稀疏,因此由于文本数据集的高纬度而降低了情感分析的学习算法。为了减少原始数据的纬度以及从中提取更高层次的特征去进行分类,许多的方法已经被开发出来并且其中一种流行的实现方案就是堆叠式的基于自动编码器的预测模型。
要构建堆叠式以自动编码器为基础的预测模型,常见的做法是堆叠自动编码器的几个代码层,并进一步在最后一层的顶部添加一个分类层,然后把学到的特征作为分类层的输入。尽管自动编码器为基础的预测模型显示出了它的充满前景的潜力,但它仍然面临着一些困难,其中一个值得关注的就是降低归纳错误,它用于测试模型对于没有参加训练数据的归纳。为了迎接这一挑战,很多方法被提出其中一个被广泛采用的是集成方法
Bagging(Boostrap Aggregation)是一个由引导若干份训练集的拷贝,然后使用它们来训练单独的模型的流行的集成方法。之后,它通过对分类应用的表决方案把个人预测结合起来。作为各个自举训练集是彼此略有不同的,每个在这些训练集上训练的模型都将具有不同的权重和焦点,由此获得不同的一般化的错误。通过把他们组合在一起,预计整体的概括误差将减小到一定程度。
之前的工作展示了Bagging 适用于不稳定的因素。考虑到堆叠式基于自动编码器的预测模型也是不稳定因素,可以很直观地假设把Bagging 方法应用到基于自动编码器的模型中可以改进分类的表现。通过上述假设的启发,在这篇论文中提出了一个基于自动编码器的Bagging预测架构,并整合堆叠式基于自动编码器的情感分析预测模型。这项针对常用数据集的实验性研究也显示出它的充满前景的潜力。
我们工作的主要贡献分为两个方面:
- 我们将特性学习与 基于文本数据集的Bagging集成方法和实证评估不同数目的Bagging集性能相结合起来。
(2)我们提出了一个用于情感分析的基于自动编码器的bagging预测架构,并且凭经验的研究显示我们的方法比传统方法表现好。
这篇论文的余下部分将按照如下组织:
第二节会介绍背景,
第三节会解释被建议的原则。
在第四节,实验性的研究会被展示出来,第五节会总结这篇论文并指出未来可能的工作。
2. 背景
2.1.情感分析
情感分析是一项有力的去获取人们的看法的机制并且能够分辨出他们的总体态度是肯定的或是相反的。情感分析在近年享受到了一大波的研究活动。举个例子,只要越来越多的顾客在线购买东西前注意其他人的评论,情感分析可以被用作分析用户的购买行为。它也可以被用作预测政治选举结果。随着情感分析在不同的领域里成为一种重要的工具,许多的技术已经被提出并且可大致分类为计算语言学方法和机器学习方法。
计算语言学方法在词典已经建立的前提心爱采用提前探索语言学的信息,要不就是在情感分析期间在表面或者内部进行探索。在这种方法下,情感信息被加入处理并且字典中的每个单词都被附上了一个极性分数。这个处理过程会进一步通过 计算文本总体的极性
Qi代表每个单词的极性分值,sign代表sign函数以及p0代表训练数据中的主要极性。
与计算语言学方法不同的是,机器学习方法利用机器学习算法并且对待情感分析就像一个普通的二进制分类问题。传统方法讲一段文本转化成bag-of-word的表示方法,提取其他的备用特性诸如词性词类信息,二元文法和特殊的负向的词语,之后把这些特性放入SVM,MaxEnt或者朴素贝叶斯为基础的分类器。尽管这些方法很简单和健壮,但是他们不适合去解释词语间潜层的关系和文本的整体情感极性。
为了解决简单机器学习方法的短板,更多复杂的模型被提出,Socher et al的递归自动编码器为基础的便是其中一个著名的模型,并且展示出它在情感分析中的影响力。在这项工作中,单词索引首先通过一个嵌入矩阵映射到语义单词向量中。
然后,输入语句中的语义单词向量按照他们的原本序列排序。之后,输入的单词向量按照以下方式递归地合并成一个固定大小的向量表示形式。
给了一个排好序的单词向量节点的列表X=(x1, x2, x3, hellip;xn),一个自动编码器首先通过下面的公式尝试着去归并所有X中的相邻结对(xi, xi 1)
(c1, c2) = (xi, xj)和f是激活函数,p是经过计算的父节点向量,W1,b1分别是自动编码器的权重矩阵和偏差向量。之后自动编码器尝试着通过下列公式去解码父节点并计算重构误差。
[c1, c2]是重构对子,W2,b2分别是解码权重矩阵和偏差向量矩阵。Erec是重构误差。之后,重构误差最低的一对(xi, xi 1)被选中为2子节点并归并父节点p。
然后,该方法用新的向量列表 X` = (x1, x2, hellip;, xi-1, p, xi 2, hellip;, xn)重复直到树被完全构建。
一旦树被递归地构建,每个节点上的向量就被当作特性,用下面客观的方法去预测语句的情感标签。
N是训练实例的数量,(x, t)是一个训练对子(语句,标签),theta;代表模型的参数。
尽管传统机器学习有许多有点,但它仍然面临着许多挑战。其中一个就是纬度灾难。随着特征空间纬度的增长,空间的容积呈指数级增长,并被赋予一个固定数量的训练实例,特征空间中训练数据的分布会变得稀疏,这将有损训练模型的预测能力。由于用于情感分析的数据集是基于文本的,当它们用原始形式表现出来时是高纬度的。
为了应对减少训练数据纬度的挑战,一个可行的实行方法是将高纬原始特性映射到降维特征空间的自动编码器。但是作为一个神经网络为基础的模型,对连接权重的一个很好的初始化是整个优化过程的关键。传统方法使用随机初始化并不能 采集情感信息。为了解决这个问题,单词嵌入因为它能采集从训练数据中的不同单词间采集语义信息而被广泛地运用。
2.2. 单词嵌入
在基于神经网络的模型中,如何更好地将由一系列单词组成的句子表示成向量的形式已经被研究了许多年。传统的bag-od-word为基础的表示,因为它们不考虑有顺序的信息所以不是最佳的方式,。而嵌入的单词通过基于神经网络的语言模型将整型向量映射到连续的空间,并且从周围的单词中获取信息。
最流行的由Bengio et al提出的基于神经网络的语言模型是具有四层前馈式网络,如Fig1所示,其中输入层由语料中n个连续单词的索引组成,一个线性映射层,一个非线性层和一个柔性最大递归函数输出层,其输出一个现有单词成为下一个单词的可能性。
单词嵌入的关键特性是具有相近意义或者相似语法功能的单词会有相像的嵌入向量。作为这种嵌入,可以被视作单词间语法差距的量度。
除了作为基础的前馈式模型,许多其他的神经网络语言模型也被提出去学习单词嵌入,在这些回归神经网络语言模型中,CBOW和Skip-gram受到了更多的欢迎。回归神经网络语言模型采用Elman的三层回归神经网络,也就是说,一个由单词序列组成的输入层,一个递归隐藏层和一个柔性最大传递函数输出层,基于输入的单词来预测下一个单词。由于在隐藏层中存在递归,回归神经网络语言模型可以生成短期记忆,并且因此 克服传统前馈式语言模型必须得指明之前的字母n代表的具体数字的限制。
为了减少计算复杂性,一些对数线性模型被提出并且CBOW和Skip-gram模型是最常使用的。CBOW模型有三层。输入层包含m个单词索引,在当前训练单词W附近以一个并发的方式形成一个单词窗口,亦即,W前m/2个单词和W后 m/2个单词。这一层是通过一个共享的权重矩阵连接到一个线性映射层。输出层保护当前单词W的索引。尽管Skip-gram模型是CBO的一个上下颠倒的版本,输入的是当前单词的索引 会被放入一个对数线性分类器 连续映射层,在一个确定的范围里预测单词
凭经验的研究表明Skip-gram在语法相关任务上效果超过其他模型。因此,在这篇论文中我们使用Skip-gram模型去训练单词嵌入,来初始化提出的基于自动编码器的Bagging分类器的输入层和隐藏层之间的权重,实施情感分析。
3. 研究方法
3.1 用于情感分析的基于自动编码器的bagging预测架构
为了验证用于情感分析的整合特征学习和bagging方法的可能性,在这篇论文中,一个基于自动编码器的bagging预测架构(AEBPA)被提出,如Fig.2所示。
在这个架构中,包括三个主要部分,亦即自举过程,基于自动编码器预测模型和决策汇总过程。给出一个情感分析测试集T,首先那个自举训练集的副本通过自举技术生成。之后,n个不同的自动编码器为基础的预测模型被训练,并且它们的参数被分别地存储进假定模型h1hellip;hn中。一旦训练过程完成了,一个情感分析测试集可以被注入进假定模型h1hellip;hn中,并且它们的预测结果p1hellip;pn据此被计算出来。最后,通过选举聚合过程,最终判决是基于有n个模型产生的所有的子预测p1hellip;pn。
3.2 自举过程
Bagging是一个广泛使用的聚合多个预测模型来改善准确率的整合技术。然而自举是bagging为了生成多个原始训练集副本的第一步。给出一个由m个训练中的实例 X={x1, x2, hellip; , xm}组成的训练集X,能通过抽样以相同的概率1/M从原始训练集中替换m个元素来生成每个原始训练集的自举副本。通过重复这个步骤n次,n个自举训练集可以被生成。由于抽样通过置换来执行,那就会有重复的样例在自举训练集中,并且如果m很大,逐渐地特殊样例的分式会变成:
重置抽样对bagging而言是很重要的。因为这条准则,在每个自举训练集中会有重复的实例,因此在每个自举训练集中独特的训练样例是随机不同的。这样的模型对这些自举的训练集训练的有不同的侧重点。
然后,n个自举训练集可以被注入n个自动编码器为基础的预测模型,这将在下面的小节里呈现。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[28845],资料为PDF文档或Word文档,PDF文档可免费转换为Word