通过深度混合形式融合的图像-文本情感分析外文翻译资料
2021-12-27 22:22:15
英语原文共 12 页
通过深度混合形式融合的图像-文本情感分析
作者:Feiran Huang, Xiaoming Zhang, Zhonghua Zhao, Jie Xu, Zhoujun Li
摘要
社交媒体数据的情感分析对于了解人们对特定事件的立场,态度和看法至关重要,它有很多应用,例如选举预测和产品估值。尽管对单一形式(图像或文本)的分析做了很大的努力,但是对社交媒体中的混合形式数据的联合分析却没多少人研究。大多数现存的对于混合形式的情感分析的方法都是简单地结合不同的数据形式,这导致对情感分类的表现不令人满意。在本文中,我们提出了一种新的图像-文本情感分析模型,即深度混合形式融合(DMAF),通过一个混合融合框架,从而利用辨别特征和视觉与语义内容之间的内在联系来进行情感分析。具体而言,为了自动地关注与情感最相关的判别区域和重要单词,提出了两个单独的单峰关注模型来分别学习视觉和文本形态的有效情感分类。然后,提出了一种中间的基于融合的混合形式注意模型来利用视觉和文本特征之间的内部联系进行联合情感分类。最后,使用后期的融合方案将三种注意模型结合起来进行情感预测。我们进行了大量实验来证明我们的方法对弱标记和手动标记数据集的有效性。
1.介绍
随着社交网络的日益普及,包含图像和文本的混合形式数据在社交网站(例如,Flickr,Instagram,Twitter)中变得越来越多。越来越多的人通过这些媒体表达自己的观点。对这种大规模混合形式数据的情感分析有助于更好地理解人们对特定事件或主题的态度或观点。例如,公司有兴趣了解他们的产品或品牌是如何被客户认知的。股东有兴趣了解在Twitter上对于股票预测的舆论。因此,如何自动检测混合形式数据的情感已经越来越引起学术界和工业界的关注。
然而,处理用于情感分析的混合形式数据仍然是一项具有挑战性的任务。首先,与传统的单一形态情感分析相比,混合形式情感分析中包含多种表现形式。例如,可视内容和文本描述在特征空间中是异构的。因此,情感分析方法应该有效地弥补不同形式之间的差距。其次,视觉内容和文本描述可能存在一些不同的语义信息。有必要从每种方式中提取与情感分类最相关的综合判别信息。第三,混合形式数据中缺少一种形式是普遍现象。例如,许多用户发布的推文不带有任何图片,并且一些摄影师可能上传图像又不带有文字描述。处理用于情感分析的不完整混合形式的数据是另一个挑战。
混合形式情感分析近年来受到越来越多的关注。基于混合形式内容的组合策略,这些方法可以分为三组,即早期融合[7-9],中间融合[10-12]和晚期融合[13-15]。早期基于融合的方法在用作机器学习算法的输入之前将多个数据源集成到单个特征向量中。然而,混合形式数据的早期融合不能有效地捕获所涉及的形式的互补性质,并且可能导致可能包含冗余的大输入向量。后期融合指的是来自多个情感分类器的结论的聚集,每个分类器在不同的形式下训练。该方法不能有效地捕获不同形式之间的相关性。中间融合主要用神经网络实现,是指融合过程在整个网络的中间层进行。大多数中间融合模型采用共享表示图层来合并具有多个特定形式路径的连接的单元。例如,You等人[11]提出了一种用于联合文本-视觉情感分析的跨形式一致回归(CCR)方案。还提出了一种与视觉注意机制相结合的树型结构LSTM(T-LSTM)来捕捉图像与文本之间的相关性以获得社交图像情感 [12]。为了通过将形式内部和形式间动力学一起建模到一个联合框架中来进行混合形式情感分析,提出了TFN [16]。尽管基于中间融合的方法在混合形式情感分析中已经达到了最好的性能,但是当混合形式内容的一部分不完整时,它不能有效地执行情感分析。
同时,社交媒体数据的有序性和相关特征为混合形式情感分析提供了线索。首先,观察到文本内容中的不同单词对情感分析起着不同的作用。例如,图1中的 “美丽”和“微笑”两词带有强烈的情感,而“的”和“一个”几乎无法察觉到它们带有任何情感。同样,并非所有图像区域对情感的呈现都有同等作用。从图1中可以看出,“笑脸”和“花”的区域明显是用于情感分析的更重要的区域。另一方面,注意机制使得动态连续数据的显著特征来到之后应用的最前部[17-19]。使用注意机制自动关注最显著区域和情感性词语以进行更有效的情感分析是合理的。其次,不同的数据形式通常包含补充信息。如图1所示,“漂亮”是很难从图像中获取的文本私密信息,而“笑脸”和“花”是不能在文本标签中捕获的图像私密信息。显然,这两种特征是情感分析的补充。将共享信息和特定形式的信息结合起来进行混合形式情感分析是合理的。
图1 Flickr中一个带有图像-文本的混合形式数据的示例:(1)图像的一些区域和文本的单词对于情感分析更重要且具有辨识性。笑脸和鲜花(绿盒子)是更多的情感区域。“美丽”和“微笑”(蓝盒子)是更有情感的词; (2)补充信息存在于各自的形式中。“美丽”是文本私密信息,很难从图像中获取;鲜花和阳光是图像私密信息,在文本描述中无法捕捉(对于本图例中对颜色的引用的解释,读者可参考本文的网络版本。)
为了应对这些挑战,我们充分利用了用于混合形式情感分析的注意机制和深度融合方案。特别的,我们研究了:(1)如何自动发现情感分类中最具辨识性的文本单词和视觉区域; (2)如何从多种形式中获取补充信息以进行情感分析。我们针对这些问题的解决方案产生了一种新的名为Deep Multimodal Attentive Fusion(DMAF)的用于混合形式情感分析的方法。特别的,我们提出了两个单独的单峰注意模型,用来分别捕获图像和文本中用于情感分析的最具辨识性的特征。视觉注意机制用于自动聚焦于情感区域,而语义注意机制用于突出情感相关词。为了利用不同形式下的互补和非冗余信息,提出了一种基于深度中间融合的混合形式注意模型来挖掘不同形式特征之间的相关性。然后,提出了三种模型的后期融合方案,即视觉注意模型,语义注意模型和混合形式注意模型,以推导出情感分类的最终决定。主要工作概述如下:
bull;我们通过利用文本和图像中的判别特征,挖掘不同形式之间的内在相关性来研究混合形式情感分析的问题。
bull;我们提出了一种新的混合形式情感分析方法,名为Deep Multimodal Attentive Fusion(DMAF)。我们的方法自动将注意力集中在情感区域和情感单词上,这些区域和单词可以捕获互补和非冗余信息,以实现更有效的情感分类。
bull;我们建议将中间融合和晚期融合整合到混合形式情感分析的整体框架中。我们的方法更有效地处理混合形式数据的不完整内容。
bull;所提出的方法在3个真实数据集上进行了广泛的评估。实验结果证明了DMAF的优越性。
本文的其余部分安排如下。在下一节中,总结了相关工作。第3节介绍了DMAF的细节。然后我们在第4 节中介绍实验结果。最后,第5节总结了论文,并概述了未来的工作。
2.相关工作
情感分析是近年来发展迅速的重要任务。它已被应用于广泛的应用,包括政治选举预测[20-22],股市预测[4-6],产品评估[1-3]和电影票房表现预测[23,13]。相关工作包括文本情感分析,图像情感分析和混合形式情感分析。
2.1.文本情感分析
文本情感分析是NLP中一个经过深入研究的研究领域。这些方法可以分为两组:基于词典
资料编号:[3329]