结合文本内容和结构提高对话的相似度外文翻译资料

2021-12-16 23:19:48

英语原文共 5 页

结合文本内容和结构提高对话的相似度

摘要

聊天机器人，从利用即时聊天类手机应用的成功和最近人工智能中获取的优势，从帮助企业改善客户服务，再到用户聊天，为了交谈和参与（名人或个人机器人）而变得非常受欢迎。但是，开发和改进机器人需要了解其用户生成的数据。对话数据具有不同的简单问题和回答交互的性质，其中，对于这样的数据，对于这些数据产生了不同的理解。在本文中，我们不仅基于文本内容，而且基于与相关对话结构相关的信息，提出了非常重要的计算机相似度的方法。实验结果表明，在Switchboard数据集中，从文本内容结合对话结构中得出的特征数据，进行相似度判断，确实比单独只考虑一个因素得出的相似度的准确度高。

关键词：对话分析，内容分析，聊天机器人，相似度

介绍

在过去的几年里，聊天机器人变得越来越流行，比如由于短信应用的成功，自然语言处理技术和社交网络技术的进步，基于聊天机器人的解决方案允许行业服务每天24小时提供给他们的客户，削减开支，并使他们的许多业务流程自动化。聊天机器人可以是面向任务的，设计用于特定的任务，以获取用户提供的信息，来帮助完成任务 (例如，预订航空公司航班)，也可以是为扩展对话而设计的系统，模仿人与人之间的互动 (例如，心理咨询)。它带来的一个副产品，特别是文本对话框中，就是不断增加的数据，这是由于使用聊天机器人的系统而产生的。由于聊天机器人的数据分析仍然是一个需要更多调查的领域，因此需要更好地理解此类数据的方法，以便从用户那里收集见解或改进聊天机器人。

从这个意义上说，一种有助于理解由于聊天机器人而产生的数据的分析是找到对话之间的相似性。因此，对具有相似性的对话进行分组不仅可以提供有关与聊天机器人交互的客户的见解，还可以帮助创建基于语料库的聊天机器人，这些聊天机器人在人-人或机器对话之间构建挖掘对话的系统。寻找相似的对象在几个作为基于内容的图像检索的领域是一项传统的任务，文本相似性识别，代码剽窃检测，歌曲识别等。对于对话，这种基于相似的检索对于恢复在内容或结构上存在一些相似性的对话可能很有用，而识别类似的对话集对于更好地了解数据和进一步改进聊天机器人的内容或结构有重大作用。对话中的大部分工作旨在研究对话的具体细节或用户的目标，例如，识别性别，分类言语行为，识别社会文化现象，了解用户互动，研究语言协调，或者预测情绪。另一个方面可以观察到在努力构建语料库的对话系统，对话生成，对话生成评估，对话控制和建立特定的语料库，如 ubuntu 或建模Twitter作为对话系统。然而，这些被引用的作品都没有解决对话的相似度问题。对话系统中的许多工作都集中在口语对话, 以填补空白，控制对话和衡量成功率上。比较两个对话框的一种方法是只考虑对话框的文本内容, 然后使用一些标准的文本相似性技术。当人们挖掘大量的文本数据时，计算文本相似性是一个众所周知的任务, , 并已开发了几种技术来处理改问题。然而, 来自聊天机器人或对话框的数据也呈现了一种超越传统文本数据的结构。聊天机器人数据呈现出话语的顺序和时间间隔、用户互动、言语行为、对话轮数等具体特征。因此, 计算对话相似性成为一项比传统文本相似性复杂的任务。

本文提出了一种基于文本内容和对话结构特性的相似度量方法。为了评估我们所构建的度量模型, 我们在熟悉的电话语音语料库数据集上进行实验。据我们所知, 我们是第一个解决对话相似性问题的人, 因此, 在本文中, 我们将介绍:

·对话之间相似性的新指标

·新的指标, 结合了来自对话结构的指标和文本中的指标, 以更好地表示对话

· 实验表明, 这些新指标更好地适用于只是文本的对话

· 讨论这一新领域的挑战和今后将采取的步骤

本文的其余部分按如下方式进行了组织。下一节介绍我们提出的相似度度量算法模型。第三节介绍我们的评估方法, 并报告了我们的实验评估结果。最后, 第四部分对全文进行了总结, 并对今后的工作进行了探讨。

对话相似度

考虑到不同的方面, 两段对话可以是相似的。例如, 它们在文本内容方面可以是相似的, 也就是说, 它们涉及相同的主题或相同的实体, 从而相似。另一方面, 对话在结构特征方面也可以相似, 例如对话的长度或某种可以被识别的交互模式。

我们的方法结合了文本内容和结构特征两方面来计算两个对话之间的相似度。考虑到这些因素是互补的, 我们在分别计算内容和结构相似性的基础上, 将它们的相似性结果与波达计数法在排名水平上结合起来, 从而避免了处理不同比例的特征或距离, 如果组合不同而带来影响的负担。

1. 基于文本的相似性

为了计算基于文本内容的与相似性相关的特征, 我们只需将对话转换为自由形式的文本, 其中每个对话话语都由一个新句子组成。然后, 我们应用标准的文本挖掘技术, 如停止词删除方法和计算词频-逆文本频率指数 (tf-idf)，被定义为:

w (j) = tf (j) * log2(N/df (j))

其中 j 是词典中的 j-th 单词, tf (j) 是它在文档中的频率, n 是数据集中的文档数, df (j) 是出现单词的文档数。计算完这些特征后, 余弦距离用于计算两个对话的 tf-idf 向量之间的相似性, 如下所示:

其中

1. 对话结构相似度

T1 - A：我想从纽约去波士顿

T2 - B：你想从哪里来？

T3 - A：我想从纽约去波士顿

T4 - B：您的出发地和目的地是什么？

T5 - A：我想从纽约到波士顿旅行

T6 - B：请给出你的出发地和目的地。

表1：两个参与者A和B之间的循环对话示例。

对于基于对话结构特征的相似度，我们考虑了有关对话回合的信息，其中每一个回合对话都是一个对话参与者的贡献。我们的计算指标还与对话主题周期的大小有关。一个对话循环就是当一个循环谈话的参与者的想法对于其他参与者是明确的，必须改变，或者他/她放弃了该主题时所形成的一个一段对话。例如，如果您有以下对话来预订飞机票（表1）。

上面的对话重复了某些与订票有关相同的意图。参与者必须转变三种问法，因此这个对话主题循环周期有四次对话。特别的，我们对每一回合的话，使用余弦距离来表示相似度，通过两个回合的相似度的计算，来估计对对话主题周期大小。

通过这种方式，使用上述措施，我们计算以下每个对话的指标：

bull;总回合数;

bull;每回合的平均字数;

bull;总循环次数;

bull;循环中的平均回合数

T1 - A：你马上知道你想要什么。

T2 - B：我马上就知道我们想要什么。

T3 - B：我一直听到这个消息。

T4 - B：我一直听到它的广告。

T5 - A：你找不到他们。

T6 - A：你找不到它们。

T7 - B：而且，我想我真的会想念那个。

T8 - A：我也会，

表2：参与者A和B之间的对话提取

表2显示了从Switchboard中提取的对话框数据集，而表3总结了该示例的指标。

回合总数：8

每回合的平均字数：5.9

总循环次数：3

周期平均回合数：2

表3：根据表2的对话计算出的度量指标

对于每个指标，我们首先计算距离矩阵D，这是Ntimes;N矩阵，其中N是对话的总和，其中位置d（i，j）isin;D包含对话i和j之间的距离。这个矩阵被计算后，将给文本内容度量（DT）和结构指标（DS）服务。然后，对于D中的每一行i，计算排名矩阵R，其也是Ntimes;N。每个单元r（i，j）isin;R包含距离d（i，j）与所有的d（i，k）的相对距离，其中kne;j。我们提供表4和表5来说明这个流程。考虑到在第一行d（1,1）lt;d（1,3）lt;d（1,2），我们分别用1,2和3分配单元r（1,1），r（1,3）和r（1,2）。对所有其他行重复相同的过程。

0.0 0.2 0.1

0.2 0.0 0.3

0.1 0.3 0.0

表4：距离矩阵D的示例

1 3 2

2 1 3

2 3 1

表5：根据表4中的距离矩阵计算的排序矩阵R的示例

也就是说，我们需要简单地计算表出第三个距离矩阵DB，对应于矩阵RT和RS的总和，它们通常用来计算矩阵RB，用于组合两个距离矩阵的结果表示DT和DS，以及它们对应的排序矩阵RT和RS，。

评估

在本节中, 我们将描述用于实验的数据集, 并提供对我们的实验和与其他两个相似性计算方法进行评估的指标 (例如, 仅对话文本内容或仅对话结构特征的比较结果)。

3.1数据集

数据集我们使用Switchboard数据集来评估我们的相似度指标。此数据集由 1, 154个对话组成, 从至少38到最多509个对话回合不等。此数据集是最具影响力的口语语料库之一, 应用于多个不同的任务。在这项工作中, 我们考虑使用从口语对话转换为文本序列的文字记录。

3.2实验

如上一节所述, 我们计算两个对话之间相似性的方法结合了文本内容特征和对话结构特征。由于没有类似对话的标记数据集, 因此我们考虑对指标进行无监督的评估。

我们的评估工作方式如下。考虑到文本内容特征和相应的排序矩阵 RT、结构特征和相应的排序矩阵 RS, 以及其他两个矩阵的组合矩阵 RB, 计算了它们之间的平均平方误差 (MSE)。矩阵的目的是了解如何比较这些矩阵。这些结果见表6。我们可以观察到 RT 和 RS 之间的 MSE 比 RT和 RB 之间或 RS 和RB 之间的 MSE 要高得多。这表明, 我们的组合方法能够将 RT 和 RS 中的信息合并到 RB 中。

R	T	S	B
T	0.0	221591	69178
S	221591	0.0	68772
B	69178	68772	0.0

表 6: RT、RS 和 RB 之间的平均平方误差

R	(1)	(2)	(3)
Ordered matrix	242819	218111	232473

表7:在计算排名矩阵和随机定义的排名之间的MSE

图 1: 随机定义矩阵的不同干扰影响级别的平均平方误差

为了更好地了解计算出的 MSE 值的含义, 我们引入了一个随机矩阵, 然后在排序中应用了不同程度的影响因素, 并计算了原始矩阵和扰动矩阵之间的 MSE。影响因素包括随机选取一对元素并交换它们的值。影响的程度与所执行的交换次数相对应。图1绘制了从50x2i 交换的 mse, i 的范围从1到5。对于表6中显示的值, 我们可以说 rt 和 rs 中的排名可能距离非常远, 因为它们之间的 mse 高于交换800对。另一方面, rt 和 rb 的 mse 以及 rs 和 rb 的 mse 之间有100对和200对的交换 (约为总数的一半到一半)。因此, 与 rt 与 rs 的相似性相比, rb 倾向于呈现更多与 rt 和 rs 的相似性。

为了更好地了解结果, 我们对一个对话进行了定性分析。我们选择了对话 #90 (称为 '原始对话数据'), 并计算了内容方面最相似的对话数据, 即对话 #940，'结构'最相似的对话数据 ('对话 #354') 以及组合 '内容结构' (组合 '内容结构')最相似的对话数据, 从而得出对话 #85。由于空间约束, 我们不提供这些对话的内容, 但我们提供了对仅内容，仅结构以及内容和结构相组合的进行分析所产生的词语。

两种对话的交集

词语

原始对话数据和内容最相似的对话

人, 课程, 计算机, 长, 研究, 问题, 思考

原始对话数据和结构最相似的对话

人, 再循环, 纸张, 罐头,

资料编号：[4771]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码