问答系统中问答对的自动生成和问题相似性机制外文翻译资料
2023-04-13 10:43:50
英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
问答系统中问答对的自动生成和问题相似性机制
Shivani G. Aithal1 · Abishek B. Rao1 · Sanjay Singh
摘要
随着过去几年信息的快速增长,充分利用信息变得越来越重要。问答系统是获取这些信息的最有前途的方法之一。问答系统缺乏人类的常识和推理能力,不能识别无法回答的问题和不相关的问题。这些问题的答案是不可靠和不正确的猜测。在本文中,我们通过提出一个问题相似性机制来解决这个限制。在向问答系统提出问题之前,将其与给定段落的可能生成的问题进行比较,然后生成问题相似性得分。问题相似度机制有效识别无法回答和不相关的问题。所提出的问题相似性机制结合了人类的推理方式来识别无法回答和不相关的问题。这种机制可以避免无法回答和不相关的问题被提交给问答系统。这有助于问题回答系统只关注可回答的问题,以提高它们的性能。除此之外,我们还介绍了问答系统的一个应用,它可以在给定的段落中生成问答对,在很多领域都有着巨大的作用。
关键词 :问题回答,问题生成,问题相似度,通用句型编码器,问题理解
1 介绍
问答系统(QAS)在获取问题并使用知识信息系统自动回答问题方面扮演着重要的作用。本文融合了问题生成、问题理解和问题回答的本质来解决问答系统的局限性。
问答系统早在20世纪60年代就已经存在了。引入的第一个问答系统是介绍棒球的[16].它是由一系列规则组成的,所有棒球数据都存储在一个不断积累的数据库中。后来,LUNAR[42]在阿波罗任务期间被介绍、引入来回答问题的。这个系统是为了回答月球的地质模式和其他有关阿波罗任务的相关信息而建立的。由于该系统的定制特性,从而可以产生高度准确的答案。
随着研究的发展,由于数据的大量增长,问答系统开始获得更高的可信度。引入自然语言处理(NLP)技术以达到真实的语言理解[18].使用自然语言处理的概念,在过去的四十年里,在问答系统中已经有了重要的研究。早期NLP系统的例子是ELIZA [40],SHRDLU [41],它们是为了理解人类和机器之间的语言而开发的。虽然ELIZA更接近于人类的对话,但它远没有人类聪明,在某种程度上几乎一无所知。另一方面,SHRDLU能够去思考自身的领域。虽然对话仅限于此领域内,不太像人类,但它知道自己在说什么。
同年较晚的时间,2011年IBM Watson [15]在全球范围内获得了广泛的关注,它使用NLP来分析人类语言的含义和语法。在这之前,人们通常把它比作为大脑。近年来,搜索引擎(谷歌)、聊天机器人(SIRI、ALEXA和CORTANA)通过准确的回答我们的问题而变得越来越好。从基本的递归神经网络(RNN)到transformers [8,12],这些年来,问答系统的架构也发生了重大的变化。
问答系统被分为两类,开放领域问答系统和封闭领域问答系统[24].像[10,17]这样的开放领域问答系统几乎可以处理任何基于世界范围内知识的问题。这种类型的问答系统可以访问更多的数据来提取答案。封闭领域问答系统是针对特定领域的[2,9,45]问答系统。封闭领域问答系统从预先构建的数据库或者特定领域自然语言文档的集合中回答问题。
根据这些研究[32,33],人类回答问题的准确率为89.45%,最先进的问答系统的准确率为93.01%。虽然系统的准确性超过了人类的准确性,但这样的问答系统缺乏像人类一样的推理能力[30,34,44]来识别问题、理解问题。SQUAD 2.0数据集[31]为无法回答的问题提供了比较合理的答案;然而,确定无法回答的问题这一方面仍然是一个挑战。
问答系统的局限性是:
–-无法回答的问题:向问答系统提出一个不正确且与上下文相关的问题。回答问题准确度已经超过人类准确率的问答系统,应该知道问题是无法回答的,不应该生成答案。然而,SQUAD 1.1数据集模型会通过对没有正确答案的问题进行不可靠的猜测来回答这些无法回答的问题。这表明这些模型缺乏合理的推理方式。即使SQUAD 2.0数据集在数据集中引入了无法回答的问题,识别无法回答的问题这一难题仍然没有解决。
–-无关问题:当问答系统被提出一些与上下文无关的问题时,系统仍然会生成一个可以理解但无意义的答案。从另一方面来看,人类是不会回答出这种无意义的答案;相反,人们会发现这个问题是不相关的,它脱离了上下文。
本文的贡献如下:
1. 写出一篇关于可以自动生成可能出现的问答对的文章。
2. 我们引入了一个问题相似性机制,它将识别出无法回答和不相关的问题。
3. 我们将问题生成系统和问答系统结合起来,创建一个程序,称为自动问答对生成系统。
本文的其余部分结构如下。
第2节,提供问答系统的相关工作。
第3节,解释了自动问答对生成和问题相似性机制。
第4节,提供关于所使用的数据集和实验的细节。
第5节,给出实验结果。
第6节,讨论结果。
最后,在第7节中我们对本文进行总结。
2 相关工作
近年来,提出了几个工作,通过组合基于二元语法散列的搜索因子、TF-IDF匹配[7]和机器阅读理解[22,29].它给问答系统带来了一个良好的开端。最近的QAS是来自transformers的双向编码器表示(BERT) [11].它使用transformers等神经模型来预先训练大型数据语料库。这种最新的改进已经在比如问题回答、文本摘要和许多分类问题的NLP任务中带来了显著的效果。除了BERT,对于广泛的应用,研究人员最近通过将BERT作为基础模型,展示了使用预训练语言建模的BERT的效率。通过将不同的神经架构与BERT语言模型相结合,并利用其嵌入性,在英语方面取得了前沿成果[5]。随着BERT模型研究的推进,一些系统比如端到端的交互式聊天机器人系统BERTserini [43],一个叫ALBERT的BERT的轻量型版本[21],以及一个叫做DistilBERT的通用语言模型[36]进行了介绍。
该模型在一个特定的数据集上进行训练,然后在一个开放域或封闭域的问答系统中使用大量数据进行预训练,来回答问题。像这样的问答系统的数据集很少,例如CuratedTREC数据集[1]、WebQuestions [3]、从Freebase回答问题[4]、以及斯坦福大学问答数据集(SQuAD) [33]、基于维基百科的知识源。
SQuAD是目前所有这些数据集中最重要的通用开放领域问答数据集之一。有两个SQuAD数据集的版本: SQuAD1.1 [33]和SQuAD2.0 [32].除了SQuAD1.1数据集已有的数据之外,数据集SQuAD2.0还包含无法回答的问题以及看似合理的答案
然而,如表1所示,当向系统提出无法回答和不相关的问题时,模型会对此类问题做出不可靠和不正确的猜测和回答。
表1 示例显示无法回答且不相关的问题导致错误答案
与问答系统(QAS)一样,问题生成系统(QGS)在让模型理解问题并回答问题的过程中起着至关重要的作用。根据Sun等人[39]的研究,问题问答和问题生成之间有着密切的联系。问题生成任务已经看到了许多训练目标。像 [13,25,37]这样的研究没有捕获长期依赖关系,而是专注于最近的标记。尽管这些论文提供了一个很好的结果,但是这些工作缺乏长期依赖性[19,22].Qi等人[29]提出将未来的n-gram作为训练目标,从而在问题生成任务中提供更加完美的结果。
当我们在考虑答案是如何产生的情况下对问答系统进行广泛测试时,我们发现问题理解在问答系统中起着重要的作用[38].此外,像引入一个成对序列模型[46],该模型可以获取所提问题和给定段落之间的相互关系。像ParaQG[20]这样的特定系统试着从段落中生成问题。类似于[35]这样的系统从问题和段落中提取关键词,并使用RNN进行匹配。Pota等人[27]使用卷积神经网络(CNN)对问题进行分类。在问答系统中,问题分类对于抽取正确答案起着非常重要的作用。Esposito等人提出的方法[14]从问题中提取最相关的词语,然后将这些词语放在上下文中。这个文档集合后面在问答系统中使用。其他一些工作,如使用基于深度神经网络的词性(POS)标记[28]。在这篇文章中,POS在字符时被标记,然后最终被传送到Bi-LSTM。这种方法来处理罕见的、词汇表以外的单词以及常见的和已知的单词。
3 方法描述
本节介绍了一个自动问答对生成系统,它是问答系统和问题生成系统的一个结合。为了解决问答系统的局限性,我们提出了一种问题相似度机制。可能生成的问题来自最先进的问题生成系统称为ProphetNet [29],提出的问题来自于SQuAD 2.0数据集。问题相似性机制计算来自给定段落的可能生成的问题和提出的问题之间的余弦相似性。
图1 描述问答对生成系统的框架图
3.1 问答对自动生成系统
自动问答对生成系统使用最先进的问题生成系统ProphetNet [29]的预训练权重生成系统,并使用BERT [11]模型为生成问题的答案。
如图1所示,首先我们将文章作为输入提供给问题生成系统和回答系统。一旦问题生成系统根据答案跨度生成可能的问题集,这个答案跨度是通过段落中的名词和动词短语找到的,所生成的问题提供给问答系统。然后基于文章和生成的问题集,问答系统生成答案。最后,我们就可以从系统中得到了问答对。
3.2 问题相似性机制
除了自动生成问答对之外,如果向系统提出了其他的问题,这些问题在传递给问答系统之前,将被识别为可回答的或不可回答的以及不相关的问题。为了识别问题,我们引入了一种称为问题相似度机制的方法。该机制会计算生成的问题和提出的问题之间的余弦相似度。
如图2所示,文章最初被传递给问题生成系统,从而基于名词和动词短语导出的答案跨度来生成关于给定段落的可能的问题集。
图2 确定无法回答或不相关问题的框架图
假设GQ和QP作为生成的问题集合,且是由|GQ|= m和|QP|=1提出的问题。生成的问题的句子嵌入是使用通用句子编码器[6]获得的,它比预先训练的单词嵌入(如GloVe[26]和word2vec[23]生成的单词嵌入)有着更好的结果。
- 是句子的一组嵌入(SE)生成问题(GQ),以及是每个生成问题的句子嵌入(GQ)。
类似地,我们得到了问题的句子嵌入
- 是提出的问题(QP)的句子嵌入集(SE),是提出的每个问题(QP)的句子嵌入集(QP)。
生成的问题和提出的问题之间的余弦相似性根据(3)计算
其中表示和的内积。
为了计算问题相似度得分(QSS),我们需要在生成的问题中识别出问题,其余弦相似度经过计算后在提出的问题最高。我们就称之为最高相似度评分问题,由(4)得出。
现在,一般问题之间的问题相似性得分根据(4)确定,
和分别是第j个生成的问题(由(4)获得)和提出的问题的句子嵌入。
3.3 问题提出
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[589546],资料为PDF文档或Word文档,PDF文档可免费转换为Word