基于深度学习的问题分类研究文献综述
2020-04-14 16:32:24
随着计算机及互联网络技术的发展,开放域问答系统越来越受到人们的关注,因为它能够给用户提供相对简洁、准确的结果。问答系统不似传统的信息检索系统,信息检索系统是根据用户指定的一些关键词,系统返回与之相关的文档,用户必须查看文档才能发现所需的答案,信息检索系统主要利用文档中词汇的统计信息。
开放域问答系统通常包括问题分析、信息检索、答案抽取三个主要部分。问题理解是问答系统处理用户输入的第一步,问题分类就是问题理解步骤中的关键一环,问题分类是指根据问题所对应的答案类型来将问题分为不同的类别。问题分类提供了候选答案中需要进行下一步精确定位和验证处理的答案类型的约束,其次,问题分类提供后续过程中可能用于决定采取何种答案选择策略的信息。问题分类准确性将直接影响到问答系统后续多种策略的制定,最终影响抽取的答案的准确性,因此问题分类成为自动问答系统研究中的基础任务。问答系统允许用户以自然语言进行提问,并返回给用户精确的回答。随着语义分析等自然语言处理技术、大数据等相关技术的发展,在智能客服等实际应用的需求之下,问答系统成为一个研究热点。
问题分类是问答系统的重要环节,单独研究问题分类意义不大,问题分类不是作为一个单独、独立的问题提出来的,它作为自动问答系统的一个重要的子模块,备受广大学者和大众的关注。随着人工智能和自然语言处理等相关技术的发展,问答系统也衍生出许多不同种类。传统的机器学习分类方法:首先对数据进行获取及预处理,对数据进行测量、采样、量化,将其描述为矩阵、向量等机器能够识别的形式,但是中文不像英文,词与词之间没有分隔符,所以中文问句还要进行分词处理;然后是特征提取与选择:特征选择要选择对分类贡献最大的特征项,作为句子的特征向量,并将其作为分类器的输入;再是构建分类器:中文问句分类思想最初借鉴于英文问句分类,后来提出贝叶斯、SVM(支持向量机)、决策树等主流机器学习方法;最后是性能评估分析分类器标注结果,评价准确率。
现在国际互联网上已经有一些面向不同专业领域或开放域的问答系统,其中比较著名的有Start、MULDER、LAMP等。Start是麻省理工学院开发的问答系统,在1993年开始发布在Internet上,是第一个面向国际互联网的自然语言问答系统,其知识来源于维基百科、书以及电子图书。它能够回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。华盛顿大学的MULDER是第一个完全以网络作为知识库的自动问答系统,它将检索到的网络文档下载到本地,并且对这些文档进行详细的语法分析,从中抽取答案。LAMP是另一个和MULDER相似的系统,不同的是,LAMP采用比较简单的分析技术,不去下载检索到的网页,而仅仅分析搜索引擎返回的网页片断信息,采用传统的向量空间模型(VSM)抽取答案。
国内在问答系统的研究上与国外仍有一定的差距。中科院计算所开发的NKI知识问答系统,用户通过自然语言提问方式查询知识库从而匹配答案。这些知识库主要包括国家地理知识库、天气预报知识库、人物知识库、中医疾病知识库等。台湾国防管理大学研制的中文问答系统CQAS,侧重命名实体及其关系的处理,尝试将中文文档以特征因子来表示,并且把它转换为ERE(E:entity R:relation)关系串列方式,并通过这个关系串列方式来搜寻答案。
相对于国外而言,国内在问答系统方面的研究在规模和技术水平上都有很大的差距,一方面由于中文信息处理的特点和难点,国外一些相关的成熟技术和研究成果不能被直接利用;另一方面中文自然语言处理缺乏统一的基础资源,如知识库、语料库以及评价机制等,而英文问答系统便有每年-一度的TREC会议提供科学的评测标准和评测语料及评测方法。
{title}
2. 研究的基本内容与方案
{title}2.1基本内容
本课题的设计内容是运用人工神经网络,充分利用深度学习自动化的提取特征的优势,来得到一个较好的结果。最后利用提出的算法,开发一个问题分类系统,使得分类结果能在人物、地点、数字、时间、实体、描述、未知七个大类中取得较好的结果,便于问答系统后续的答案检索与抽取。需解决的问题:
首先是需要对中文文本进行预处理,主要包括分词以及去停用词。
然后是对中文文本的表达形式进行转换:自然语言处理首先面临的一个问题就是表示问题,文本表示是指将语言的符号文本转换成计算机可以计算的数学形式,通常这种形式是向量。传统表达方式具有非常高的维度和极大的稀疏性,导致维数灾难,还不能表示语言复杂的语义信息,比如词与词之间的相似度。而词向量,是一种低维的、连续的实值向量。词向量不仅可以有效的解决传统词表示的“维数灾难”问题,而且词与词之间的语义关联性可以通过向量距离计算。