自动问答机器人系统研究及实现开题报告
2022-09-09 15:07:45
1. 研究目的与意义
自动问答系统的研究起源于20世纪60年代,主要原因还是当时艾伦·图灵的图灵测试的构想的提出,图灵测试对于机器是否拥有智能的判定标准便是机器能否理解自然语言提出的问题,并用自然语言来回答问题。不过由于技术上的限制,自动问答技术的研究一直处于一些限定领域,没能得到较大的突破。 直到20世纪末,随着计算机技术的发展以及网络技术的进步,人们又重新把视野回到了自动问答技术的研究上,以期能够通过一种便捷地方式获取数据信息。美国的麻省理工学院(MIT)早在1993年就在互联网上发布了一套自动问答系统Start,是发布在网络上的第一个自动问答系统,通过对用户提出的问题进行语义分析等处理,直接回答用户的问题,涉及历史、地理、科技、生活等多个方面。此外,同样是美国的密歇根大学在2001年也发布了一个较为成熟的自动问答系统AnswerBus,这个自动问答系统的特点在于可以支持多语种进行提问和回答,目前可以支持英语、法语、德语、葡萄牙语、西班牙语、意大利语这六种语言,同样已经应用于多个领域去处理并回答用户的问题。 最具有里程碑意义的事件当属2011年2月14-16日IBM 的Watson在美国电视竞答节目Jeopardy中战胜了前两位世界冠军。Watson是基于”DeepQA"技术开发而成的,他的胜利显然离不开其背后强大的计算机处理能力以及30多年来自然语言处理方面的研究。近几年来,随着移动互联网的迅速发展,自动问答系统已经遍及我们生活的方方面面,如微软公司的小冰,近年来也逐步拥有了一定的市场知名度。 在国内,虽然对于自动问答技术的研究起步比较晚,但是近几年国内对自动问答系统的研究也越来越火热,越来越多的大学和公司参与到自动问答系统的研发中。目前有哈尔滨工业大学的ITNLP,复旦大学的FudanNlp以及中国科学院的ICTCLAS等。国内也有很多的公司在自己的产品中融入了自动问答系统,比如淘宝、京东等电商网站的客服系统,便能够理解并处理用户的一些问题。而图灵机器人则是目前对中文语义理解能力最高的,它的实现便是基于DeepQA深度问答技术。 在21世纪,信息时代飞速发展的今天,人们的生活充斥着大量的信息,面对如此庞大的数据量,传统的信息获取方式很难满足人们的需求,因此人们越来越渴望能够通过一种更加有效的方式获取信息。目前人们获取信息的方式主要是通过搜索引擎,主流的搜索引擎有谷歌和百度,不过通过搜索引擎来获取信息存在着很大的弊端: (1)、用户通过搜索引擎搜索到的仅是互联网上相关网页的链接,在所返回的大量页面中,用户很难准确地得知自己所要获取的答案所在的页面。 (2)、用户需要点开搜索引擎搜索到的页面,浏览页面后提取出自己所需要的答案。 (3)、用户通过搜索引擎搜索时,只能通过关键字或关键字的组合进行搜索,搜索引擎不能够理解自然语言。 可见传统的搜索引擎获取信息的方式已经不能适应当前数据大爆炸时代的新形势下的应用需求。因此,为了更好地满足用户对于信息获取的需求,使用户能更加便捷地获取到想要的信息,自动问答系统的研究便有了十足的意义。 传统的问答系统主要包含三个模块:问题分析、信息检索和答案抽取。问题分析模块是问答系统所必备的模块,一般是对用户提出的问句进行分析,包括中文分词、词性标注、停用词处理、问题分类以及关键字提取等步骤。之后再根据处理后的结果到语料库进行信息检索,根据相似度排序选取出最为相关的文档或者段落。最后在答案抽取模块根据相应的算法提取出问题的答案。为了提高检索的速度,问答系统通常都会建立一个包含常见问答对的FAQ库,如果能够在FAQ库中匹配到相关问句,则直接返回答案。然而并不是所有问题都可人为预知的,在FAQ库无法找到相匹配的问题时,需要通过其他方式获取答案,也就是现在较为常用的多策略混合型问答系统,按照获取答案的方式,可以分为面向本体的问答系统、面向Web的问答系统和面向数据库的问答系统。开放域问答系统多采用面向Web的问答系统,以网络作为信息获取的来源。限定域的问答系统,例如航空、医疗、金融等领域,因为其领域知识的专业性,大多采用面向本体的问答系统,通过构建语义化本体知识模型,能有效提高特殊领域问答系统准确性,最近几年,随着web的语义化,通过浅层语义化分析和自动推理能力能够使基于本体的问答系统的性能得到很大提升,也使得基于本体的问答系统成为近年来研究的新潮。 |
2. 研究内容和预期目标
研究内容:
本课题利用主述位理论构建完整微观话题结构,基于微观话题结构实现新闻语料知识库抽取,采用机器学习相关技术,研究并实现一个自动答系统。
整体上采用微信平台作为媒介,将用户提问的问句通过微信后台服务器接收,微信公众号将接收到的问句转发给自己的服务器,自己的服务器对接收到的问句进行问题分析,之后检索语料库抽取出最为匹配的答案,最后服务器将处理后的答案返回给微信服务器,微信服务器再将结果反馈给用户。通过微信作为交互媒介,不仅网络通信能够得到保证,而且界面交互十分友好,并且大大节省了开发时间,从而能够将精力集中在相关算法的设计上。
3. 研究的方法与步骤
研究方法: (1)、采用自动爬虫等基本工具采集数据,结合人工处理构建语料库; (2)、采用微信公众平台作为用户交互媒介; (3)、采用机器学习相关技术并结合相关接口进行问题分析、信息检索和答案抽取的处理。
研究步骤: (1) 分析课题,查找资料。 (2) 完成需求分析。 (3) 完成开题报告。 (4) 完成数据分析。 (5) 完成软件设计。 (6) 完成软件主框架的设计与搭建。 (7) 完成软件的编码工作。 (8) 完成软件后期的修改、测试、运行。 (9) 完成毕业论文的撰写。
|
4. 参考文献
[1] 陈勤, 自然语言处理基本理论和方法[m], 哈尔滨工业大学出版社,2013.08.
[2] chris manning/hinrich schütze 著, 苑春法/李伟/李庆中 译, 统计自然语言处理基础[m], 电子工业出版社, 2005.12
[3] 米歇尔 (mitchell t.m.) (作者), 曾华军 (译者), 等 (译者), 机器学习[m],机械工业出版社, 2008.03
5. 计划与进度安排
(1) 1月11日至2月15日 分析课题,查找资料。
(2) 2月16日至2月28日 完成需求分析。
(3) 3月01日至3月16日 完成开题报告。