机器智能聊天模拟系统的研发毕业论文
2021-06-24 21:23:46
摘 要
随着互联网的快速发展,人们已不仅仅满足于移动互联网带来的便捷性,开放性,信息共享性等功能,人们尝试着向更加智能化的方向发展,期待未来的生活方式更加个性化和人性化。在此背景下,机器智能聊天模拟系统应运而生,它提供了一种全新的人机交互体验,可以模仿人的语言交流习惯,进行对话,通过问答方式使对话持续进行。采用人机对话方式,人输入信息,电脑作相应的逻辑应答或提问,使这样持续的人机应答符合人类的常规聊天场景。
论文主要研究了机器智能聊天模拟系统实现方法和原理,主要运用中文分词算法的正向最大逆向匹配法,关键词语匹配算法。首先对自然语言进行分词处理,抽取关键词,然后进行匹配,返回答案。系统开发过程中使用Java, JSP,和JavaScript编程语言,使用MySQL数据库进行信息存储。系统架构分为三部分,自然语言理解,关键字匹配及知识数据库管理。
关键词:智能聊天;数据库;中文分词;信息抽取
Abstract
With the rapid development of Internet, people have not only satisfied with the mobile Internet brings convenience, openness, information sharing, and other functions, we try to develop in the direction of more intelligent, looking forward to the future way of life have become personalized and humanized. In this context, machine intelligence simulation system arises at the historic moment, which provides a brand-new man-machine interactive experience, can imitate human language communication habits, dialogue, Adopts the man-machine dialogue method, input information, computer for the corresponding logical response or ask questions, to sustain such human response is in line with conventional chat scene of human beings
Thesis mainly studied the chat machine intelligence simulation system realization method and the principle, the main use positive maximum matching method of Chinese word segmentation algorithm, key words matching algorithm. First of all to segmentation processing of natural language, extracting keywords, matching, return the answer. In the process of system development using Java, JSP, and the JavaScript programming language, using MySQL database for information storage. System architecture is divided into three parts, natural language understanding, keyword matching and knowledge database management.
Key Words:Intelligent chat;database;Chinese word segmentation;Information extraction;
目 录
摘 要 I
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外发展现状 1
1.3 主要研究内容和组织结构 3
第2章 系统规划 4
2.1 系统可行性分析 4
2.2 系统架构概述 5
2.3 对话理解过程 5
2.3.1 问题分类 6
2.3.2 关键词抽取 6
2.4 中文分词算法 6
2.4.1 中文分词原理 6
2.4.2 常见中文分词方法 7
第3章 系统分析 8
3.1 需求分析 8
3.3 功能结构分析 9
3.4 业务流程分析 9
3.5 数据流程分析 11
3.6 数据字典 11
3.6.1 数据元素 11
3.6.2 数据结构 12
3.6.3 数据流 12
3.6.4 处理过程 12
第4章 系统设计 13
4.1 功能模块结构设计 13
4.2 物理配置方案设计 14
4.3 数据库设计 14
4.3.1 概念结构设计 14
4.3.2 数据库结构设计 16
4.4 输入输出及界面设计 17
4.4.1 输入输出设计 17
4.4.2 界面设计 17
第5章 系统实施 23
5.1 创建数据库 23
5.2 界面编码实现 24
5.3 数据库连接 31
5.4 中文分词功能实现 32
第6章 系统维护 35
6.1 系统维护内容 35
6.2 系统调试 35
6.3 系统测试 37
第7章 总结与展望 40
7.1 总结 40
7.2 展望 40
致 谢 42
第1章 绪论
1.1 研究背景及意义
随着互联网快速地发展和普及,在信息技术方面更是实现了巨大飞跃,网络成为人们获取信息的主要渠道,当前信息数量在不断丰富、增加,人们处在数据和信息爆炸的时代,与此同时,人们对信息的质量和相关性也有着越来越高的要求,人们不再是单纯被动的接收信息,而是希望在互联网飞速发展的同时,能够获取更加有价值,更加符合自身需求的信息,过去的搜索引擎已经无法满足当下人们快速个性化获取信息的需求,大量年轻的新生代互联网用户对用户体验、信息获取、交互方式也有更高的要求。在这样的时代背景和条件下,催生了一种新的信息检索方式,即机器智能聊天系统。
机器智能聊天系统和传统的搜索引擎区别在于,传统的搜索引擎对于用户输入的问题仅返回一个相关信息的集合,用户需要自己筛选契合度最高的,而机器智能聊天系统模拟人类对话或聊天的程序,可以自动使用自然语言回答用户的问题,根据用户问题中的关键字返回最精准的答案。同时机器智能聊天系统不像传统的搜索引擎系统一样毫无感情的仅仅返回搜索结果,而是采用模式匹配方法从数据库中寻找问题的答案,通过人机对话的方式,使用自然语言人性化的与用户交流,聊天机器人不仅依靠自身具备语料信息丰富的知识库,同时依靠程序完善的功能设计,以生动有趣的方式回答用户的问题,充分了解用户需求,机器智能聊天模拟系统也会提供常用功能的接口,使用户能够查询天气等日常信息,用户通过网页输入信息,机器智能聊天模拟系统作相应的逻辑应答或提问,使这样持续的人机应答贴近生活中的真实语境,符合人类的常规聊天场景。最近几年,机器智能聊天系统作为越来越热的研究方向,人们希望它不仅可以精准高效的返回用户提出的问题,更希望机器智能聊天系统能够为人们带来欢乐和便捷于一体的用户体验和全新的交互体验。
1.2 国内外发展现状
国外在智能机器聊天系统方面的研发时间相对较早,上世纪60年代的时候出现的Elisa就被认为是世界上最早的机器智能聊天系统,它在心理学方面具备一定的专业知识,通过提出问题的方式与用户互动,Elisa根据输入语句中的关键词在数据库中进行搜索,返回相匹配的答案。但是不足之处是当发现输入语句的一个关键词后,不再继续判断是否存在其他的关键词,如此一来会使优先级别比较低的很难被匹配到。图灵实验让问答系统受到广泛关注,它认为计算机如果像人类一样能够用自然语言进行对话交流,则说明计算机是人工智能的。近十年来,由于网络信息技术呈现越来越快速发展的趋势,机器智能聊天系统又重新回到大众视野。各大公司也不断投入更多的资源进行相关方面的研究,国内外涌现出各种各样的机器智能聊天系统,比如Apple公司推出的Siri智能机器人,麻省理工大学推出的Start,Microsoft推出的小冰, Google推出的Google Now,阿里巴巴平台使用的智能客服,科大讯飞研发的讯飞语点,搜狗公司推出的搜狗语音小助手,赢思软件的产品小i等等都是当前机器智能聊天系统领域的成果。
目前,国外的机器智能聊天系统主要以英语为主。麻省理工大学大学开发的Start是世界上第一个智能问答系统,系统主要基于web网页运行,从1993年上线一直到现在依然运行,与一般的搜索引擎进行信息检索方式不同,它能够充分理解用户需求,较为准确的回答日常生活、文化、哲学、娱乐等各方面的问题。Alice是美国理海大学理查兹.华勒斯(Richards Wallace)研发的机器智能聊天系统,三次获得人工智能勒布纳奖,并且曾被称为是最聪明的机器智能聊天系统。另外不得不提的就是在国内外都占有举足轻重位置的Siri系统,它使语音功能与iPhone自身其他功能优势相结合,其机器能聊天系统的应用使iPhone设备成为了一款功能更加强大、更加完善、并且广受青年人追捧的智能聊天机器人。它不仅可以实时查询天气情况,实现地图功能,了解周边信息,点播歌曲,讲笑话实现娱乐功能,将机器智能化和iPhone产品自身功能解密结合,还能够支持口语输入,调整不同的语法和语言习惯,为用户带来口语式的交互体验,能够将语音信息转化成文字,进一步进行答案匹配。Siri的特点就是根据用户的提问反馈出各种不同的答案,并且使其更加幽默、生动。
与国外较为成熟的科研水平和成果相比,国内在机器智能聊天系统领域的研究则较落后。主要原因有以下三方面:一是计算机技术和互联网的发展一直比国外滞后,无论是发展年限还是技术能力以及研究投入的资源条件都有局限性;二是国外的计算机技术和机器智能聊天都是基于英语研发的,而我们无法直接利用这些先进的技术和研究成果,同时中文信息比英文处理起来复杂得多,中文在分词方面需要有着极大的难点,英文直接通过空格就可以实现分词,而中文则需要基于语义理解,进而分出不同的字段;三是语言处理基础资源不足,比如知识库,文字库还需要整合增加。
最近几年,随着信息技术和互联网的发展速度不断加快,国内越来越重视人力物力相关资源的投入,市场和政府更是给机器智能聊天系统以及相关产业足够的发展空间,因此国内也涌现出了一些较为成熟的产品。比如上海赢思软件公司的小i,它是目前市场上比较完善的一款机器智能聊天系统,不仅可以和用户使用自然语言顺畅聊天,还具备全面的信息搜索能力,用户可以快捷准确的掌握需要的信息。它虽然能够在天气查询,周边查询,地图功能等多方面提供了较为全面的服务,但是交流时缺乏趣味性,且不能够对上下文内容进行识别。小豆也是一款新型的机器智能聊天系统,同样的,它兼具聊天和智能查询功能,同时还能够进行简单的外文翻译,查询百科知识等等。虽然机器人的功能性有所能加,但是在聊天过程中产生的回复答案的缺陷并没有得到解决。中文的机器智能聊天系统呈现良好的上升趋势,虽然大多产品还不够完善,但是随着自然语言处理、中文分词,模糊匹配及相关技术的飞快发展,机器智能聊天系统的水平也会有巨大的提高。特别是对自动识别方法的深入研究,能够让智能聊天系统愈加成熟,使用户真正感受到智能时代的来临,体会快捷,精准,定制化的服务。
1.3 主要研究内容和组织结构
本文的研究对象是机器智能聊天模拟系统,论述其发展历程,并且对系统涉及和实现过程中主要涉及的相关学科和理论技术进行了分析和研究,包括如何处理自然语言,提取信息,机器学习等。对于用户输入的语句首先分析内容,中文分词处理,识别关键词,然后在数据库中进行模糊匹配,将对应的最佳答案反馈给用户。通过对相关领域理论知识的理解和技术能力的实践,对市场现有机器智能聊天系统的优缺点分析并结合系统的自身特点,制定出一份相对完善的需求分析,不断地实践,改进,最终实现一个用户满意的机器智能聊天系统。
本文主要分为绪论、系统规划、系统分析、系统设计、系统实施,系统维护,总结与展望七个章节。
第一章 绪论:主要论述了目前机器智能聊天模拟系统研究背景和意义,国内外相关领域的发展现状,阐述本文的主要研究内容和组织结构。
第二章 系统规划:对系统可行性进行分析,介绍制定开发日程安排,介绍机器智能聊天系统的相关理论及技术方法,包括中文分词,模糊匹配,知识库等等。