登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 电子信息类 > 通信工程 > 正文

支持基于新词发现社科数据的文本分词器设计研究与应用实现文献综述

 2020-04-14 17:30:28  

1.目的及意义

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在自然语言处理系统中,词是最小的能够独立活动的有意义的成分。中文文本分词指的是将一个汉字序列切分成一个个单独的词,由计算机自动识别文本中词边界的过程。中文分词是中文信息处理中最重要的预处理过程。

随着计算机技术的发展,自然语言处理技术有了很大的提升。目前学术界有关文本分词的研究主要集中在英语等西方语言上,而由于中英文环境中语素的不同特点,中文天然缺少像英语一样词与词之间通过空格分隔的优势,这使得中文分词较之英文分词要复杂、困难得多。中文的文本自动分词至今仍是制约中文信息处理的瓶颈,其难点主要体现在以下几个方面:

(1)词的定义模糊:目前国内语言学界并没有对中文词的标准化定义达成共识,现有的研究往往是建立在一些非标准化的定义的基础之上。

(2)分词标准模糊:目前业界并未建立统一的分词标准,对统一文本的分词可能会产生不同的分词效果。

(3)歧义识别:文本存在的歧义可能导致分词后产生与预期效果相违背的结果。歧义主要包含交叉歧义和组合歧义。交叉歧义较为常见,比如“小孩和气球”,既可以分为“小孩/和/气球”,也可以分作“小孩/和气/球”。组合歧义较为少见,但是处理难度较高。例如在“离开车”中“离开”是一个词汇,但在“离开车还有一小时”中则“离开”不再是一个词汇。

(4)新词识别:新词又叫做“未登录词”,指那些没有被字典收录的词,例如各种专有名词、缩略语、互联网新词等。由于汉语强大的造词能力,每天都会有新的汉语词汇产生,新词的识别准确率直接关乎文本分词系统的分词精确度与实用价值。

(5)分词算法:分词算法的优劣直接影响分词的精确度,除此以外,在面对海量文本数据分词时,分词算法的时间复杂度与空间复杂度决定了文本分词系统的计算成本。如何兼顾分词的准确度与效率仍然是中文文本分词的重要研究内容。

搜索引擎的存在降低了互联网的准入门槛,而对文本信息的处理则是搜索引擎技术中的关键一环。但以目前而言,世界上一些著名的搜索引擎,例如谷歌、必应、百度等,均采用的是以字为单位的全文检索技术,检索效率一般。很明显,如果通过中文分词技术对文本进行预处理,并以词为单位进行检索,可以大大提高信息的检索效率。由于中文的特殊性,中文信息处理不能够简单搬照国外的现有技术,而是需要对中文信息处理技术进行专门的研究。因此研究支持新词发现的中文分词技术,提升中文分词的准确度与效率,有着非常重要的现实意义。

中文分词的算法研究随着计算机科学的进步在形式和内容上呈现多样化。北京航空航天大学计算机系在1983年设计了第一个实用中文分词系统,该系统采用最大匹配法则,以词尾字构词纠错技术为辅助实现自动分词,并对中文中的歧义切分字段的类型、特征以及基本的对策进行了科学地阐述。1988年北京航空航天大学提出了一种使用改进的最大匹配方法的CASS分词系统,它使用知识库来进行歧义字段处理,其机械分词速度能超过200字/秒,知识库分词速度则能达到150字/秒。北京师范大学现代教育研究所于1991前后研制实现的书面汉语自动分词专家系统,首次完整引入专家系统方法到中文分词技术中。该系统中使知识库与推理机保持相对独立,其中知识库是一些常识性知识库和启发性知识库,词典使用首字索引数据结构。通过将专家系统的形式的引入,系统中分词过程则可以表示成句子“分词树”的生长过程或称为为知识的推理过程。中国科学院计算技术研究所在多年研究工作积累的基础上研制出汉语词法分析系统ICTCLAS。此系统包括中文分词、词性标注、命名实体识别、新词识别、同时支持用户词典、支持繁体中文、支持GBK、UTF-8、UTF-7、UNICODE等多种编码格式等主要功能,目前该系统已进入商用阶段,应用领域比较广泛。而在最近几年,中文分词技术的研究上再次出现了瓶颈,亟待有人能在研究模式或者应用上进行彻底的创新。

{title}

2. 研究的基本内容与方案

{title}

中文分词系统是利用计算机对中文文本进行词语自动识别的系统,本文旨在通过计算机算法设计出一个分词精确度高、算法收敛快的文本分词系统,同时要求其能发现未登录词,克服传统中文分词器因为未登录词而产生分界错误等缺点。构建好的文本分词器用于社科项目申报书文本数据的分词,要求有良好的分词效果,能够挖掘新词并生成新的词库。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图