基于双向循环神经网络与CRF模型下的NER研究文献综述
2020-04-14 17:23:22
1.1 研究目的及意义
命名实体识别(Named Entities Recognition, NER)是自然语言处理(Natural Language Processing, NLP)的一个基础任务,其目的是识别语料中人名、地名、组织机构名等命名实体,在所有涉及NLP的人工智能研究中——譬如智能客服——都是一个必须首先攻克的任务。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。
命名实体识别的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。从其意义上来看,命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题。
命名实体是命名实体识别的研究主体,一般包括3大类(实体类、时间类和数字类)和7小类(人名、地 名、机构名、时间、日期、货币和百分比)命名实体。实际研究中,命名实体的确切含义需要根据具体应用来确定,比如,可能需要把产品名称、旅游景点名称等作为命名实体。在面向生物命名实体信息提取时,还包括蛋白质、基因、核糖核酸、脱氧核糖核酸、细胞等特殊生物实体。由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得较好的识别效果,相比之下人名、地名、机构名较复杂,因此近年来的研究主要以这几种实体为主。同时生物领域的实体识别也比较活跃。这些实体中以机构名和生物实体识别难度最大,普遍存在嵌套和缩写的识别问题。从研究的发展趋势上看,由原来的单独针对人名、地名等进行识别发展到开始采用统一的方法同时进行各类中文命名实体的识别,而且识别效果也得到了提高,其中部分研究成果发表在ACL年度会议、COOLING、SIGHAN等国际会议上。这种方法虽然考虑了人名、地名和机构名的共同特点,能够有效地解决多种命名实体间的歧义问题。但是,它不能充分分析不同命名实体间的差异性,制约了整体的识别性能。
主体所属的领域,包括新闻、生物医学等领域都有相关研究表明命名实体识别呈现弱领域相关性。不同领域具有类似特点,但是从某个领域移植到一个新领域,通常会遇到严重的性能下降问题,主要原因在于命名实体的标记定义不同、不同领域有着不同的形态语法特点。
1.2 国内外研究现状
命名实体识别对英语、中文、德语、日语、西班牙语、葡萄牙语等都有相应研究。初国外对于英文命名实体识别的研究开始比较早。期研究主要以英文为主,1995年以后开始出现对欧洲和少数亚洲语言的研究。随着多语言信息抽取任务的提出,对多语言 (Multilingual)、独立语言(Language Independent)的命名实体研究也开始增加,CoNLL-2002、CoNLL-2003都将独立语言的命名实体识别作为共享任务提出。
1991年Rau在第7届IEEE人工智能应用会议上发表了“抽取和识别公司名称”的有关研究文章,首次描述了抽取和识别公司名称的系统,该系统主要采用启发式算法和手工编写规则的方法。1996年,命名实体评测作为信息抽取的一个子任务被引入MUC-6,在其后的MUC-7的MET-2以及IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC等一系列国际会议中,命名实体识别都被作为其中的一项指定任务。由于英文命名实体的识别中只需考虑词本身的特征而不涉及分词问题,因此实现难度相对较低。根据MUC①以及ACE②的评测结果,测试的准确率、召回率、F1值目前大多可以达到90%左右。由于中文内在的特殊性决定了在文本处理时首先必须进行词法分析,中文命名实体识别的难度要比英文的难度大。中文命名实体识别起步较晚,20世纪 90年代初期开始,国内一些学者对中文命名实体(如:地名、人名、组织机构名等)识别进行了一些研究。如:孙茂松等在国内比较早开始进行中文人名识别,他们主要采用统计的方法计算姓氏和人名用字概率。张小衡等对中文机构名称进行识别与分析,主要采用人工规则对高校名进行了实验研究。Intel中国研究中心在ACL2000上演示了他们开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习(Memory Based Learning,MBL)算法获取规则,用以抽取命名实体及它们之间的关系。
国外对于命名识别研究主要包括: Bikel等最早提出了基于隐马尔可夫模型的英文命名实体识别方法,其在MUC-6测试文本集的测试结果为:英文地名、机构名和人名的识别精度分别达到了97%、94%和95%,召回率分别达到了95%、94%和94%;Liao等提出了基于条件随机场模型,采用半监督的学习算法进行命名实体识别;Ratinov等采用未标注文本训练词类模型(WordClassModel)的办法,可以有效地提高 NER系统的识别效率,并针对CoNLL-2003的数据集开发出F1值达到90.8%的命名实体识别系统。中文名实体识别也获得了广泛关注。Tsai等提出基于最大熵的混合的方法;冯元勇等提出基于单字提示特征的中文命名实体识别快速算法;郑逢强等将《知网》中的义原作为特征加入到最大熵模型中,以此来训练产生性能更好的模型。2004年举行的863命名实体识别评测,成绩最好的命名实体识别系统的准确率、召回率和 F1值分别为81.10%、83.69%、82.38%,其中人名、地名、组织机构名各项的F1值最高分为85.51%、82.51%、60.81%。可见中文命名实体识别评测结果比英文结果偏低,尤其中文机构名称的识别难度更大一些。