基于CRF算法的商品实体命名识别研究毕业论文
2021-05-13 23:48:57
摘 要
随着互联网的普及,阿里巴巴、京东等电子商务平台逐渐兴起并得到了迅猛发展。同时,针对电商领域的检索功能也开始成为了研究的热点,其关键技术就是商品命名实体的识别。
命名实体识别是自然语言处理中基础且重要的研究领域,它能够应用在信息检索、文本分类和机器翻译等领域。然而,商品命名实体识别不同于传统命名实体识别,它针对特定领域,并且需要面对网络环境中省略现象严重、上下文信息缺失、表达不规范等问题。因此,这项研究具有相当的挑战性和实用意义。
本文首先根据商品命名实体在网络环境中的变化规律,对商品命名实体的组成成分做了全新的定义,并在此基础上制定了商品命名实体语料标注规范,构建了一个高质量的商品命名实体语料库。
接着,详细介绍了条件随机场模型,它是一种统计机器学习算法,在序列标注方面有着优秀的表现。进一步地,综合运用词、词性、字母特征、数字特征等特征,并将品牌名、系列名、属性词等领域知识作为特征引入条件随机场模型。在之前标注的商品命名实体语料库上进行实验,找到了一组最优的特征组合,使系统的F值达到了92.49%。
最后,本文针对网络文本,设计了一套基于条件随机场的商品命名实体识别原型系统。该系统具有较高的识别准确率和召回率,并且对于输入的每一条包含商品命名实体的句子,能够抽取出其中的商品命名实体。
关键词:商品命名实体识别;条件随机场;机器学习;特征
Abstract
With the popularity of the Internet, Alibaba, Jingdong and other e-commerce platforms have been gradually on the rise and rapid development. Meanwhile, retrieval function for the field of electronic business has started to become a research focus. The key technology is product named entity recognition.
Named entity recognition is a basic and important research area of natural language processing, which has applications on information extraction, text categorization and machine translation. However, unlike traditional named entity recognition, it aims at specific areas and needs to face serious problems like the omit in network environment, the context information missing and informal expressions. Therefore, the study of product named entity recognition is a great challenge and practical significance.
Firstly, we made a new definition on the components of a product named entity according to the changes of product named entities in the Internet environment, and developed a product named entity tagging corpus norms on this basis, to build a high-quality product named entity corpus.
Secondly, we introduced the conditional random fields model, which is a statistical machine learning algorithm, with excellent performance in terms of sequence annotation. Further, we integrated some features like word, part of speech, letter, number and introduced domain knowledge like brand name, series name, attribute word to the conditional random fields model. We find a group of optimal combination of features and the experiment on previously annotated corpus show that F value of our approach reached 92.49%.
Finally, we designed and implemented a named entity recognition prototype system based on conditional random fields model for web text, which had high recognition accuracy and recall rate. For each input sentence which contains a product named entity, it can extracted the product named entity.
Key Words: product named entity recognition;conditional random fields;machine learning; feature
目 录
第1章 绪论 1
1.1 研究目的及意义 1
1.2 国内外研究现状 2
1.3 商品命名实体识别的难点 3
1.4 论文结构安排 4
第2章 商品命名实体语料库 5
2.1 商品命名实体的定义 5
2.2 商品命名实体语料库的构建 7
2.2.1 商品命名实体标注规范 7
2.2.2 语料库的构建 9
第3章 基于条件随机场模型的命名实体识别 10
3.1 条件随机场模型 10
3.1.1 条件随机场的定义 10
3.1.2 条件随机场的参数化形式 11
3.2 特征函数集 12
3.3 特征选择 13
3.4 特征模板 14
3.5 参数估计 15
3.5.1 CRF的参数估计 15
3.5.2 参数估计的训练算法 17
3.5.3 训练过程 18
3.6 商品命名实体识别实验 18
3.6.1 实验语料和工具 18
3.6.2 实验评测指标 20
3.6.3 实验结果分析 20
第4章 原型系统设计与实现 26
4.1 系统设计 26
4.1.1 系统总体结构 26
4.1.2 模型训练模块 26
4.1.3 预处理模块 27
4.1.4 识别模块 28
4.2 系统实现及演示 29
第5章 总结与展望 29
5.1 论文工作总结 30
5.2 研究工作展望 30
参考文献 32
致谢 34
第1章 绪论
1.1 研究目的及意义
近年来,随着互联网和信息产业的迅猛发展,大量的社交网站和论坛(新浪微博、豆瓣、百度贴吧等)依托于互联网的开放环境得到了快速发展,电子商务(阿里巴巴、京东等)这种全新的、全球性的商业贸易活动也得到了普及与繁荣。人们的生活越来越离不开网络,海量的信息都以电子文档的形式呈现在人们面前,如何快速准确地找到真正有用的信息已经成为现在亟待解决的问题。人工寻找定位信息己经不太现实,必须运用计算机技术对这些文本信息进行快速且正确的自动化处理,而自动化处理中的关键一步就是命名实体识别(Named Entity Recognition, NER)。
命名实体与词、短语等不同,它不是一种语法单位,而是文本中的基本信息单位。MUC(Message Understanding Conference)上最早提出了命名实体识别任务,指的是传统命名实体的识别,如人名、地名、组织机构名、时间表达式和数字表达式等的识别[1]。随着研究的深入,针对特定领域的专有名词的识别也得到了发展,例如针对电子商务领域的商品命名实体的识别和生物医学领域的生物信息实体的识别等。