中文地址识别及标准化处理方法毕业论文
2021-07-12 22:11:04
摘 要
随着互联网的发展,信息呈爆炸式增长,其中就包括众多的地址信息。地址是一个涵盖丰富信息的变量,大部分中文地址都是基于自由文本式的、无显式的结构且隐含语义性地附加说明信息,这使得使地址中蕴含的丰富信息不能被深度分析挖掘。通过对地址进行标准化的处理,使基于地址的多维度量化挖掘分析成为可能,为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段,因此具有重要的现实意义。
本文首先介绍中文地址的特点,对处理中文地址中的难点和重点做了分析,然后对中文分词技术做了详细的介绍。采用基于规则的解析方法,然后结合标准数据库,实现对中文地址的识别与标准化,论文的主要工作为:
1.中文地址特征分析。通过分析中文地址名称,构建特征词集合,为地址识别做准备工作。此外,分析和学习中文地址常用的表达模式,帮助制定更加全面、合理的解析规则。
2.选择与比较中文分词算法。分别利用LTP、NLPIR等多种分词系统对训练集数据进行处理,通过分析和比较处理结果的准确率,选择出合适的分词方法。
3.制定解析规则。根据中文地址特征词及表达模式,制定基于规则的解析方法,对分词后的中文地址进行解析。然后利用标准地址数据库对解析结果进行处理,实现中文地址的标准化。
关键词:中文地址;标准化;中文分词;规则解析
Abstract
With the development of the Internet, information is exploding, including many postal address information. Address is a rich information of variables, most of the Chinese postal address is based on the free text type, without the structure of the explicit and implicit semantic additional information, which makes the address contains abundant information can not be in-depth analysis of the mining. By designing standardization process, it is good to multi-dimensional quantization based mining analysis, and also provides more rich methods and means for different data mining tasks in popular electronic commerce applications. Therefore our work has the important practical significance.
This paper first introduces the characteristics of the Chinese address, and then emphasis the difficulties of dealing with Chinese address. In addition we introduce the Chinese word segmentation technology in details. This thesis considers a rule-based analysis method combined with a standard database, to achieve the Chinese address recognition and standardization. The main contributions of this thesis are listed as follows:
1. We analyze the characteristics of Chinese address in free text. A collection of keywords according to postal addresses are prepared for the address recognition work. In addition, learning and analyzing the expression patterns of Chinese addresses help us develop a more comprehensive and reasonable resolution rules.
2. We choose and compare Chinese word segmentation algorithms. Popular algorithms like LTP and NLPIR are tested using our training postal address data. By analyzing and comparing of the accuracy of the results, we select a appropriate segmentation method for postal address segmentation..
3. We design a set of parsing rules. According to our selected keywords and expression pattern, we propose a analytic method based on rules and analytic segmentation results. Then we use our standard address database to process the analytical results. Finally standardized Chinese postal addresses are extracted.
Keywords: Chinese postal address; standardization; Chinese word segmentation; parsing rules
目录
摘要 I
Abstract II
第1章 绪论 1
1.1选题背景及意义 1
1.1.1选题背景 1
1.1.2选题意义 1
1.2研究现状 2
1.3研究内容 2
1.4论文的组织结构 3
第2章 面向地址的中文分词模型 5
2.1中文地址特征 5
2.2分词方法简介 5
2.3分词方法比较 7
第3章 基于规则的中文地址解析 10
3.1 等级约定 10
3.2等级识别 12
3.3规则解析 12
3.4标准化 14
3.4.1构建和完善标准地址数据库 14
3.4.2标准化 15
第4章 中文地址标准化系统设计与实现 16
4.1功能需求分析 16
4.2系统模块 16
4.3数据库设计 17
4.3.1 E-R图 17
4.3.2数据字典 17
4.4系统实现 18
4.5系统测试 19
4.5.1 测试用例 19
4.5.2测试结论及改进措施 20
第5章 总结与展望 22
致谢 23
参考文献 24
- 绪论
1.1选题背景及意义
1.1.1选题背景
伴随着互联网技术的迅猛发展,网络上的信息量也呈爆炸式增长,在这些信息中,包含了大量的地址信息,像现在的地图导航服务、电子商务等业务的处理工作中会产生大量的地址数据。
在现实生活中,地址信息与我们每一个人的生活息息相关。在新华字典中,“地址”的解释是:指找到某人或某机关或与其通信的指定地点(如住处或营业所)[1]。随着社会和信息化技术的发展,地址信息已经成为人类生活中一个不可缺少的元素,它几乎存在于所有的事物之中,成为事物属性中不可分割的一部分。如今,地址对社会的服务功能已经被极大限度地扩展,地址信息在城市规划、物流运输、紧急事件处理等服务中的应用变得越来越广泛。
然而由于中文的语言本身的特性以及我国地名的特殊性,大部分的中文地址信息是处于不规范的自由文本形式,很难直接从中得到有用的信息,并且不能充分挖掘其中的蕴含的信息。只有对这些地址数据进行识别和标准化工作,才能够使得基于地址的多维度量化挖掘成为可能,为进一步的研究工作做好铺垫。
1.1.2选题意义
地址信息已经渗透到我们生活中的方方面面。在公共管理工作中,快速获得地址并准确地对其进行空间定位可以帮助管理者对各种应急事件做出正确、及时的决策;在社会管理工作中,规范化的房屋和建筑物标准地址已成为核心[2];在社会调查中,依托地址得出的分析结果往往有重要的参考意义。