模式识别与图像处理外文翻译资料
2022-12-04 14:51:33
英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
模式识别与图像处理
KING-SUN FU, FELLOW, IEEE, AND AZRIEL ROSENFELD, FELLOW, IEEE
摘要:过去20年来在模式识别和图像处理领域进行了广泛的研究和开发。 这些学科已应用的领域包括商业(例如,字符识别),医学(诊断,异常检测),自动化(机器人视觉),军事情报,通信(数据压缩,语音识别)等等。 本文简要介绍了基本模式识别和图像处理技术的最新发展。
关键词:决策理论识别,图像处理,图像识别,模式识别,句法识别。
一、导言
在过去的二十年中,对模式识别和图像处理问题的兴趣大增。这种兴趣已经产生了越来越多的理论方法对实验软件和硬件的需求,用于设计模式识别和图像处理系统。在模式识别领域发表了20多本书[5] [8] [10] [11] [15] [16] [35] [41] [47] [79] ,[82],[86],[89],[110],[111],[118],[122],[123],[136],[137]。此外,还出版了许多编辑过的书籍,会议记录和期刊特刊[40],[43],[45],[46],[57],[65],[67],[69 ],[77],[80],[96],[113],[121],[127],[128]。封面[25]全面回顾了1972 - 1973年发表的五本书[5],[35],[47],[79],[89]。专业期刊已经存在了近十年[73],并且一些特殊的模式识别机器已经被设计和构建以供实际使用。模式识别和图像处理的应用包括特征识别[37],[71],[123],目标检测,医学诊断,生物医学信号和图像分析[45],[57],[97],遥感[44],[57]识别人脸和指纹[83],可靠性[90],社会经济学[13],考古学[12],语音识别和理解[43],[45],[98]和机器零件识别[3]。
有许多关于模式识别的书籍和纸张集合包含有关图像处理和识别的材料。 此外,还有第十四本书[4],[35],[99],[108]和一些精装书收藏品[21],[51],[60],[67],[74],[106], [137],[138]特别关注这个问题,截至1976年底。 有一个专门的这一领域[107]的杂志,以及其他各种杂志的专题[1],[6],[7],[53]都有相应的问题。 对于进一步的参考文献,读者可以参考一系列年度报告[100] - [105],这些年度报告占英文文献的相当一部分。
尽管模式识别和图像处理是作为两个独立的学科发展起来的,但它们密切相关。图像处理不仅涉及编码,过滤,增强和修复,还包括图像的分析和识别。另一方面,模式识别领域不仅包括特征提取和分类,还包括模式的预处理和描述。确实,图像处理似乎一般只考虑一维,二维和三维模式的二维图形模式和模式识别处理。然而,在许多情况下,关于二维和三维图案的信息很容易表现为二维图片,因此它们实际上被处理为图案。此外,用于模式识别和图像处理的许多基本技术在本质上非常相似。这两个学科之间的差异确实存在,但我们也看到他们之间在未来的兴趣和吸引力方面日益重叠。
在本文的长度限制下,我们对模式识别和图像处理方面的最新进展进行了一个非常简短的调查。
二、模式识别
模式识别主要涉及从身体或心理过程中获取的测量的描述和分类。已经提出了许多模式识别的定义[112],[125],[127]。 我们的讨论基于以上定义。 为了提供有效和低效的模式描述,通常需要预处理来消除测量中的噪声和冗余。 然后提取一组特征测量值,可以是数值或非数值的,以及这些测量值之间的关系,用于表示图案。 基于该表示对关于特定目标的模式进行分类和/或描述。
为了确定一套良好的特征测量及其与模式识别性能表征的关系,需要对模式进行仔细分析。 有关统计和结构特征的知识应充分利用模式的特点。从这个角度来看,模式识别的研究既包括模式特征的分析,也包括识别系统的设计。
用于解决模式识别问题的许多不同的数学技术可以分为两种通用方法。它们是决策理论(或判别式)方法和句法(或结构)方法。在决策理论方法中,从模式中提取一组称为特征的特征测量。每个模式由特征向量表示,并且通常通过划分特征空间来进行每个模式的识别。另一方面,在句法方法中,每个模式被表达为其组成部分的组合,称为子模式或模式基元。这种方法在语言的结构和语言的语法之间进行类比。每个模式的识别通常是通过根据一组语法规则解析模式结构来实现的。在某些应用中,可能会使用这两种方法。例如,在复杂图案的情况下,决策理论方法通常对图元基元的识别是有效的,而句法方法则用于子模式和模式本身的识别。
1.决策理论方法
决策模式识别系统的框图如图1所示。图的上半部分代表识别部分,下半部分代表分析部分。预处理过程通常在信号和图像处理领域进行处理。 我们的讨论仅限于特征提取和选择以及分类和学习。 最近还出现了几个关于这个问题的更广泛的调查[18],[26],[32],[66],[120]。
特征提取和选择:特征提取和选择的最新发展分为以下两种主要方法。
特征空间变换:这种方法的目的是将原始特征空间转换为低维空间用于图案表示或类别辨别。 对于模式表示,最小均方误差和熵标准经常用作确定最佳变换的优化标准。 对于类别鉴别,类间距离的最大化或类内距离的最小化通常被认为是优化标准。 已经提出了线性和非线性变换。 Fourier,Walsh-Hadamard和Haar转换为了生成模式特征[5]。 Karhunen-Loeve展开式和主成分法[5],[39],[47]经常在实际应用中用于降低特征空间的维数。
就增强类别可分性而言,非线性转换是一般的非线性转换。 良好的分类传染空间肯定会导致简单的分类器结构(例如,线性分类器)。 然而,与线性变换相比,非线性变换的实现通常需要复杂的计算。 考虑到新的模式样本需要更新转换结果。迭代算法或交互式程序经常被建议用于实现非线性变换[45],[57]。
在某些情况下,基于模式表示和类别歧视的转换结果分别存在冲突。优化空间变换的标准应该能够反映识别系统的真实性能。 一些近期工作似乎朝着这个方向发展[31]。
信息和距离测量:特征选择的主要目标是从中选择一个特征子集,而不显着降低识别系统的性能,即不识别的概率,或者更普遍的是决定风险。不幸的是,直接计算错误识别的概率通常是不可能或不切实际的,部分原因是由于缺乏一般足以被处理的分析表达式。一种方法是找到间接标准作为特征选择的指导。
特征选择[17],[19],[54],[66]的最常见方法是精确定义信息或(统计)距离度量,它与错误识别概率的上限和/或下限相关。也就是说,在最大化预先规定的信息或距离测量的过程中选择最佳功能。最近,Kanal[66]提供了一个相当完整的距离度量和相应的错误边界列表。假定距离度量的最重要特征是错误识别概率的合成上限,各种度量可以在增加重要性的次序上进行排序。 Foratwoclass识别问题,表示的上限误识别由Pe的概率,对于由UB巴氏的距离,用于通过UM Matusita距离,用于通过UE,forVajda的entropyby紫外含糊,对于Devijver的由UD贝叶斯距离,伊藤的评估(对于n = 0)由UI,forKolmogorovsvariationaldistanceby UK,andfortheMO距离ofToussaintby UT。
以下几部件逐点关系成立[75]:PE = UK UV = UD = UI = UT UEUB = UM。
除了正态分布的情况下,由于缺乏未知的上限,所以除了相互之间的简单相关之外,它们之间的相互关系是简单相关的。然而,在计算难度方面,散度和Bhattacharyya距离比其他距离度量更容易计算。
有趣的是,从距离度量得出的不可识别概率(英国除了是自己之外除外)的最佳界限等于单近邻分类器的渐近误差。除了上面提到的信息和距离测量之外,最近提出了一个广义Kolmogorov距离,称为Ja分离度量,作为特征选择标准,并且推导出了它的概率上下界[75]。当a = 1时,J等于Kolmogorov距离。 对于a = 2,不确定概率的上界是单独最近邻分类器误差的渐近概率。
图1 决策理论模式识别系统的框图
分类和学习:模式识别的大部分发展涉及分类和学习。当特征向量的条件概率密度函数(它可能包含类密度函数)是已知的或可以准确估计时,可以导出最小化平均风险或误识别概率的贝叶斯分类规则。当类密度函数未知时,需要使用非参数分类方案。在实践中,当大量的模式样本可用时,可以从样本中估计或学习类别密度函数[24,28] [126],然后可以获得最优分类规则。如果每个类密度函数的参数形式是已知的,则只需要从模式样本中学习参数。当可用模式样本的数量较少时,其估计的参数和性能较差。非参数分类方案通常建议直接从模式样本中学习分类规则,例如,学习决策边界的参数。
根据可用模式样本的正确分类是已知的,可以将学习过程分类为监督学习(或与教师学习)和非监督学习(或无教师学习)。 贝叶斯估计和随机逼近以及势函数法已经被提出用于类密度函数或决策边界的学习。 当学习是非监督的时候,混合密度函数可以由所有个体类密度函数和先验类概率形成。 无监督学习的每个类密度函数的参数可以被视为来自未分类模式样本的混合密度函数的参数的监督学习,随后是分解过程。 在一定的条件下,可以完成分解,各类参数的估计恢复。 一个相关的话题已经越来越多地被最近的学习所记住[26]。
当启动信息足够时,分类器可以对良好的性能进行决策。 在这种情况下,学习过程可以使用分类器自己的决定来执行; 也就是说,未分类模式样本现在由分类器本身进行分类。 这种非监督式学习被称为决策式学习。 当模式样本的分类不完全知道时,学习不完美teacherandlearningwithawitbabillyteachherherherlylycentlybeencentbbbbbbb [27],[64]。 监督和非监督学习模式的适当组合可以导致比使用单个学习模式的系统更低的成本[18],[23]。
基于聚类分析的分类被认为是一种非常有吸引力的方法,尤其是在不准确知道类别的情况下进行监督。已经提出了各种相似性和(确定性的)距离度量作为特征空间中样本聚类的标准[33,34]。针对聚类过程提出了层次策略和非层次策略。通常,一些聚类参数,如相似性测量和阈值,合并和/或分裂聚类的标准等,需要通过交互技术选择。它应该直接将特征选择的距离度量值与用于聚类分析的距离度量值相关[19],[135]。最近,提出了使用自适应距离的聚类算法[34]。在聚类过程中使用的相似性度量根据已经观察到的聚类的结构而变化。模态估计,最小二乘平方优化,图论和组合优化被用作聚类分析的理论基础[5],[20],[70],[80],[133]。 尽管如此,聚类分析仍然是以实验为导向的“艺术”。
备注:在特征选择和学习中获得的大部分结果都基于大量模式样本可用的假设,因此可准确估计所需的统计信息。 特征空间的维数与学习所需的模式样本的数量之间的关系一直是一个重要的研究课题。 在许多实际问题中,可能无法获得大量模式样本,而小样本分析的结果可能具有相当的误导性。 如此设计的识别系统通常会导致不可靠的性能。 在这种情况下,研究特征选择和学习的无限样本行为是非常重要的。 特征选择,学习和误差估计[48],[119]中的性能退化是由于仅有少量样本的可用性需要进行调查。
在一些实际应用中,特征的数量N和模式类别m的数量都非常大。 在这种情况下,使用基于决策树方案的多级识别系统将会有利。 在第一级,m类仅使用N1特征进行分类。 在这里,我选择了“m和N1”N以及所选的N1个特征是对这些i组进行分类的最佳特征。 在极端情况下,i = 2因此可以使用两级分类器,或N1 = 1,因此可以使用一维(阈值)分类器。 然后在第二和第三级等重复相同的程序,直到每个原始m类可以分开识别。 现在,在决定树中的每条路径之后,我们应该能够识别m个类中的每个类。
在不同的分类层次上适应性地选择较少数量的特征的想法似乎是非常有吸引力的应用。 这种树方案的优化设计可能在计算上相当复杂。 然而,最近有人提出了几种启发式设计技术[44,58,72] [134]。
2.句法(或结构)方法
一个句法模式识别系统的框图如图1所示。 将框图划分为识别部分和分析部分,其中识别部分由预处理,基元提取(包括基元和子模式之间的关系)以及语法(或结构)分析组成,分析部分包括基元 选择和语法,(或结构)推断。
在句法方法中,模式由用语法指定的语言中的句子表示。 提供模式结构描述的语言,就一组模式原语及其组合关系而言,有时称为“模式描述语言”。 管理原语组成模式的规则由这样指定“patterngrammar。” 一个模式的结构信息的另一种表示方法是使用一个“关系图”,其中的子表示子模式,而分支表示子模式之间的关系。
原始提取和选择:由于模式原语是模式的基本组成部分,可能它们很容易识别。 不幸的是,在某些实际应用中情况并非一定如此。 例如,笔画被认为是脚本手写的良好原始材料,连续语音的笔画也是如此; 然而,笔画和音素都不容易被机器提取出来。 脚本手写和连续语音的分割问题分别仍然是研究的主题。 最近报道了一种通过功能近似进行波形分割的方法[92]。 第三部分在细分方面讨论了图案模式的分割。
目前没有针对原始选择问题的通用解决方案。 对于边界或骨架描述的线条图案或图案,线段通常被建议为基元。 直线段可以通过其开始(尾部)和结束(头部)的位置,其长度和/或斜率来表征。 类似地,曲线段可以用头部和尾部及其曲率来描述。 表征基元的信息可以被认为是与视觉相关的语义信息或用作原始识别的特征。 通过结构描述和模式的语义描述,可以确定与其子模式相关的语义信息或模式本身。 对于区域模式描述,半平面已被提出为基元[91]。 形状和纹理测量通常用于描述区域; 请参阅属性下的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[21527],资料为PDF文档或Word文档,PDF文档可免费转换为Word