体检报告解读与识别系统外文翻译资料
2022-12-28 16:56:43
本科生毕业设计(论文)外文资料译文
( 2021届)
论文题目 |
体检报告解读与识别系统 |
外文资料译文规范说明
一、译文文本要求 1.外文译文不少于3000汉字; 2.外文译文本文格式参照论文正文规范(标题、字体、字号、图表、原文信息等); 3.外文原文资料信息列文末,对应于论文正文的参考文献部分,标题用“外文原文资料信息”,内容包括: 1)外文原文作者; 2)书名或论文题目; 3)外文原文来源: □出版社或刊物名称、出版时间或刊号、译文部分所在页码 □网页地址 二、外文原文资料(电子文本或数字化后的图片): 1.外文原文不少于10000印刷字符(图表等除外); 2.外文原文若是纸质的请数字化(图片)后粘贴于译文后的原文资料处,但装订时请用纸质原文复印件附于译文后。 |
指导教师意见: 指导教师签名: 年 月 日 |
一、外文资料译文:
无监督特征学习的场景图像文本检测与字符识别
关键词:字符识别,特征学习,照片OCR
摘要—从照片中读取文本是一个具有挑战性的问题,受到了极大的关注。大多数系统的两个关键组成部分分别是图像中检测文本和字符识别,并且已经提出了许多最新方法来为两者设计更好的特征表示和模型。在本文中,我们应用了机器学习中最新发展的方法,特别是从未标记的数据中自动学习特征的大规模算法,并证明这些方法允许我们构建高效的分类器,用于高精度的端到端系统中的检测和识别。
1 介绍
场景图像中文本的检测和字符的识别是一个具有挑战性的视觉识别问题。与计算机视觉的许多领域一样,这些图像的复杂性所带来的挑战已经被“人造”特征和模型所克服,这些特征和模型包含了各种高级的先验知识。在本文中,我们从一个试图直接从数据中学习必要特征的系统中获得结果,作为使用专门构建的文本特定特征或模型的替代方法。在我们的结果中,在icdar2003字符识别数据集上取得了最好的性能。
与更经典的OCR问题(字符在固定背景下通常是单调的)相比,场景图像中的字符识别可能要复杂得多,因为背景、光照、纹理和字体有许多可能的变化。因此,为这些场景构建完整的系统需要我们发现能够解释所有这些类型变化的表示。事实上,开发这样的系统已经付出了巨大的努力,表现最好的系统集成了几十个巧妙组合的特性和处理阶段。然而,最近在机器学习方面的工作,一直在寻求创造一种算法,可以自动地为许多任务学习更高级的数据表示。在需要特殊功能但不容易手工创建的情况下,这种系统可能特别有价值。这些方法的另一个潜在优势是,我们可以轻松地生成大量的特征,使分类算法能够获得更高的性能。在本文中,我们将应用一个这样的特征学习系统来确定这些算法在场景文本检测和字符识别中的有用程度。
特征学习算法在其他领域取得了一系列成功(例如,在视觉识别[6]和音频识别方面取得了高性能)。不过需要说明的是,这些系统往往计算成本太高,特别是在应用于大型图像的时候。为了将这些算法应用到场景文本中,我们将使用一个更具伸缩性的特征学习系统。具体地说,我们使用K-means聚类的变体来训练一组特征,类似于[8]中的系统。有了这个工具,当我们增加学习特征的数量时,我们将产生结果来显示对识别性能的影响。我们的结果表明,只需从数据中学习许多特征就可以做得很好。我们的方法与许多先前在场景文本应用程序中的工作形成了对比,因为这里使用的所有特性都不是为当前的应用程序明确构建的。事实上,该系统严格遵循[8]中提出的方案。
本文组织如下。在第二节中,我们将首先介绍场景文本识别的一些相关工作,以及机器学习和视觉结果,这些结果为我们提供了基本的方法。然后我们将在第三节中描述我们实验中使用的学习架构,并在第四节中展示我们的实验结果,然后给出我们的结论。
2准备工作
场景文本识别已经引起了许多领域的研究兴趣。虽然现在可以在诸如受控设置下的数字识别等任务上获得极高的性能[9],但在复杂场景中检测和标记字符的任务仍然是一个活跃的研究课题。然而,许多用于场景文本检测和字符识别的方法都是基于针对新任务的精心设计的系统。例如,对于文本检测,解决方案从简单的现成分类器到结合许多不同算法的多阶段流水线[10]到基于手工编码特征的训练[11]、[5]。常见特征包括边缘特征、纹理描述符和形状上下文[1]。同时,各种形式的概率模型也被应用到了[4]、[12]、[13],将多种形式的先验知识融合到检测识别系统中。
场景文本识别已经引起了许多研究领域的极大兴趣。例如,多层神经网络结构已经应用于字符识别,并且与其他领先的方法相比具有竞争力[14]。这反映了这种方法在更传统的文档和手写文本识别系统中的成功[15]。实际上,我们系统中使用的方法与卷积神经网络有关。主要的区别是这里使用的训练方法是无监督的,并且使用了一个更可伸缩的训练算法,可以快速训练许多特征。
一般的特征学习方法是当前许多研究的重点,特别是应用于计算机视觉问题。因此,现在可以使用各种各样的算法从未标记的数据中学习特征[16]、[17]、[18]、[19]、[20]。通过特征学习系统获得的许多结果也表明,通过更大规模的表示可以获得更高的识别性能,例如可以由可伸缩的特征学习系统生成。例如,Van Gemert等人[21]指出,随着低层特征数量的增加,性能也会增长,而Li等人[22]也为高层次特征(如对象和部件)提供了类似现象的证据。在这项工作中,我们专注于训练低级特征,但是更复杂的特征学习方法能够学习更高层次的结构,这些结构可能更有效[23]、[7]、[17]、[6]。
3认知结构
我们现在描述了用于学习特征表示和训练用于我们的检测和字符识别系统的分类器的体系结构。基本设置与卷积神经网络密切相关[15],但由于其训练方法可用于以最小调整快速构造非常大的特征集。我们的系统分几个阶段进行:
(1) 将无监督的特征学习算法应用于从训练数据中获取的一组图像块,学习一组图像特征。
(2) 在训练图像上卷积评估特征。使用空间池减少特征的数量[15]。
(3) 训练一个用于文本检测或字符识别的线性分类器。
现在我们将更详细地描述每个阶段。
A、 特征学习
该系统的关键部分是应用无监督学习算法来生成用于分类的特征。许多无监督学习算法可供选择,如自动编码器[19]、RBMs[16]和稀疏编码[24]。然而,在这里,我们使用了一种K-均值聚类的变体,它可以产生与其他方法相比较的结果,同时也更加简单和快速。
与许多特征学习方案一样,我们的系统通过应用一个共同的配方来工作:
(1)从训练数据中收集一组小像素块,从中获取 ,我们使用8x8个灰度块,所以 isin;R64。
(2)对输入的像素块应用简单的统计预处理(例如,白化)以生成新的数据集。
(3)在上运行一个无监督学习算法,以建立从输入面片到特征向量的映射,=f()。
我们采用的特殊系统与[8]中的系统类似。首先,在给定一组训练图像的情况下,提取一组8times;8的像素块,得到像素isin;R64,iisin;{1,hellip;,m}的向量。每个矢量都是亮度和对比度标准化的。然后我们用ZCA3增白[25]使变白,得到。
考虑到这个白色的输入向量库,我们现在准备习一组可以在这些先像素块上评估的特性。对于无监督学习阶段,我们使用了K-均值聚类的变体。K-means可以修改,从而得到一个Disin;R64times;d的归一化基向量字典。具体地说,我们不是基于欧几里德距离学习“质心”,而是学习一组归一化向量D(j),jisin;{1,hellip;,d}来形成D的列,用内积作为相似度量。
(1)
(2)
(3)
也就是说,我们解决其中是输入示例,是示例的对应“one hot”编码的四次方。与Kmeans一样,优化是通过D和上的交替最小化来完成的。这里,对于给定D 的其中,并设置为所有其他的j ne; k。然后,在保持所有不变的情况下,很容易求解D(以每列的闭合形式),然后重新规范化列。
图1 字典元素的一小部分,从icdar2003数据集中提取的8times;8像素灰度图像块中学习。
图1所示为一组字典元素(D列),当应用于从字符的小图像中提取的白色斑块时,由该算法产生。尽管我们使用的方法非常简单和快速,但这些方法明显类似于其他算法(例如[24]、[25]、[16])学习的滤波器。注意,特征是专门针对数据的一些元素对应于短而弯曲的笔划,而不是简单的边缘。
一旦我们有了经过训练的字典D,我们就可以为一个新的8times;8相素块定义特征表示。给定一个新的输入像素块,我们首先应用上述的归一化和白化变换得到,然后通过取每个字典元素(D列)的内积并应用标量非线性函数将其映射到新的表示zisin;Rd。在这项工作中,我们使用了以下映射,我们发现它在其他应用中也很有效:z=max{0,| Dx |minus;alpha;},其中alpha;是要选择的超参数(通常使用alpha;=5)。
B、 特征提取
我们的检测器和字符分类器都考虑32times;32像素的图像。为了计算32times;32图像的特征表示,我们对输入的每个8times;8子块计算上述表示,得到一个25times;25times;d的表示。形式上,我们将isin;Rd表示输入图像中位于i,j位置的8times;8面片。在这一阶段,需要在分类之前先降低表征的维数。一种常见的方法是使用空间池[26],在这里我们将一个特性在多个位置的响应组合成一个单一的特性。在我们的系统中,我们使用平均池:我们将图像上的9个块上的向量相加成一个3times;3的网格,得到这幅图像的最终特征向量和9d特征。
C、 文本检测训练
对于文本检测,我们训练了一个二进制分类器,该分类器旨在区分32times;32像素包含文本的窗口和不包含文本的窗口。我们为这个分类器建立了一个训练集通过从icdar2003训练数据集中提取32times;32窗口,使用单词边界框来确定窗口是文本还是非文本。通过这个过程,我们获得了60000个32times;32的窗口用于培训(30000个正窗口,30000个负窗口)。然后使用上述特征提取方法将每个图像转换为一个9d维特征向量。然后利用这些特征向量和从边界框中获取的背景真值“文本”和“非文本”标签来训练线性支持向量机。我们稍后将使用我们的特征抽取器和经过训练的分类器以通常的“滑动窗口”方式进行检测。
D、 字符分类器训练
对于字符分类,我们还使用了一个32times;32像素的固定大小的输入图像,并将其应用于一组标记的火车和测试数据集中的字符图像
然而,由于我们可以使用上述的特征学习方法产生大量的特征,因此当从当前使用的(相对)较小的字符数据集进行训练时,过度拟合成为一个严重的问题。为了帮助缓解这个问题,我们合并了来自多个来源的数据。特别是,我们从ICDAR 2003训练图像[27]、Weinman等人的符号读取数据集[4]和Chars74k数据集的英文子集[1]中编译了我们的训练数据。我们的组合训练集包含大约12400个标记字符图像。
(a) 扭曲的ICDAR示例 (b)合成示例
图2.增强训练示例
对于大量的特性,拥有更多的数据是很有用的。为了满足这些需求,我们还对这些数据集进行了合成扩充。特别是,我们添加了合成示例,这些示例是应用随机扭曲和图像过滤器的ICDAR训练样本的副本(参见图2(a),以及与随机场景图像混合的渲染角色的人工示例(图2(b))。包括这些例子,我们的数据集总共包含49200幅图像。
四、 实验
现在,我们展示了用上述系统实现的实验结果,展示了能够训练越来越多特征的影响。具体地说,对于检测和字符识别,我们使用越来越多的学习特征训练我们的分类器,并在每种情况下评估icdar2003文本检测和字符识别测试集的结果。
A、 检测
为了在一个大的输入图像上评估我
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[269739],资料为PDF文档或Word文档,PDF文档可免费转换为Word