OCR错误对私有信息提取的影响外文翻译资料
2021-12-23 22:44:37
The Effects of OCR Error on the Extraction of Private Information
Kazem Taghva, Russell Beckley, and Jeffrey Coombs
Information Science Research Institute,
University of Nevada, Las Vegas taghva@isri.unlv.edu
Abstract. OCR error has been shown not to affect the average accuracy of text retrieval or text categorization. Recent studies however have indicated that information extraction is significantly degraded by OCR error. We experimented with information extraction software on two collections, one with OCR-ed documents and another with manuallycorrected versions of the former. We discovered a significant reduction in accuracy on the OCR text versus the corrected text. The majority of errors were attributable to zoning problems rather than OCR classification errors.
Introduction
Studies have shown that OCR error does not significantly degrade the average effectiveness of information retrieval or text categorization. Recent work suggests that the opposite is the case for information extraction.
In this paper, we offer more evidence for significant degradation in information extraction effectiveness on OCR text. In particular, we examine the performance of two information extractors on corrected and OCR text. We found significant degradation in performance for both extractors on noisy text. Unlike earlier studies, we found that the main source of the degradation was zoning errors in texts containing tabular information rather than classification errors.
In section 2 we describe the problems we attempted to solve using information extraction. Section 3 presents some background concerning experiments on text retrieval and text categorization on OCR text as well as previous experiments applying information extraction to OCR text. We describe our extractors in section 4 and our experiments in section 5. Section 6 reports the effectiveness of using a name-finding module in our extractors. Section 7 presents the results of our experiments. In section 8 we classify and quantify the types of OCR errors affecting the extractors.
Problem Description
In order to comply with the Freedom of Information Act (FOIA), documents in a U.S. government online repository must not contain private information such as a personrsquo;s date of birth or an employeersquo;s identification number [1].
H. Bunke and A.L. Spitz (Eds.): DAS 2006, LNCS 3872, pp. 348–357, 2006. c Springer-Verlag Berlin Heidelberg 2006
There are two ways to approach the identification and removal of such information. First, one can view this as a text categorization task. That is, one attempts to separate documents (or pages) into two categories, those likely to contain private information and those that do not. When the Information Science Research Institute (ISRI) originally began studying this problem, we took the text categorization approach.
One obvious difficulty with this type of solution is what one does with the document or page categorized as containing private information. The document or page as a whole could be removed from the online collection, but then any information therein which is not private is kept from public view. Such a result violates the spirit of the FOIA which strives to make federal agency records publicly accessible insofar as that information is not otherwise protected by law.
Alternately, the private information could be targeted more narrowly and only those items within a document or page that are private would be located and removed. For example, one could automatically redact information considered private by replacing likely private strings with the familiar black rectangles. The task of finding such strings of interest is usually called information extraction.
Information extraction (IE) is the automatic discovery of information classes in unstructured text. For our tasks, we wish to identify strings in the classes of birth dates and employee identification numbers. This definition of IE is essentially equivalent to the idea that it is the discovery of structured data in unstructured text since the placement of found items into classes such as “birth date” provide the structure [3,8]. The information discovered likely will be suitable for storage in a relational database, but this is not a necessary feature of IE.
Background
Categorization and extraction work at different levels. The categorization task requires in this case a binary decision of labeling a given document as containing privacy or not. On the other hand, the information extraction task consists of identifying all and only the instances of privacy information in a given document.
The differences between the two approaches raise an important question for the processing of OCR texts. ISRI has extensively studied the effectiveness of text retrieval on OCR versus clean text [15]. Our testing revealed that average precision and recall are not affected by OCR errors. A similar result was found for text categorization. Analyzing the application of the BOW [5] text categorizer on OCR text, ISRI determined that the accuracy of text categorization was not significantly affected by the presence of OCR errors, especially if typical dimensionality reduction techniques are applied [17,16].
In recent studies it has become apparent that the information extraction task differs from text retrieval and categorization in that performance is affected for the worse by OCR errors. Miller et al. [7] noted degradation in the accuracy of their Hidden Markov Model (HMM) information extraction system IdentiFinder. They printed copies of Wall Street Journal articles and then ran experiments on progressively degraded images of these with progressively higher word error rates. The system suffered a 0.6 point loss in F1-measure for each percentage point increase in wo
OCR错误对私有信息提取的影响
Kazem Taghva, Russell Beckley和Jeffrey Coombs
信息科学研究所
内华达大学拉斯维加斯分校taghva@isri.unlv.edu
摘要OCR错误已被证明不影响文本检索或文本分类的平均准确性。然而,最近的研究表明,OCR错误会显著降低信息提取的效率。我们在两个集合上用信息提取软件进行了实验,一个集合上有经人工修正的文档,另一个集合上有经过人工修正的文档。我们发现OCR文本的准确率比校正后的文本要低得多。大多数错误是由于分区问题造成的,而不是OCR分类错误。
介绍
研究表明,OCR错误不会显著降低信息检索或文本分类的平均效率。最近的研究表明,信息提取的情况正好相反。
在这篇文章中,我们提供了更多的证据表明,在OCR文本上的信息提取效率显著下降。特别地,我们检查了两个信息提取器在校正文本和OCR文本上的性能。我们发现这两种提取器在噪声文本上的性能都有显著下降。与之前的研究不同,我们发现造成这种退化的主要原因是包含表格信息的文本中的区域错误,而不是分类错误。
在第2节中,我们将描述使用信息提取试图解决的问题。第3节介绍了OCR文本检索和文本分类实验的背景,以及以往将信息提取应用于OCR文本的实验。我们在第4节中描述提取器,在第5节中描述实验。第6节报告了在提取器中使用名称查找模块的有效性。第7节给出了我们的实验结果。在第8节中,我们对影响提取器的OCR错误类型进行了分类和量化。
问题描述
为了遵守《信息自由法》(Freedom of Information Act, FOIA),美国政府在线存储库中的文件不得包含个人出生日期或员工身份证号[1]等私人信息。
施培智(编):《经济学人》2006,LNCS 3872, pp. 348-357, 2006。c斯普林格-弗拉格柏林海德堡2006
有两种方法可以识别和删除这些信息。首先,可以将其视为文本分类任务。也就是说,尝试将文档(或页面)分成两类,一类可能包含私有信息,另一类不包含。当信息科学研究所(ISRI)最初开始研究这个问题时,我们采用了文本分类的方法。
这种类型的解决方案的一个明显的困难是如何处理分类为包含私有信息的文档或页面。文档或页面作为一个整体可以从在线收集中删除,但是其中的任何非私有信息都不会公开。这样的结果违反了《信息自由法》的精神,该法力求使联邦机构的记录在不受法律保护的情况下向公众公开。
或者,可以将私有信息定位得更窄,只定位和删除文档或页面中的私有项。例如,可以通过使用熟悉的黑色矩形替换可能的私有字符串来自动编校私有信息。找到这些感兴趣的字符串的任务通常称为信息提取。
信息提取(Information extraction,即)是在非结构化文本中自动发现信息类。对于我们的任务,我们希望在出生日期和员工标识号类中标识字符串。IE的这一定义本质上等价于在非结构化文本中发现结构化数据的想法,因为将发现的项放置到诸如“出生日期”这样的类中提供了结构[3,8]。发现的信息可能适合存储在关系数据库中,但这不是IE的必要特性。
背景
分类和提取工作在不同的层次。在这种情况下,分类任务需要一个二元决策,即将给定的文档标记为是否包含隐私。另一方面,信息提取任务包括标识给定文档中所有且仅包含隐私信息的实例。
这两种方法的不同,对OCR文本的处理提出了一个重要的问题。ISRI广泛研究了文本检索在OCR和纯文本[15]中的有效性。我们的测试显示,平均精度和召回不受OCR错误的影响。在文本分类中也发现了类似的结果。ISRI通过分析BOW[5]文本分类器在OCR文本上的应用,发现OCR错误的存在并不会显著影响文本分类的准确性,尤其是采用典型的降维技术时[17,16]。
近年来的研究表明,信息提取任务不同于文本检索和分类,其性能受到OCR错误的影响。Miller等人指出,他们的隐马尔可夫模型(HMM)信息提取系统标识器的准确性下降。他们打印了《华尔街日报》文章的副本,然后对这些文章的图像进行了逐步退化的实验,这些图像的错误率越来越高。在f1测试中,每增加一个百分点的单词错误,系统就会损失0.6个百分点。我们在将地址提取HMM应用于噪声文本[14]时遇到了类似的困难。
Jing等人解决了汇总包含OCR错误的文档的相关问题。在总结过程的每一步中,它们都报告性能下降。由于句子标记器不能正确识别句子边界而导致的错误。语法分析器未能为生成的句子标记创建正确的解析树。语句缩减操作未能删除冗余信息,未能正确组合共享共引用的语句。
本文为OCR误差降低IE系统精度的结论提供了更多的支持。具体来说,我们查看两个提取任务,并测试两个提取程序在OCR和纠正的文本版本的数据上的性能。当运行在OCR文本上而不是正确的文本上时,这两个程序都显示出显著的性能下降。然而,由分类错误引起的单词错误并不是我们的系统降级的主要原因。与Miller等人测试的从单一来源收集报纸文章的做法不同,我们收集的政府文件不是同质的。我们的集合包含在表中显示私有信息的文档和表单。这些数据在通过OCR系统中的分区算法后,有时会以某种方式进行转换,这给我们这样的IE系统带来了困难,因为我们的IE系统使用邻近信息来识别项目。
系统描述
ISRI构造了两个信息提取器来识别两种类型的私有信息。我们正在寻找(1)出生日期和(2)出现在能源部收集的文件中的员工身份证号。
这些任务中使用的提取器查找文档中特性之间的关系。要检测特定类型的私有信息,识别经常出现在该特定类型附近的其他类型的实体是很有用的。在某些情况下,要考虑私有信息,不同类型的数据之间必须存在关系。例如,单独的日期不是私有信息。如果使用诸如出生日期之类的标识符将其标识为生日,那么它也不会成为私有的。日期只有在与某人正确关联时才成为私有信息。John Dough #39;s date is 5/17/55是私有的,但是短语someone #39;s birthdate is 5/17/55则不是,除非上下文隐含了某人的指代。
在某些情况下,像社会安全号码这样的独立项目是私有的。但是,关系信息仍然对它们的标识有用,因为字符串的格式本身不能保证它是一个社会保险号。人和机器一样,不能在文本中识别社会保险号,除非上下文提供了一些证据。这对于机器来说是幸运的,因为在理想情况下,它要求人工作者为识别上下文中的项目提供线索,而这些内容又可以被机器使用。
为每个提取器定义了一组文本特性,例如模式可识别为正则表达式。通常,这些特性的一个子集充当锚集。首先找到锚特性的出现,然后围绕它们定义上下文或“窗口”。然后搜索此上下文以查找其他特性。所有这些特征都为识别(或缺少)目标信息类型提供了证据。
对于这两个提取任务,锚集的性质是不同的。生日提取器锚点是关键字和短语,如生日和生日。在员工识别号提取器中,锚点是识别号的模式。
我们将在4.1和4.2节中分别详细描述每个提取器。
生日萃取器
出生日期提取器的功能如下。首先,它试图找到一个锚模式,在这种情况下是一个关键词模式,如出生,出生日期,出生日期,等等。当一个锚模式被识别时,程序在一个预定义大小的窗口中搜索匹配一组日期模式的字符串。
虽然没有名字的生日不被认为是私人信息,但是搜索名字被认为是不切实际的。首先,尽管我们要求此人的名字出现在上下文中,但实际上并不需要标识这个名字。此外,实验(其他地方报道的[11])表明,名称查找算法不能提高这项任务的准确性。此外,生日短语与日期的共现几乎总是与文本中的名称相关,也就是说,其他特征的存在允许我们以可接受的准确性假设名称的存在。
员工身份证号提取器
员工识别号提取器使用贝叶斯概率结合多个文本特征提供的证据。在实践中,这相当于与在上下文中找到的特征相关的点的总和,每个出现点根据其位置进行加权。
对于每个特征f,我们分别使用正样本和负样本训练两个值:a)员工编号上下文中f出现的频率(频率(f|eid)), b)任何员工编号之外f出现的频率
上下文(频率(f |宰牲节))。频率的值定义为
(1)
锚点特征集由匹配员工标识号的模式组成,例如“11987”。非锚点特性包括单词employee、identity、number及其许多缩写。还包括不同雇主的名字。此外,当某些特征被连续发现时,例如员工身份,这种并置被认为是一个额外的特征,提供了进一步的证据和更多的点。
接下来将该特性集划分为子集或“组”,以便如果x、y在组中并且x提供证据,则y不提供证据。例如,如果employee和emp出现在候选上下文中,则只计算得分最高的事件。
该算法首先寻找锚点特征f的出现a,然后围绕f建立上下文a。变量检验和的设置如下:
(2)
然后在上下文中搜索所有其他已定义的特性。对于上下文中出现的每一个f,我们找到文本距离d到f的距离a。我们使用泊松分布来估计f在d字节内出现一次的概率a。此概率由上下文频率(频率(f|eid))和决定
对于上下文外的频率(频率(f|eid)),发生的分数是两个概率商的对数。在给定的上下文中,当且仅当某个事件是该上下文中其组的特征中得分最高的事件时,该事件才算数:
对于给定的候选上下文,如果测试和超过一个确定的阈值,该算法返回匹配锚模式的文本。泊松概率p定义为:
)(3)
lambda;是出现在一个窗口的平均数[6]。在我们的例子中,y总是等于1。
与生日提取器一样,我们使用名称查找工具测试了员工id提取器的一个版本。如果标识了个人姓名,则此事实增加了锚匹配为员工标识号的概率。这些测试的结果将在第6节中讨论。
实验
为了测试提取程序的有效性,我们构建了四个文档集合。用于这些收集的文件包括正在考虑纳入在线存储库的能源部文件。包括报告、电子邮件、表格和技术文件。
对于我们的出生日期查找器,我们构建了两个集合,一个包含745个文档,另一个包含1076个文档。在第一个文件中,40个文件中至少有一个出生日期,705个文件中没有出生日期。在1076份文件中,76份至少有一个生日,1000份没有。它们分别表示为dob-745和dob-1076。
为了测试员工标识号提取器,我们再次创建了两个文档集合。第一个文档包含579个文档,其中97个文档包含至少一个员工id, 482个文档不包含。第二个集合包含617个文档,95个文档中出现了员工id, 522个文档中没有。这两个集合称为帝国-579和帝国-617。
对于这四个集合中的每个集合,都手工准备了包含隐私信息的文档的更正版本。然后,专家们使用ISRI的MetaMarker工具[13]对隐私项进行标记。这种标记使我们能够逐项评估提取器,从而更适合信息提取任务。
我们使用召回、精确度和F1的标准度量来评估结果,但有两种方法。首先,我们根据每个文档计算这些度量。在这个级别上,我们的程序作为文档分类器的有效性是确定的。也就是说,我们可以测试程序在回答以下问题时的有效性,即哪个文档至少包含给定类型的私有信息的一个示例?
其次,我们还评估我们的程序如何识别给定隐私类型的特定实例。因此,我们可以确定我们的程序识别给定类型的所有和仅那些实例的能力。
精确度、召回率和F1的标准定义如下所示。在每种情况下,公式都可以解释为一方面引用文档,另一方面引用隐私字符串的特定出现。
按程序定位的隐私项的数量 回忆= 隐私项的总数 |
(4) |
按程序定位的隐私项的数量 精度= 按程序定位的项目总数 |
(5) |
2(精密times;召回) F1 = 。 |
(6) |
(精度 召回)
名字找到
ISRI名称查找算法使用一个隐马尔可夫模型(HMM),其状态由各种名称格式组成,如“名姓”、“姓、名”(后者是模式的一部分),等等[10]。每个输入项被标识为具有各种特性。包含了几个知识库来确定这些特性,例如常见姓氏列表、男性和女性的姓氏列表、常见“非名称”单词列表以及常见的头衔(包括Mr.、Mrs.等)。名单来自1990年人口普查名单[2]。确定的另一个特性是单词的大小写模式。
我们发现,包含个人姓名提取模块无助于生日提取器[11]的性能。我们对员工身份证号提取器的测试产生了一些混合的结果。图1比较
清洁 |
光学字符识别 |
||||||
集合 |
回忆 |
精度 |
F1 |
回忆 |
精度 |
F1 |
∆F1 |
名称为帝国-579的文件 |
0.970 资料编号:[3760] |