基于图像处理的图书索书号识别算法研究文献综述

2020-03-27 11:25:48

文献综述

1.课题背景和意义

索书号是图书馆赋予每一种馆藏图书的号码，这种号码具有一定结构并带有特定的意义。在馆藏系中，每本书的索书号是唯一的，可准确地确定馆藏图书在书架上的排列位置，它是读者查找图书必要的代码信息。索书号通常是根据中国图书资料分类法编排的[1]#8212;#8212;简称《中图法》。《中图法》采用拉丁字母和阿拉伯数字相结合的混合标记符号。根据图书的学科主题，以拉丁字母标记并顺序展列出22个基本大类，其中没有L、M和Y开头的#8212;#8212;参考附录1中图法简表。由于”T工业技术”的大类范围广泛、内容繁多，故又在该类基础上采用双位拉丁字母标记出16个二级类目，如TK、TL、TM和TN等。字母之后再用阿拉伯数字对大类进行细分。

2.索书号识别系统及课题研究对象

索书号识别系统结构主要由四个部分组成：摄像系统，图像处理系统信息辅助系统和摄像系统的载体。其中图像处理系统由计算机组成，也是本课题研究的主要内容，其主要负责识别图像中的索书号，拍摄的图像先经过索书号定位处理，在图像中找到索书号。然后二值化将图像分为字符和背景，从图像中提取出索书号字符，切分成单个字符后利用OCR文字识别技术识别出每一个字符。最后，识别结果组合成文本形式的索书号。

图书索书号自动识别隶属于图像识别领域中文字图像识别的范畴，研究的范围涵盖了文字图像处理理论，如边缘检测、二值化等理论和文字识别理论。本课题将文字图像中的数字图像中的字符类作为研究对象。

3.图书索书号算法研究的一般方法有以下几种

3.1图像中的文字定位和分割技术

目前，文字分割的方法主要是基于连通域和基T纹理的分割方法。基于连通域的方法一般由以下四个处理步骤组成：(1)预处理，例如颜色景类或者灰度二值化；(2)生成连通域；(3）基于文字形状特征的连通域滤波；(4)采用区域生长方法逐步合并合理连通域．形成文字区域。该方法具有分析、计算简单，容易实现的特点，因此应用较广。基于纹理的文字分割方法认为文字区域具有一种特殊的纹理特征．利用Gabor滤波器，小波变换以及傅立叶变换等方法提取文字纹理，分割文字区域。此类图像分割方法引自薛景浩，章毓晋，林行刚．等．基于特征散布的图像FCM聚类分割[J].模式识别与人工智能。1998，11（4）：462-467

另外根据张忻中.的汉字识别技术的研究可以得知，从字符图像的背景来分析切割路径，对已经分裂的粘连字符图像，求得其背景图像并进行细化处理。在背景细化图像上，沿分裂点对应的位置分别向上和向下寻找切割路径，放弃一些又枝，直至到达细化图像的最外圈，即得到一条理想的切害U路径。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码