当前位置：文档之家› 基于matlab的数字识别系统设计

基于matlab的数字识别系统设计

数字识别系统

1.绪论

1.1研究背景

1.1.1索书号的简介

索书号是图书馆赋予每一种馆藏图书的号码，这种号码具有一定结构并带有特定的意义。在馆藏系中，每种书的索书号是唯一的，可准确地确定馆藏图书在书架上的排列位置，它是读者查找图书必要的代码信息。

索书号通常是根据中国图书资料分类法编排的【1】——简称《中图法》。《中图法》采拉丁字母

和阿拉伯数字相结合的混合标记符号。根据图书的学科主题，以拉丁字母标记并顺序展列出22个基本大类，其中没有L、M和Y开头的——参考附录1中图法简表。由于“T工业技术”的大类范围广泛、内容繁多，故又在该类基础上采用双位拉丁字母标记出16个二级类目，如TK、TL、TM和TN等。字母之后再用阿拉伯数字对大类进行细分。如B表示哲学、宗教一大类；B020则表示宗教理论。有的图书馆如清华大学还在图书分类号码后添加按照图书作者姓名所编排的著者号码，或者是按照图书进馆时间的先后所取用的顺序号码。

不同索书号确定排列先后顺序的步骤是，先比较分类号码：如分类号码相同再比较著者号码或顺序号码。最后按照字母表和数字大小的顺序排列。

1.1.2书库中图书查找存在的问题

随着电子计算机和网络技术的发展，现代图书馆都已经广泛建立电子数据库图书管理系统，方便用户查找、阅览书籍。读者借图书的流程如图2所示，一般利用书目查询系统，根据图书的

书名，出版社，作者以及书的内容等在电子数据库中检索自己需要的图书，记录图书相关信息。

最后，根据图书的索书号，快速方便地在书库中找到相应的图书。但是，经常会遇到下列问题：电子数据库系统显示图书状态为“归还”，利用检索到号，却无法在书库找到此书。出现这种情况主要有两个原因：(1)图书错位放置，即图书在书库中摆放的位置与索书号不一致。(2)图书已经丢失，即虽然电子数据库中显示图书状态为“归还”，但实质图书已经丢失，并不在书库中。随着图书馆藏书数目的不断增加，每天借阅的人数增多，而且有的图书馆发展成拥有几个分馆，上述问题越来越严重。这一方面严重降低了图书馆的资源的利用率；另一方面，浪费了读者的时间，造成了很大麻烦。

目前，图书馆主要通过定期的人工检查发现书库中错位和丢失的图书。但是，由丁馆藏图书多达上万，甚至几十万，而且每天又都有大量图书的借出和还入，人工检查工作量很大，单调、

重复的工作容易使工作员疲劳，检查速度比较慢，无法满足实际的需要。因此，迫切希望开发索书号自动识别系统，实现对书库中图书放置位置的自动检查，并通过索书号识别结果与电子数据库中图书信息的比较，找出已经丢失的图书。确保电子数据库中的图书状态与书库中的一致，以及书库中的图书准确排放，从而有效解决上述“用索书号找不到图书”的问题。

1.2．索书号自动识别系统

近年来，随着电子计算机技术、图像处理技术和摄像技术的迅速发展，图像中的文字信息提

取系统已经成功地应用于各个领域。因此，借助其经验，本文研究采用图像处理和识别技术

实现索书号的自动识别。

1.2.1索书号自动识别系统概述

系统的硬件由彩色CCD摄像头，8位图像采集卡和计算机组成，拍摄的图像为8位RGB彩色

数字图像。如图1-1所示

1.2.2 索书号识别存在的问题及关键技术

索书号识别所涉及的摄像技术，无线通讯技术，电子数据库图书管理技术，AGV自动导引技术和图像处理技术都已经在其他领域有成功应用的实例。图像处理技术是索书号识别的核心技术，而与相类似的应用相比，索书号图像处理与识别又有其自身显著的特点和难点。

图书馆收集了近几十年的藏书，不同时代的索书号编写风格大不相同。本论文选取图书馆的主要类别图书——印刷体索书号，从图书馆的书架上随即抽取样本进行研究。如图7所示，CCD 摄像头拍摄的索书号图像，由于光照不均匀、退色、污迹、噪声以及其他非索书号文字的存在，大大增加了索书号识别的困难。为了能够解决上述问题，索书号图像识别主要由以下4个模块组

成：索书号定位，索书号提取，索书号字符切分和索书号单字识别。

第一阶段：索书号定位是在图像中找到包含索书号的图像区域，要求该区域尽可能包含完整的索书号，同时尽量排除非索书号的图像区域。由于该阶段是解决索书号的区域查找问题，而没

有涉及单字切分，因此图像区域的估计允许有一定误差。为了包含完整的索书号以及避免索书号

漏检，往往是定位得到的图像区域略大于索书号的真实区域。索书号定位主要存在两个问题：(1)受不均匀光照和褪色的影响，索书号的纹理特征、颜色特征以及形状特征等有较大的变化，可靠性相对较差；(2)有的索书号由1个字符串组成，有的索陆号由2个字符串组成，而在索书号的周围附近还会存在其他文字，如出版社名称和作者姓名。因此，将索书号与其他文字相区别比较困难。

第二阶段：索书号提取是在定位得到的索书号区域中，将索书号字符与周围目标和背景相

互分离。通过二值化处理，能将字符与背最相互分离。但由于定位得到的图像区域略大于真实索

书号区域，二值化后在索书号字符附近可能会存在一些非字符目标，影响后续的单字切分和识别。所以，二值化后采用连通域滤波进一步消除索书号周围的非字符目标。索书号提取主要存在的问题：(1)不均匀光照增大了索书号图像的灰度值变化范围。(2)褪色程度的不同则降低了字符与背景的对比度。(3)污迹的影响。上述因素的存在不仅使得确定二值化过程中合理的阈值非常困难，而且会改变索书号字符的形状特征，最终影响连通域滤波的性能。

第三阶段：索书号字符切分是将索书号字符串切分成一个个字符，以提供给识别算法进行识别。单字切分的结果如何将直接影响识别结果，而且切分好坏除字符能否正确识别之外，没有较

好的判别依据。因此，单字切分往往与字符识别紧密结合在一起。

索书号的单字切分可以分为两种情况：非粘连单字切分和粘连字符的单字切分。非粘连单字

切分比价容易解决。但质量较差索书号图像二值化处理后，相邻字符可能会发生粘连。而粘连索

书号切分存在的主要问题是(1)粘连字符的切分比较困难：(2)索书号字符发生粘连有一部分是字符的笔画发生变形所致，如笔划宽度变粗等。即使正确的切分也不一定能够完全修正笔画的变形，

即无法通过粘连切分恢复字符的原形。

第四阶段：索书号单字识别。印刷体单字识别的研究已经相当成熟，只是与其他应用领域的文字识别相比，索书号文字的质量较差，存在字符不均匀褪色，笔划残缺以及大面积污迹等问题，

2索书号文字图像分割

复杂背景图像中的文字定位和分割是从图像中获取文字信息的关键步骤，直接影响到后续文字识别的准确性，它在机器人视觉．汽车牌照自动识别，计算机文本自动输入，邮件地址自动识别，集装箱编号自动识别以及视频图像内容的检索等系统中都有广泛的应用。CCD拍摄的图书索书号图像如图2-1所示.图像中除了索书号还包含尤其他文字，红色条形框还包含有其他文字，红色条形框以及装饰景物等，为了能够正确识别该书的索书号，首先必须从图像中正确分割出索书号图像。

图2-1 图书索书号图像

但是，从图像尤其场景图像中自动定位和分割文字是比较困难的，其主要原因有以下几个方面：第一，文字嵌入在图像中，并与其它图形共存，如边框，商标，装饰物以及污点等；第二，由于文字颜色退化，文字颜色不均匀，热切背景颜色有食欲吻脖子颜色差异很小；第三，文字尺寸大小变化；第四，关照条件无法控制，广州不均匀；第五，索书号文字与其他文字。

本课题利用基于边缘点数量统计的文字图像分割方法。根据图书馆索书号的制定规则，索书号文字图像具有如下特征：第一，索书号文字采用黑色应刷；第二，索书号文字的数量至少为3个；

第三，索书号字符水平排列；第四，索书号贴在书脊的下半部分。它的算法流程如图2-2所示，实验结果证明，该方法具有定位精度高，准确率高，抗噪能力强，并在“索书号自动识别系统”中取得理想效果。

图2-2 索书号图像分割算法流程

2.1 HSI彩色空间转换

摄像头拍摄的彩色图片的像素点通常是采用24位RGB表示。但R，G和B3分量之间有很高

的相关性，直接利用这些分量常常不嫩得到所需的分割效果。比较接近人堆颜色视觉感知的是色度，饱和度和亮度空间。其中I表示颜色的敏感程度，H表示不同的颜色，S表示颜色的深浅，I分量与彩色信息无关，H和S与人感受彩色的方式紧密相连。

本算法中，只对边缘点进行财社分割，切自用S分量。英雌，问了减少算法的耗时，首先子转换I分量，如图2-3所示，待边缘检测出来后，再堆边缘点进行S分量计算。转换关系如下：I=(R+G+B)/3 (2-1)

S=1-3/(R+G+B)*[min(R,G,B)] (2-2)

图2-2 HSI彩色空间的I分量图

2.2 Canny算子检测

Canny算子边缘检测先计算X和Y方向的梯度平方和，局部最大的梯度幅值局部变化最大的点的过程叫非极大值抑制。Canny算子边缘检测有如下3个指标：第一，对每个边缘点有唯一的响应，得到的边缘为单像素狂；第二，错误率最低，即要少将真正的边缘点丢失也要少将非边缘点判为边缘点；第三，高位置精度，检测的边缘应在正真的边界上。为此，Canny像影帝定义了3给准函数衣表达上述指标的约束：a，信噪比函数准则；b，定位精度准这函数；c，单边缘响应准这函数。这三个准则相结合可以检测的最佳的边缘。

Canny算子中有3个参数，σ是高斯函数闻不得参数，他控制平滑程度：高阈值（TG）和低阈值（TL)。实验中σ设置为1，TL=0.4*TG。这样在Canny算子中只保留了一个参数高阈值（TG)。实际应用中，TG取值只需要满足两个条件：第一，确保尽可能地检测出索书号文字的边缘点，这粗限定了TG取值的最高上限；第二，确保加边缘尽可能少，这限定了TG取值的下限。由于文字和背

景具有较强的对比度，TG 取值有一个较大的范围，实验中TG=0.2。如图2-4所示，即实验中的Canny 算子边缘检测结果。

图2-3 Canny 算子检测的边缘

2.3索书号边缘点彩色分割文字图像有一些独特的特征，文字图像的解构比较复杂，边缘像素点比较多，切分布比较集中。受光照条件和文字颜色退化程度不同的影响，文字部分特征如对比度，亮度等容易搜到干扰，但是文字的边缘分布规律且有较强的干扰性能。Canny 算子检测等到的边缘点在HSI 彩色空间S 分量上精心索书号文字边缘点的分割。由于索书号文字采用黑色应刷，但发生不同程度的退色，继黑岩色的饱和度S 有一定的变化，故

BW_Word(i,j)=?

??01 S1≤S ≤s2 and BW(i,j)=1 （2-3）式中， BW(i,j)是Canny 算子检测的边缘，BW_Word(i,j)是文字的边缘点，S1和S2表示索书号文字S 分量对应的范围。实验中，去S1=0,S2=0.05。经边缘点S 分量分割后的图像如图2-5所示，图中的边缘点为主要的文字边缘点。

图2-5 分割出的索书号图像

2.4文字图像行区域检测

由于文字图像中解构相对比较复杂，其边缘点数量也就比较多，分布比较集中。因此文字图像区域中行统计平均的边缘点数量比非文字图像区域中的多，则：

N y0（word）>N y0 (non-word) (2-4)

式中，N y0（word）为文职图像区域的行平均边缘点个数，N y0(non-word) 为非文字图像区域的行平均边缘点个数。

虽然文字图像区域中也存在者字符见得间隔，必能完全保证每一行的边缘点数量都比非文字区域的行边缘点数量多。但是从概率角度可以认为，文字图像区域的每一行边缘点适量大于政府图像边缘点数量的行平均值，而非文字图像区域者相反，即：

N y（word）> N y0（word）>N y (non-word) （2-5）

式中N y（word）是文字图像区域中某一行的边缘点数量，N y(non-word)是非文字图像区域中某一行的边缘点数量，N y0（word）所示是整幅图像边缘点数量的行平均值。边缘点数量统计如图2-6所示。

图2-6 行方向边缘点数量统计检测出的可能文字图像应先进行合并，形成可能的文字图像区域。受文字图形自身结构繁简程度不同的影响，以及索书号可能有多行字符串组成，而两行字符串之间可能存在间隔，使的图像文字区域中的某些行的边缘点数量低于平均值，设置行方向的间隔阈值Ty=10.即去过两可能文字图像行的间距D y≤T y，这经性合并，否则视为两个独立的文字图像区域。

经可能文字图像行合并后，图2-1所示的索书号文字图像区域中存在两个索书号图像区域。现