当前位置：文档之家› 一种基于视觉注意模型的图像检索方法

一种基于视觉注意模型的图像检索方法

0引言

基于内容的图像检索（C B I R ）目前是一个非常活跃的研究领域。早期的C B I R 提取图像的整体特征（如颜色、纹理、形状等）进行检索，取得了较大的进展[1]。但是，这种基于全局特征的检索方法忽视了图像中人眼真正感兴趣的部分，无法满足人们越来越高的检索要求。事实上，人们在观察图像时，引起人类视觉注意的往往是图中一些对人眼有刺激的部分，这些部分往往是人类视觉感兴趣部分，也称显著部分[2]。如图一中方框标示部分往往是人眼最为关注的部分。因此，针对图像中人类视觉感兴趣区域进行检索，将会更加贴近用户检索意图，有助于提高检索性能。

为此，本文在视觉注意力模型的框架下，提出了一种基于综合多显著区域局部与全局特征相结合的图像检索方法。该方法主要包括两方面：首先，为了克服传统基于图像底层特征对于亮度、平移、尺度等变化敏感的缺点，文中采用了一种具有良好仿射不变特性的Si f t 特征向量来描述图像中的

显著区域；其次，利用图像中显著区域的相对空间布局作为图像结构信息进行检索。实验结果表明，本文方法与传统方法相比，具有更加良好的检索效果。1显著区域提取及特征描述

现代生理学和心理学研究表明,图像一些具有强烈视觉反差的元素是对人眼刺激最强烈的部分[3]，这些区域称为显著区域。“显著”(sal i ency)的产生是由于视觉对象本身具有

一种基于视觉注意模型的图像检索方法

Image Retrieval Method Based on Visual Attention Model

李艳黄东军Li Yan Huang Dongjun

（中南大学信息科学与工程学院，湖南长沙410083）

（School of Information Science and Engineering,Central South University,Hunan Changsha 410083）

摘要：借鉴心理学中人眼视觉注意力模型，提出了一种新的基于显著区域的图像检索方法。利用局部结合整体的方式，既考虑图像显著区域中稳定所具有的稳定特征，同时充分利用区域间相互位置关系反映图像的整体构成，并结合二者进行检索，从而克服了传统检索中不能解决的图像旋转、平移、亮度变化等缺点。实验表明，利用显著区域进行检索有利于消除图像背景对检索结果的影响，与传统基于全局的检索方法相比，本文提出的方法具有更好的检索性能。

关键词：显著区域；视觉注意机制；Ｓｉｆｔ描述子；相似性；空间布局中图分类号：ＴＰ３９１

文献标识码：Ａ

文章编号：１６７１－４７９２－（２０１０）５－０１０１－０４

Abstract ：Learning psychology of human visual attention model,a new salient region-based image retrieval method is proposed.By using a method combining the local and whole feature of an image,we consider the unstable feature of the salient areas ,and take the full advantage of spatial relationship between the salient areas which reflects an overall composition of an image,then the two are combined to find the most similar image in the database,thus some shortcomings in the traditional image retrieval such as rotation,translation,brightness change have been overcame to some extent.Experiments show that using salient region to search can help to e-liminate the impact on the results image given by the https://www.doczj.com/doc/1713163198.html,pared with the traditional retrieval methods base on global fea-ture,our method has better retrieval performance.

Keywords :Salient Region;Visual Attention;Sift descriptor;Similarity;Spatial Distribution

图一

图像中的显著区域

一

种基于视觉注意模型的图像检索方法

101

科技广场2010.5

某种能够引起观察者注意的特殊属性，因此可通过建立视觉注意力模型(V

i sual A t t ent i on M odel )来提取图像中显著度较高的区域作为显著区。

1.1视觉注意力模型

I t t i [4]模型和St ent i f or d 模型是目前较为著名的注意力模型。I t t i 是南加州大学的I t t i 等人提出的一种自底向上的、基于图像底层特征的图像显著模型，结合颜色(col -or )、方向(or i t ent ai on)、亮度(i nt ensi t y)各维上的关注图，通过分析、融合得到显著区域；St ent i f or d 注意力模型[5]是由伦敦大学的St ent i f or d 提出的，他用注意力图（V i sual A t t ent i on M ap,V A M ap ）表示图像的显著性，通过在区域中以某点为中心，一定半径范围内的其他像素进行相同像素匹配，像素点的V A 值为与之匹配的像素个数，值越小的区域认为其显著程度越高，最后抑制图像中具有相同模式的区域得到V A 图。

1.2显著区域提取

在I t t i 模型中，图像中对象的大小被限制在全图的5%以下，得到的显著区域较小且产生的显著图与人眼实际观察到的显著区不相符；而St ent i f or d 模型中，由于所用的V A 区较大，当区域与周围相比显著性不够强时，结果会不理想。本文采用文献[6]、[7]中M ar ques 等人提出的方法，结合I t t i 和St ent i f or d 模型进行显著区域提取。其基本思想是，对一幅图像，分别用I t t i 和St ent i f or d 模型处理得到显著区和V

A 图，并对它们进行二值化等处理以得到注意点和注意区，再将注意点和注视区相结合得到掩模图，最后把掩模图与原始图相与，即可得到图像的显著区域。M ar ques 提出的方法能有效地提取图像中的多个显著区域，如图二所示。

1.3显著区域特征描述

传统的C B I R 通常采用图像的颜色、

纹理、形状等特征进行检索，具有一定的局限性。颜色直方图丢失了颜色的空间信息，具有相同颜色统计信息但分布不同的图像通常被认为是相同图像；纹理只针对于某些具有丰富纹理的图像有较好的效果，受光照、反射等条件的影响较大，适用范围有限且不易提取；形状特征符合人类视觉的认知，但形状特征的获得常常依赖于较为精准的图像分割技术，并且目前对形状的描述缺乏一个完整的数学模型。为了克服以上缺点，文中采用一种具有优秀仿射不变性特征的Si f t 描述子来表达显著区域特征。

1.3.1显著区域Si f t 特征点提取及匹配

Si f t 是D avi d Low e 于2004年提出的一种局部特征描述算子向量[8]，

对旋转、尺度缩放、亮度变化具有不变性，且独特性好，即使少数的几个物体也可以产生大量的Si f t 特征向量。

Si f t 特征点的提取分为四个步骤：①检测尺度空间极值点；②精确定位极值点；③为特征点分配方向值；④生成特征描述算子。

在各级尺度空间对图像进行亚采样，得到一系列金字塔图像。

高斯卷积核是实现尺度变换的唯一变换核，定义如下：（1）

其中，σ代表了高斯正态分布的方差。一幅二维图像在不同的尺度空间表示可由图像与高斯核卷积得到：

L(x,y,σ)=G (x,y,σ)*I (x,y)

（2）

为了有效地在尺度空间检测到稳定的关键点，一般采用高斯差分尺度空间（D O G scal e-space ）。D O G 算子如下式所示：

D (x,y)=(G (x,y,σ)-G (x,y,σ))*I (x,y)=L(x,y,σ)-L (x,y,σ)

（3）

在相邻的D

O G 空间，如果像素点为局部极值点，则它必须与其周围的26个像素（上一级尺度的9个点+同尺度的8个点+下一个尺度的9个点）相比为极值点。所有这些局

部极值点构成了Si f t 候选关键点的集合，通过过滤去除不稳定的特征点后得到图像中所有的关键点。利用这些关键点领域像素的梯度方向分布特征为每个关键点制定方向参数，使算子具备旋转不变性。每个检测到的关键点有三个信息：位置(l ocat i on)、所处尺度(scal e)、方向(or i ent at i on)，三个参数分别表示位置、尺度和方向信息。

1.3.2Si f t 特征点匹配

一幅图像中通常会生成大量的Si f t 特征点，且每个点特征向量维数较高（128维），考虑到检索的速度，

采用主成

（a ）原图（b ）掩模图

(c)显著区域

图二

融合I t t i 和St ent i f or d

的显著区域提取

102

分分析(PC A)[9]方法将其降至36维。

提取图像中显著区域的Si f t特征点之后，为了寻找数

据库中与之最为匹配的点，需要计算特征点之间的距离。文

中采用最为常见的欧式距离来度量。

1.4显著区域空间布局约束

我们观察到，在一幅图像中往往存在多个显著区域，区

域间的整体布局也是反映图像特征的重要信息。而在以往的

基于感兴趣区域的图像检索中，这一点也常常被忽视。文中

考虑显著区域的空间布局作为图像的另一个特征。在基于区

域中心坐标的二元关系的一致性条件下，假设查询图像Q中

存在n个（一般n不大于5）显著区域，它的空间布局与待查

图像T中最匹配的n个区域的空间布局的相似度可以定义

为[10]：

（4）

式(4)中，x i q、y j q和x i t、y j t分别是查询图像和待查图像

的第i个区域中心的横纵坐标，f是双曲正切函数。与符号

函数的乘积求和本质上是图像Q和图像T的二元关系集中

满足约束条件的关系的近似总数。

2图像的相似度计算

设查询图像为Q{q1,…,q i,…，q m,m<=5}，数据库待查图

像为T{t1,…,t j,…，t m,n<=5}，其中q i、t j分别为图像Q、T中

的显著区域，则q i、t j之间的距离可用二者的Si f t特征点的

匹配状况表示：

s i,j=n i'/n i（5）

式(5)中，n i'表示区域q i与t j匹配Si f t点的个数，n i

表示q i中所有的Si f t点的个数。我们认为查询图像Q中的

任一显著区域，总能在待查图像中找出与之最相似的候选区

域，由此可以得出一个0-1相似矩阵：

M={m i,j,i=1,…,m;j=1,…,n}（6）

矩阵M中的每一行，值为1的元素表示该行、列所对应

区域之间的相似度最大，且每行仅存在一个值为1的元素，

其余均为0。查询图像Q与待查图像T的显著区域之间的相

似度为：

（7）

显然，该值的范围在0到1之间，当两幅图像相同时，该

值为1；值越大，两幅图像越相似。

由此，图像Q与T之间的相似性由两部分组成，即显著

区域的局部特征相似性和区域之间的布局约束相似性，最终

Q与T之间的相似性如下定义：

S(Q,T)=w1S l ocal(Q,T)+w2S w hol e(Q,T)（8）

3实验结果及分析

实验分两部分进行。实验一验证利用显著区域特征检索

的有效性，图片下载网址为ht t p://i l https://www.doczj.com/doc/1713163198.html,/i m gdbs，

返回结果如图三所示（最边为查询图像），按相似度从左到

右、从自上至下的顺序排列。查询图像中的路标为显著区域，

而在返回的前5张图片中均含有此相似的路标，并且还检出

了仅包含查询图像中显著区域被部分遮挡情况下的图片（第

6、7、8张）。而利用基于颜色的检索方法，第4、5张图片分别

排在第14、23位。实验一结果表明，利用视觉模型提取图像

中的显著区域并结合Si f t特征，能有效消除背景信息的干

扰，提高检索效果。

实验二中添加了空间布局约束条件。将含有可乐瓶子、

杯子以及网球的15张图片放在一个有1000张图片的

C or el图像库中，选取其中一张作为查询图像，结果返回的

前9张图片如图四所示，其余的图片均排在前30张图片中。

实验结果表明，结合显著区域的局部特征与区域空间布局特

征能达到很好的检索结果。

4结束语

本文利用I t t i和St ent i f or d视觉模型的基础上，提出

了一种基于显著区域的局部信息与整体特征相结合的图像

图三利用显著区域局部特征检索结果

图四融合局部与整理的检索结果

一

种

基

于

视

觉

注

意

模

型

的

图

像

检

索

方

法

103

科技广场2010.5

检索方法。试验结果表明，本文的方法与传统方法相比具有更好的效果。另外，显著区域及其特征的提取采用离线方式进行，缩短了用户与系统交互时的等待时间，增强了实用性。将来的工作包括考虑引入相关反馈机制，并结合分类的方法来进行检索。

参考文献

[1]李向阳，庄越挺，潘云鹤.基于内容的图像检索技术与系统，计算机研究与发展[J].2001,3(1):334-354.

[2]Li u H,Ji ang S,H uang Q,et al.R egi on-based vi sual at t ent i on anal ysi s w i t h i t s appl i cat i on i n i m age br ow si ng on sm al l di spl ays.A C M M ul t i m edi a’07

[C].A ugsbur g:A C M,2007.

[3]H ong,Fu,Zher u,C hi.A n ef f i ci ent al gor i t hm

f or at t ent i on-dr i ven i m age i nt er pr et at i on f r om seg-m ent s[J].Pat t er n R ecogni t i on,2009:126-129.

[4]I t t i Laur ent,K och C hr i st of.C om put at i onal m odel i ng of vi sual at t ent i on[J].N at ur e R evi w s N eu-r osci ence,2001,2(3):194-203.

[5]St ent i f or d F.A n at t ent i on based si m i l ar i t y m easur e w i t h appl i cat i on t o cont ent-based i nf or m a-t i on r et r i eval[A].I n Pr ocessdi ngs of t he St or age and R et r ei val f or M edi a D at abases C onf er ence,SPI E El ect r oni c I m agi ng[C].Sant a C l ar a,C A:SPI E Pr ess, 2003.

[6]M ar ques O,M ayr on L M,B or ba G B,et al.U s-

i ng vi sual at t ent i on t o ext r act r egi ons of i nt er est i n t he cont ext of i m age r et r i eval[A].I n Pr oceedi n-gs of t he A C MSE’06[C].M el bour ne,Fl or i da:A C M,2006.

[7]M ar quee O,M ayr on L M,B or ba G B,et al.A n

A t t ent i on-D r i ven M odel f or G r oupi ng Si m i l ar I m ages w i t h I m age R et r i eval A ppl i cat i ons[J].EU R A SI P Jour-nal on A dvances i n Si gnal Pr ocessi ng,2007,(1): 116-116.

[8]Low e D G.D i st i nct i ve I m age Feat ur es f r om Scal e-i nvar i ant K eypoi nt s[J].I nt er nat i onal Jour nal of C om put er V i si on,2004,60(2):0960-5691.

[9]Y an K e,R ahul Sukt hankar.PC A-SI FT:A M or e

D i st i nct i ve R epr esent at i on f or Local I m age D escr i p-t or s.I n Pr oc.of t he I EE

E C onf.on C om put er V i si on and Pat t er n R ecogni t i on.W ashi nt on,D.C:I EEE,2004.

[10]张健沛，闫锐，杨静.基于兴趣区域的图像检索方法的研究[J].哈尔滨工程大学学报,2003,24(3):34-35.

作者简介

李艳（1985—），女，云南宣威人，中南大学计算机系，硕士，主要研究方向：基于内容的图像检索；

黄东军（1960—），男，湖南长沙人，中南大学计算机系教授、博导，主要研究方向：图像处理，多媒体技术。

104