基于内容的网络商品图像检索系统设计内容摘要:

最大图像数 (无关图像排除能力 (3)特征计算复杂度 (4)特征的存储空间需求 图像内容可以理解为一个简化了的层次模型,第一层为原始数据层,即图像的原始像素点;第二层为物理特征层,反映了图像内容的低层物理特征,如颜色、纹理、形状、轮廓、图像内容的空间关系和时间关系 (对视频来说 )等;第三层为语义特征层,是人们 对图像内容概念性的反映,一般是对图像内容的文字性描述。 图像特征的表示 方法有三种:数值表示、关系表示和语义表示。 譬如,图像的颜色可用 R、 G、 B 三种数值表示, 图像中对象之间的位置关系就要用到关系表示,而语义表示方法需要对物体进行识别和解释,往往要借助人类的知识推理。 采用的表示方式不同,查询时进行相似性比较的算法也不一样,如数值式的特征比较可采用多维空间中点的距离来计算。 图像检索所用到的基本特征大多属于第二层特征,即颜色、纹理、形状、轮廓空间关系等等。 本系统涉及到的算法 主要 包括 图像特征提取 和 相似度量 两大部分。 图像特征提取 图像特征的提取是基于内容的图像检索技术的基础。 从 广义上讲,图像的特征包括基于文本(语义)特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。 在本项目中,主要针对图像视觉特征进行提取和表达。 视觉特征又可分为通用的视觉特征和领域相关的视觉特征。 前者用于描述所有图像共有的特征,与图像的具体内容无关,主要包括色彩、纹理和形状;后第六届浙江省大学生电子商务竞赛参赛作品 18 者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。 由于领域相关的图像特征主要属于模式识别的研究范围,在此我们就不再详述,而只考虑通用的视觉特征。 对于某个 特定的图像特征,通常又有多种不同的表达方法。 由于人们主观认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式。 事实上,图像特征的不同表达方式从各个不同的角度刻画了此特征的某些性质。 下面分为颜色、纹理和形状特征三部分介绍。 ( 1) 颜色特征 颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色与图像中所包含的物体或场景紧密相关。 此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。 在提取颜色特征时,我们首先需要选择合适的颜色空间来描述颜色特征,然 后采用一定的量化方法将颜色特征表达为向量的形式,最后定义一种相似度(距离)标准用来衡量图像之间在颜色上的相似性。 在本节中,我们将主要采用颜色直方图作为颜色特征的表示方法。 颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。 它所描述的是不同色彩在整幅图像中所占的比例,而并不关心每种色彩所处的空间位置,即无法描述图像中的对象或物体。 颜色直方图可以是基于不同的颜色空间和坐标系。 最常用的颜色空间是 RGB颜色空间,原因在于大部分的数字图像都是用这种颜色空间表达的。 然而, RGB空间结构并不符合人们对颜色相似性的主 观判断。 因此,我们采用基于 HSV 空间、Luv 空间和 Lab 空间的颜色直方图,因为它们更接近于人们对颜色的主观认识。 其中 HSV 空间是直方图最常用的颜色空间。 它的三个分量分别代表色彩( Hue)、饱和度( Saturation)和值( Value)。 从 RGB 空间到 HSV 空间的转化公式如下所示: 第六届浙江省大学生电子商务竞赛参赛作品 19           ),m i n ( ),m i n ( ),m i n ( o t h e r w i s e5),m i n ( a n d ),m a x ( if3),m i n ( a n d ),m a x ( if3),m i n ( a n d ),m a x ( if1),m i n ( a n d ),m a x ( if1),m i n ( a n d ),m a x ( if5)],m i n ([),m a x (bgrvbvbbgrvgvgbgrvrvrrbgrrbgrbgbgrbbgrgbbgrbbgrgrbgrgbgrrgbgrgbgrrbhvbgrvsbgrv (1) 其中 r, g, b  [0 … 1], h  [0 … 6],且 s, v  [0 … 1]。 计算颜色直方图需要将颜色空间划分成若干个小的颜色区间,每 个小区间成为直方图的一个 bin。 这个过程称为颜色量化( color quantization)。 然后,通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。 颜色量化有许多方法,例如向量量化、聚类方法或者神经网络方法。 最为常用的做法是将颜色空间的各个分量(维度)均匀地进行划分。 相比之下,聚类算法则会考虑到图像颜色特征在整个空间中的分布情况,从而避免出现某些 bin 中的像素数量非常稀疏的情况,使量化更为有效。 另外,如果图像是 RGB 格式而直方图是 HSV 空间中的,我们可以预先建立从量化的 RGB 空间到量化的 HSV 空间 的查找表,从而加快直方图的计算过程。 ( 2) 纹理特征 纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。 它是所有物体表面共有的内在特性,例如云彩、树木、砖、织物等都有各自的纹理特征。 纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系,在基于内容的图像检索中得到了广泛的应用。 用户可以通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像。 在本节中,我们将着重介绍在基于内容的图像检索中采用的 Tamura 纹理特征。 1)Tamura 纹理特征 基于人类对纹理的视觉感知的心理学的研究 , Tamura 等人提出了纹理特征的表达。 Tamura纹理特征的六个分量对应于心理学角度上纹理特征的六种属性,分别是粗糙度( coarseness)、对比度( contrast)、方向度( directionality)、 线第六届浙江省大学生电子商务竞赛参赛作品 20 像度( linelikeness)、规整度( regularity)和粗略度( roughness)。 其中,前三个分量对于图像检索尤其重要。 ① 粗糙度:粗糙度的计算可以分为以下几个步骤进行。 首先,计算图像中大小为 k  k 个像素的活动窗口中像素的平均强度值,即有         12 2 12 2 21 1 1 1 2),(),( k k k kx xi y yj kk jigyxA ( 2) 其中 k = 0, 1, …, 5 而 g(i, j)是位于 (i, j)的像素强度值。 然后,对于每个像素,分别计算它在水平和垂直方向上互不重叠的窗口之间的平均强度差。 )2,()2,(),(),2(),2(),(11,11,kkkkvkkkkkhkyxAyxAyxEyxAyxAyxE ( 3) 其中对于每个像素,能使 E 值达到最大(无论方向)的 k 值用来设置最佳尺寸kbest yxS 2),( 。 最后,粗糙度可以通过计算整幅图像中 Sbest 的平均值来得到,表达为    mi nj be stcrs jiSnmF 1 1 ),(1 ( 4) 粗糙度特征的另一种该进形式是采用直方图来描述 Sbest 的分布,而不是像上述方法一样简单地计算 Sbest 的平均值。 这种改进后的粗糙度特征能够表达具有多种不同纹理特征的图像或区域,因此对图像检索更为有利。 ② 对比度:对比度是通过对像素强度分布情况的统计得到的。 确切地说,它是通过 来定义的,其中 是四次矩而 是方差。 对比度是通过如下公式衡量的 : 4/14conF ( 5) 该值给出了整个图像或区域中对比度的全局度量。 ③ 方向度:计算方向度的需要计算每个像素所在位置上的梯度向量。 该向量的模和方向分别定义为:   2ta n 21     HV VHG (6) 第六届浙江省大学生电子商务竞赛参赛作品 21 其中 H 和 V 分别是通过将图像和下列两个 3x3 操作符进行卷积操作所得的水平和垂直方向上的变化量。 101101101 111000111 当所有像素的梯度向量都被计算出来后,一个直方图 HD 被构造用来表达  值。 该直方图首先对  的值域范围进行离散化,然后统计了每个 bin 中相应的|G|大于给定阈值的像素数量。 这个直方图对于具有明显方向性的图像会表现出峰值,对于无明显方向的图像则表现得比较平坦。 最后,图像总体方向性可以通过计算直方图中峰值的尖锐程度获得,表示如下 :    ppnp Dw pdi r HF )(2  (7) 上式中的 p 代表直方图中的峰值, np 为直方图中所有的峰值。 对于某个峰值 p,Wp 代表该峰值所包含的所有的 bin,而 p 是具有最高值的 bin。 (3)形状特征 物体 和区域的形状是图像表达和图像检索中的另一重要的特征。 不同于颜色或纹理等底层特征,形状特征的表达必须以对图像中物体或区域的划分为基础。 由于当前的技术无法做到准确而鲁棒的自动图像分割,图像检索中的形状特征只能用于某些特殊应用,在这些应用中图像包含的物体或区域可以直接获得。 另一方面,由于人们对物体形状的变换、旋转和缩放主观上不太敏感,合适的形状特征必须满足对变换、旋转和缩放无关,这对形状相似度的计算也带来了难度。 通常来说,形状特征有两种表示方法,一种是轮廓特征的,一种是区域特征的。 前者只用到物体的外边界,而后者 则关系到整个形状区域。 本项目采用傅立叶描述符。 1)傅立叶形状描述符 傅立叶形状描述符( Fourier shape descriptors)的基本思想是用物体边界的傅立叶变换作为其形状描述。 假设一个二维物体的轮廓是由一系列坐标为( xs, ys)的像素组成,其中 0  s  N1,而 N 是轮廓上像素的总数。 从这些边界点的坐标中可以推导出三种形状表达,分别是曲率函数、质心距离和复坐标函数。 第六届浙江省大学生电子商务竞赛参赛作品 22 轮廓线上某点的曲率定义为轮廓切向角度相对于弧长的变化率。 曲率函数K(s) 可以表示为: )()( sdsdsK  (8) 其中 (s) 是轮廓线的切向角度。 质心距离定义为从物体边界点到物体中心( xc, yc)的距离,如下所示: 22 )()()( cscs yyxxsR  (9) 复坐标函数是用复数所表示的像素坐标: )()()( cscs yyjxxsZ  (10) 对这种复坐标函数的傅立叶变换会产生一系列复数系数。 这些系数在频率上表示了物体形状,其中低频分量表示形状的宏观属性,高频分量表达了形状的细节特征。 形状描述符可以从这 些变换参数中得出。 为了保持旋转无关性,仅仅保留了参数的大小信息,而省去了相位信息。 缩放的无关性是通过将参数的大小除以 DC 分量(或第一个非零参数)的大小来保证的。 请注意变换无关性是基于轮廓的形状表示所固有的特点。 对于曲率函数和质心距离函数,我们只考虑正频率的坐标轴,因为这时函数的傅立叶变换是对称的,即有 |Fi| = |Fi|。 基于曲率函数的形状描述符表示为  221 ,.. ., MK FFFf  (11) 其中 Fi 表示傅立叶变换参数的第 i 个分量。 类似的,由质心距离 所导出的形状描述符为 020201 ,..., FFFFFFf MR (12) 对于复坐标函数,正频率分量和负频率分量被同时采用。 由于 DC 参数与形状的所处的位置有关而被省区。 因此,第一个非零的频率分量被用来对其它变换参数进行标准化。 复坐标函数所导出的形状描述符为  1212111)12( , . . . , . . . , FFFFFFFFf MMZ (13) 第六届浙江省大学生电子商务竞赛参赛作品 23 为保证数据库中所有物体的形状特征都有相同的长度,在实施傅立叶变换之前需要将所有边界点的数目统一为 M。 例如 M 可以取为 2n = 64,这就可以采用快速傅立叶变换来提高算法效率。 2.。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。