LIRE特征提取方法详解

鲜于星波

2023-12-01

LIRE(Lucene Image Retrieval ) 是利用Apache Lucene 建立索引进行图像检索的开源软件库。LIRE这个软件库可以很方便地建立Lucene索引进行基于内容的图像检索 (CBIR, content based image retrieval )，该库为检索提供了丰富的图像特征提取方法。

1 全局特征

LIRE源码解压后，在src\main\java\net\semanticmetadata\lire\imageanalysis\features路径下有global文件夹，里面有20个全局特征提取方法。

方法1：ACCID

ACCID特征的目的是寻找不同尺度下最重要的边缘特征，然后把它们和使用 CEDD描述子得到的模糊色彩方案一起储存在一个直方图里。

方法2： AutoColorCorrelogram

AutoCorrelogram特征基于颜色，算法参考Huang, J.; Kumar, S. R.; Mitra, M.; Zhu, W. & Zabih, R. (2007) “Image Indexing Using Color Correlograms”, IEEE Computer Society. DOI： 10.1109/CVPR.1997.609412。一个颜色相关图（color correlogram）是一个用颜色和像素间距离建立索引的三维数据表。它代表了一个图像中，颜色改变的空间相关性是如何随距离变化的。

方法3： BinaryPatternsPyramid

BinaryPatternsPyramid和PHOG一样，但PHOG是以方向渐变来量度，而这里用的是旋转不变性的局部二值模式（LBP, Local binary patterns）的直方图。

方法4：CEDD

CEDD是颜色和边缘方向性描述子，将图像的颜色和边缘方向性信息结合起来生成一个144字节的直方图。关于CEDD的更多知识可以参考 Savvas A. Chatzichristofis and Yiannis S. Boutalis, CEDD: Color and Edge Directivity Descriptor. A Compact Descriptor for Image Indexing and Retrieval, A. Gasteratos, M. Vincze, and J.K. Tsotsos (Eds.): ICVS 2008, LNCS 5008, pp. 312-322, 2008.

方法5：ColorLayout

ColorLayout是MPEG-7多媒体标准描述子中一种高效的颜色特征描述子。通过图像分割、代表颜色选择、离散余弦变换（DCT, Discrete Cosine Transform）、Z字形扫描四个步骤得到特征描述子。（用于CEDD）

方法6：EdgeHistogram

EdgeHistogram是MPEG-7多媒体标准描述子中一种高效的边缘特征描述子。用一个40个字节的数组构成一个边缘直方图描述子。通过图像分割、计算子图边缘直方图、归一化、计算图像边缘直方图等步骤得到特征描述子。（用于CEDD）

方法7：FCTH

FCTH是模糊颜色和纹理直方图特征。它从3个模糊单元的组合求得。先将图像分割，然后用两个模糊单元产生模糊颜色直方图，再在第三个模糊单元中将子图经小波变换生成模糊纹理直方图，最后模糊颜色直方图和模糊纹理直方图结合得到FCTH特征描述子。更多信息请参考：Savvas A. Chatzichristofis and Yiannis S. Boutalis, FCTH: Fuzzy Color and Texture Histogram - A Low Level Feature for Accurate Image Retrieval, in Proceedings of the Ninth International Workshop on Image Analysis for Multimedia Interactive Services, IEEE, Klagenfurt, May, 2008.

方法8： FuzzyColorHistogram

FuzzyColorHistogram是一种模糊颜色直方图特征。传统颜色直方图对噪音敏感。模糊颜色直方图通过模糊算法产生模糊颜色直方图。

方法9： FuzzyOpponentHistogram

FuzzyOpponentHistogram是基于对色（对手颜色）空间的简单的模糊64-bin（维）对色直方图。更多信息参考Sande K E A V D , Gevers T , Snoek C G M . Evaluating color descriptors for object and scene recognition. IEEE Trans Pattern Anal Mach Intell[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9):1582-1596.

方法10：Gabor

Gabor纹理特征通过对图像与gabor滤波器做卷积而得到，gabor滤波器定义为高斯函数与正弦函数的乘积。Gabor特征提取模拟了人类视觉刺激响应，广泛应用于视觉信息理解，例如人脸识别。

方法11：JCD

JCD特征将CEDD和FCTH结合在一个直方图里面。

方法12：JpegCoefficientHistogram

JpegCoefficientHistogram是JPEG 系数直方图特征。将图像分块，然后求离散余弦变换（DCT，Discrete Cosine Transform。JPEG图像压缩时要做DCT变换），计算DCT系数矩阵，再从得到的差分DCT系数矩阵求得直方图。适用于JPEG图像检索。

方法13：LocalBinaryPatterns

LocalBinaryPatterns是原始的局部二值模式特征。在图像每个3*3像素块中，以中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，大于中心像素值的像素点标记为1，反之为0，中心点周围8个点经比较产生8位二进制数，将其转换为十进制数作为中心像素点的LBP值，以此来反映该区域的纹理信息。

方法14：LuminanceLayout

LuminanceLayout描述子用于灰度或黑白图像。它将图像缩小到很小然后将它作为描述子。

方法15：OpponentHistogram

简单的64-bin（维）对色直方图，基于对色空间。参见1.9。

方法16：PHOG

PHOG描述子大体上就是将几个空间金字塔中不同层（可理解为图像缩小到不同分辨率）的边缘直方图结合在一起。更多信息参考 Anna Bosch, Andrew Zisserman & Xavier Munoz (2007) “Representing shape with a spatial pyramid kernel”, CVIR 2007.

方法17：RotationInvariantLocalBinaryPatterns

一个简单的具有旋转不变性的局部二值模式特征。

方法18：ScalableColor

ScalableColor是MPEG-7 Scalable Color使用LireFeature的一个打包。可伸缩颜色描述符(Scalable Color Descriptor)是MPEG-7标准中颜色描述符的一种。它是固定于HSV空间的颜色直方图，用Haar变化编码，针对不同需求可改变尺寸。更多信息可参考：李志全, 黎建辉, 阎保平. MPEG-7可伸缩颜色描述符的研究[J]. 中国科学院大学学报, 2006, 23(2):192-197.

方法19：SimpleColorHistogram

SimpleColorHistogram提供一个简单的RGB颜色直方图，用于基于内容的图像检索。在LIRE的SimpleColorHistogram中，维数是可配置的，直方图归一化到每维8位。

方法20：Tamura

Tamura特征由Tamura提出，用粗糙度、对比度、方向度、线像度、规整度和粗略度六个分量对应于心理学角度上纹理特征的六种属性。前三种最重要，所以LIRE的Tamura特征用前三个分量来实现。

2 局部特征

LIRE局部特征描述子包括：Simple、SelfSimilarities、Shapecontext、Sift、Surf。源码在src\main\java\net\semanticmetadata\lire\imageanalysis\features路径下local文件夹中。

方法21：Simple

Simple特征基于论文：Anagnostopoulos N , Boutalis Y , Kapoutsis A C , et al. Searching Images with MPEG-7 (& MPEG-7-like) Powered Localized dEscriptors: The SIMPLE answer to effective Content Based Image Retrieval[C]// International Workshop on Content-based Multimedia Indexing. IEEE, 2014。论文中，作者使用SURF检测子定义团状纹理突出部分，用MPEG-7 可伸缩颜色 Scalable Color ，颜色布局Color Layout以及边缘直方图Edge Histogram描述子以及CEDD来产生最终的局部特征描述子。

方法22：SelfSimilarities

SelfSimilarities特征基于论文：Chatfield K , Philbin J , Zisserman A . Efficient retrieval of deformable shape classes using local self-similarities[C]// IEEE International Conference on Computer Vision Workshops. IEEE Xplore, 2009。论文中，作者表示该特征描述子可用于快速检索图像，即使目标图像中物体缩放、图像颜色纹理发生变化、位置变化。此外，该特征对物体非刚性变形的鲁棒性也很好。

方法23：Shapecontext

Shapecontext特征基于论文： S. Belongie, J. Malik, and J. Puzicha, “Shape Matching and Object Recognition Using Shape Contexts,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, no. 4, pp. 509-522, Apr. 2002。论文作者用新方法测量形状之间的相似性并将其用于物体识别。在该框架中，形状相似性量度通过两个步骤进行1）求两个形状间对应点；2）用这些对应来估算对准后的形变。为解决对应的问题，设计了shape context（形状上下文）描述子。这个shape context是一个参考点，它是周围余下点相对于它的分布。相对应的点会有近似的shape context。这样，两个相似的形状的对应点会有相似的shape context。

方法24：Sift

Sift是尺度不变特征变换（Scale-invariant feature transform）。它用不同尺度（标准差）的高斯函数对图像进行平滑，平滑后图像变化差别大的像素就是特征明显的点。它对旋转、缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的鲁棒性。网上资料较多，大家也比较熟悉，这里不多说了。

方法25：Surf

Surf (Speeded Up Robust Features) 比SIFT要快数倍，而且其作者声称在不同图像变换方面比Sift更加稳健。Hessian矩阵是SURF算法的核心。Surf网上资料也很多，这里不多说了。

3 总结

LIRE提供的特征描述子中，ColorLayout、 ScalableColor是MPEG-7标准中颜色描述子中的其中两种；SimpleColorHistogram是经典的颜色直方图，OpponentHistogram是基于对色空间的直方图；FuzzyColorHistogram、FuzzyOpponentHistogram利用模糊算法处理减少噪音对Color Histogram、Opponent Histogram的干扰。LuminanceLayout是简单快速的明暗特征，AutoColorCorrelogram颜色改变随距离变化的空间相关性特征，这些都是属于图像的颜色特征描述。

EdgeHistogram是基本的边缘直方图特征， LocalBinaryPatterns是原始的局部二值模式特征，RotationInvariantLocalBinaryPatterns是旋转不变的局部二值模式；PHOG是图像不同分辨率下边缘直方图的结合（以方向渐变来量度），BinaryPatternsPyramid与PHOG不同的地方是使用旋转不变性的局部二值模式的直方图。这几个都是图像纹理特征的描述子。

CEDD把图像的颜色和边缘方向性信息结合起来生成直方图。ACCID把不同尺度下最重要的边缘特征，与使用 CEDD描述子得到的模糊色彩方案一起储存在一个直方图里。FCTH是颜色和纹理直方图模糊处理再结合的；JCD则把CEDD和FCTH联合在一起。

JpegCoefficientHistogram是JPEG 系数直方图特征，适用于JPEG压缩的图片。

Gabor纹理特征模拟了人类视觉刺激响应，广泛应用于视觉信息理解

Tamura用对应于心理学角度上纹理：特征粗糙度、对比度、方向度来进行图像纹理特征描述。

LIRE提供的局部特征描述子中Sift、Surf是最为人所知的。Simple是Surf、Scalable Color、Color Layout、Edge Histogram、CEDD等多种特征的综合。SelfSimilarities和Shapecontext是检测图像局部形状的特征。

LIRE提供的这些特征描述子各具特色，在不同的基于内容的图像检索应用中，需根据具体的需要进行选择，很显然一个基于内容的图像检索如果结合考虑了颜色、纹理和形状特征是会提高精确性的。结合不同特征时还应考虑速度、精确性（precision）和召回率（recall）。即使综合应用多种特征，往往也难以达到很高的精确性。为了提高精确性，可以对大样本提取特征再聚类分析后获取更具代表性的特征用于检索，甚至通过人工神经网（ANN）和支持向量机（SVM）等监督学习方法对大量样本进行训练建模来提高检索的精确性，但这在速度上肯定是收到很大影响的。
（因为在写这个图片相似度搜索，本人只作记录，后期将会逐步开放图片相似搜索代码）

LIRE特征提取方法详解

1 全局特征

2 局部特征

3 总结

相关阅读

相关文章

相关问答

相关文档