当前位置: 首页 > 面试题库 >

用于TensorFlow的SSIM / MS-SSIM

吕天逸
2023-03-14
问题内容

TensorFlow* 是否有 SSIM 甚至 MS-SSIM 实现? *

SSIM( 结构相似性指标度量 )是一种度量图像质量或图像相似性的度量。它受到人类感知的启发,根据几篇论文,与l1 /
l2相比,它的损失html" target="_blank">函数要好得多。例如,请参阅用于图像处理的神经网络的损失函数。

到目前为止,我在TensorFlow中找不到实现。在尝试自己通过从C ++或python代码(例如Github:VQMT /
SSIM
)移植来完成此操作之后,我陷入了将高斯模糊应用于TensorFlow中的图像之类的方法。

有人已经尝试过自己实施它吗?


问题答案:

深入研究其他python实现之后,我终于可以在TensorFlow中实现一个正在运行的示例:

import tensorflow as tf
import numpy as np

def _tf_fspecial_gauss(size, sigma):
    """Function to mimic the 'fspecial' gaussian MATLAB function
    """
    x_data, y_data = np.mgrid[-size//2 + 1:size//2 + 1, -size//2 + 1:size//2 + 1]

    x_data = np.expand_dims(x_data, axis=-1)
    x_data = np.expand_dims(x_data, axis=-1)

    y_data = np.expand_dims(y_data, axis=-1)
    y_data = np.expand_dims(y_data, axis=-1)

    x = tf.constant(x_data, dtype=tf.float32)
    y = tf.constant(y_data, dtype=tf.float32)

    g = tf.exp(-((x**2 + y**2)/(2.0*sigma**2)))
    return g / tf.reduce_sum(g)


def tf_ssim(img1, img2, cs_map=False, mean_metric=True, size=11, sigma=1.5):
    window = _tf_fspecial_gauss(size, sigma) # window shape [size, size]
    K1 = 0.01
    K2 = 0.03
    L = 1  # depth of image (255 in case the image has a differnt scale)
    C1 = (K1*L)**2
    C2 = (K2*L)**2
    mu1 = tf.nn.conv2d(img1, window, strides=[1,1,1,1], padding='VALID')
    mu2 = tf.nn.conv2d(img2, window, strides=[1,1,1,1],padding='VALID')
    mu1_sq = mu1*mu1
    mu2_sq = mu2*mu2
    mu1_mu2 = mu1*mu2
    sigma1_sq = tf.nn.conv2d(img1*img1, window, strides=[1,1,1,1],padding='VALID') - mu1_sq
    sigma2_sq = tf.nn.conv2d(img2*img2, window, strides=[1,1,1,1],padding='VALID') - mu2_sq
    sigma12 = tf.nn.conv2d(img1*img2, window, strides=[1,1,1,1],padding='VALID') - mu1_mu2
    if cs_map:
        value = (((2*mu1_mu2 + C1)*(2*sigma12 + C2))/((mu1_sq + mu2_sq + C1)*
                    (sigma1_sq + sigma2_sq + C2)),
                (2.0*sigma12 + C2)/(sigma1_sq + sigma2_sq + C2))
    else:
        value = ((2*mu1_mu2 + C1)*(2*sigma12 + C2))/((mu1_sq + mu2_sq + C1)*
                    (sigma1_sq + sigma2_sq + C2))

    if mean_metric:
        value = tf.reduce_mean(value)
    return value


def tf_ms_ssim(img1, img2, mean_metric=True, level=5):
    weight = tf.constant([0.0448, 0.2856, 0.3001, 0.2363, 0.1333], dtype=tf.float32)
    mssim = []
    mcs = []
    for l in range(level):
        ssim_map, cs_map = tf_ssim(img1, img2, cs_map=True, mean_metric=False)
        mssim.append(tf.reduce_mean(ssim_map))
        mcs.append(tf.reduce_mean(cs_map))
        filtered_im1 = tf.nn.avg_pool(img1, [1,2,2,1], [1,2,2,1], padding='SAME')
        filtered_im2 = tf.nn.avg_pool(img2, [1,2,2,1], [1,2,2,1], padding='SAME')
        img1 = filtered_im1
        img2 = filtered_im2

    # list to tensor of dim D+1
    mssim = tf.pack(mssim, axis=0)
    mcs = tf.pack(mcs, axis=0)

    value = (tf.reduce_prod(mcs[0:level-1]**weight[0:level-1])*
                            (mssim[level-1]**weight[level-1]))

    if mean_metric:
        value = tf.reduce_mean(value)
    return value

这是如何运行它:

import numpy as np
import tensorflow as tf
from skimage import data, img_as_float

image = data.camera()
img = img_as_float(image)
rows, cols = img.shape

noise = np.ones_like(img) * 0.2 * (img.max() - img.min())
noise[np.random.random(size=noise.shape) > 0.5] *= -1

img_noise = img + noise

## TF CALC START
BATCH_SIZE = 1
CHANNELS = 1
image1 = tf.placeholder(tf.float32, shape=[rows, cols])
image2 = tf.placeholder(tf.float32, shape=[rows, cols])

def image_to_4d(image):
    image = tf.expand_dims(image, 0)
    image = tf.expand_dims(image, -1)
    return image

image4d_1 = image_to_4d(image1)
image4d_2 = image_to_4d(image2)

ssim_index = tf_ssim(image4d_1, image4d_2)

msssim_index = tf_ms_ssim(image4d_1, image4d_2)

with tf.Session() as sess:
    sess.run(tf.initialize_all_variables())

    tf_ssim_none = sess.run(ssim_index,
                            feed_dict={image1: img, image2: img})
    tf_ssim_noise = sess.run(ssim_index,
                             feed_dict={image1: img, image2: img_noise})

    tf_msssim_none = sess.run(msssim_index,
                            feed_dict={image1: img, image2: img})
    tf_msssim_noise = sess.run(msssim_index,
                             feed_dict={image1: img, image2: img_noise})
###TF CALC END

print('tf_ssim_none', tf_ssim_none)
print('tf_ssim_noise', tf_ssim_noise)
print('tf_msssim_none', tf_msssim_none)
print('tf_msssim_noise', tf_msssim_noise)

如果发现一些错误,请告诉我:)

编辑: 此实现仅支持灰度图像



 类似资料:
  • 我在Tensorflow中的LSTM-RNN上训练一些音乐数据,遇到了GPU内存分配的一些问题,我不明白:我遇到了OOM,而实际上似乎还有足够的VRAM可用。一些背景:我正在使用GTX1060 6GB、英特尔至强E3-1231V3和8GB内存开发Ubuntu Gnome 16.04。现在,首先是我能理解的错误消息的一部分,在中,我将在最后再次添加整个错误消息,以供任何可能要求帮助的人使用: I t

  • 问题内容: 我需要为Linux(SDL)应用程序实现一个简单的图形消息框,类似于C 中的Windows MessageBox(gcc / g 4.4.0)。它需要做的就是显示字幕,消息和确定或关闭按钮,并在单击该按钮时返回到调用功能。 SDL仅使用X(11)打开用于(OpenGL)渲染的窗口。 我浏览了有关GTK实现的类似主题,但是该实现似乎无法正常工作。 我也尝试过wxWidgets的wxMes

  • 我正在尝试将量化图形加载到Android应用程序中。我的构建文件包含 额外的量化deps用于独立的C构建。 由于GEMMLOWP中存在大量错误,我无法使用Bazel进行编译。在Android中包含gemmlowp和量化操作的正确方式是什么? 下面是一个错误示例: 这是在Ubuntu 16.04和Bazel 0.3.0上。 这里有一个要点,它有两次连续尝试构建包的输出——第一次在highwayhas

  • 本文向大家介绍关于Tensorflow中的tf.train.batch函数的使用,包括了关于Tensorflow中的tf.train.batch函数的使用的使用技巧和注意事项,需要的朋友参考一下 这两天一直在看tensorflow中的读取数据的队列,说实话,真的是很难懂。也可能我之前没这方面的经验吧,最早我都使用的theano,什么都是自己写。经过这两天的文档以及相关资料,并且请教了国内的师弟。今

  • 问题内容: 我正在尝试将此MNIST示例调整为二进制分类。 但是,改变我的时候,从到,损失函数总是返回0(和准确度1)。 我检查了两者的尺寸(馈入),并且它们都是1xN矩阵,因此问题似乎早于此。也许与矩阵乘法有关? 我实际上在一个真实的项目中也遇到了同样的问题,所以任何帮助都将不胜感激……谢谢! 问题答案: 原始的MNIST示例使用单热编码来表示数据中的标签:这意味着,如果存在类(如MNIST中的

  • 安装TF时出现异常: 文件“/usr/local/lib/python2.7/dist packages/pip/_vendor/cachecontrol/adapter.py”,第46行,在send resp=super(CacheControlAdapter,self)中。send(request,**kw)File“/usr/local/lib/python2.7/dist packages