论文:《Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials》,NIPS 2011
全连接条件随机场(Fully Connected CRF)也叫做 Dense CRF,即图像中每个像素都与其他所有像素相关,为每个像素对都建立 pairwise potential,但是问题在于,连接数量是像素数量的平方级别,这就导致了即使是很小的一幅图像,计算复杂度都会非常大,从而实用性不高。
所以文本的主要贡献是提出了对于 fully connected CRF 进行高效推理的算法
具体方法:
将 pairwise potential 定义为???
平均场近似 CRF 分布
直观表示参考:Dense CRF
定义随机场 X = { X 1 , . . . , X N } X = \{X_1,...,X_N\} X={X1,...,XN}, N N N 为一幅图像中的像素个数, X i X_i Xi 为给第 i i i 个像素分配的标签, X X X 为一幅图像所有像素标签的集合, X i X_i Xi 的取值范围为 L = { l 1 , l 2 , . . . , l k } \mathfrak{L} = \{l_1,l_2,...,l_k\} L={l1,l2,...,lk},也就是有 k k k 类标签,可以将 X X X 理解为某一种 “标签分配方案”。
再定义一个随机场 I = { I 1 , . . . , I N } I = \{I_1,...,I_N\} I={I1,...,IN}, N N N 为一副图像中的像素个数, I i I_i Ii 为第 i i i 个像素的特征向量(比如颜色), I I I 为一幅图像所有像素的特征向量,可以将 I I I 理解为一幅图像的 “整体特征”。
定义条件随即场
(
I
,
X
)
(I,X)
(I,X) 对应的 Gibbs distribution(吉布斯分布):
P
(
X
∣
I
)
=
1
Z
(
I
)
e
x
p
(
−
∑
c
∈
C
g
ϕ
c
(
X
c
∣
I
)
)
P(X|I) = \frac{1}{Z(I)}exp(-\sum_{c \in C_{\mathfrak{g}}}\phi_c(X_c|I))
P(X∣I)=Z(I)1exp(−c∈Cg∑ϕc(Xc∣I))
其中,
g
=
(
V
,
ε
)
\mathfrak{g} = (V,\varepsilon)
g=(V,ε)
Gibbs energy:
KaTeX parse error: Expected group after '_' at position 15: E(x|I) = \sum_̲
关于 CRF model,参考论文:《Conditional random fields probabilistic models for segmenting and labeling sequence data》
CRF 模型的能量函数表达形式:
E
(
x
)
=
∑
i
ψ
u
(
x
i
)
+
∑
i
<
j
ψ
p
(
x
i
,
x
j
)
E(x) = \sum_i \psi_u(x_i) + \sum_{i<j} \psi_p(x_i,x_j)
E(x)=i∑ψu(xi)+i<j∑ψp(xi,xj)
注意:这里的能量函数是所有像素点的能量和,不是某一个像素点的能量。
由于二元势函数是每个像素点与其他所有像素的关系,所以有 n ( n − 1 ) / 2 n(n-1)/2 n(n−1)/2 组,可以说连接数量是像素数量的平方级别,如果有一张 100 万像素的图片,那么就会建立 4950 亿组 pairwise 特征。正是因为这种复杂的形式,所以这个模型被称作 Dense CRF。
其中 pairwise 部分定义为:
ψ
p
(
x
i
,
x
j
)
=
μ
(
x
i
,
x
j
)
∑
m
=
1
K
w
(
m
)
k
(
m
)
(
f
i
.
f
j
)
\psi_p(x_i,x_j) = \mu(x_i,x_j)\sum^{K}_{m=1}w^{(m)}k^{(m)}(f_i.f_j)
ψp(xi,xj)=μ(xi,xj)m=1∑Kw(m)k(m)(fi.fj)
参考:
FCN(3)——DenseCRF
全卷积网络和全连接条件随机场
【文献学习】具有高斯边缘势能的全连接CRF的高效推理