本文致力于研究为什么mixed数据增强方式在改变标签的情况下还可以增加网络性能,并提出了一种更加泛化的方法进行实验。
mixup认为对数据增加线性性能是一种有效的归纳偏向,Between-class learning for image classification则认为,CNN把数据当作波来处理,因此这样的数据增强方式会对数据内部的分布加上限制。
本文作者提出了一个问题:使用线性的方法融合是否是该方法的一个关键点?
普通的数据增强方式会保留标签,其表示为:
(
x
~
,
y
~
)
=
f
~
(
x
,
y
)
=
(
f
(
x
)
,
y
)
(\tilde{x},\tilde{y})=\tilde{f}(x,y)=(f(x),y)
(x~,y~)=f~(x,y)=(f(x),y)
在本文中,作者定义一个新的general方程来表示数据增强:
(
x
~
,
y
~
)
=
f
~
(
{
x
i
,
y
i
}
i
=
1
2
)
(\tilde{x},\tilde{y})=\tilde{f}(\{x_i,y_i\}^2_{i=1})
(x~,y~)=f~({xi,yi}i=12)
该方程可以理解为随机的将两个现有数据合成为一个新的数据。
mixup
f
~
\tilde{f}
f~可以写做:
x
~
=
λ
x
1
+
(
1
−
λ
)
x
2
y
~
=
λ
y
1
+
(
1
−
λ
)
y
2
\tilde{x}=\lambda x_1+(1-\lambda)x_2\\ \tilde{y}=\lambda y_1+(1-\lambda)y_2
x~=λx1+(1−λ)x2y~=λy1+(1−λ)y2
Between Class (BC+)
将数据作为波来处理,因为波是均值为0的自然数据,因此首先对图像进行normalization处理(减去均值)。其次,在音频上,直接进行线性组合并没有图像的线性组合那样看起来恰当。为了解决这个问题,作者引入了标准差
σ
1
,
σ
2
\sigma_1,\sigma_2
σ1,σ2,因此:
x
~
=
p
(
x
1
−
μ
1
)
+
(
1
−
p
)
(
x
2
−
μ
2
)
p
2
+
(
1
−
p
)
2
w
h
e
r
e
p
=
1
1
+
σ
1
σ
2
⋅
1
−
λ
λ
\tilde{x}=\frac{p(x_1-\mu_1)+(1-p)(x_2-\mu_2)}{\sqrt{p^2+(1-p)^2}}\\ where\quad p=\frac{1}{1+\frac{\sigma_1}{\sigma_2}\cdot\frac{1-\lambda}{\lambda}}
x~=p2+(1−p)2p(x1−μ1)+(1−p)(x2−μ2)wherep=1+σ2σ1⋅λ1−λ1
Vertical Concat
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \tilde{x}(r,c)…
使用了concatenate方法,当
H
H
H小于
λ
H
\lambda H
λH的时候不变,否则替换为其他图片。
Horizontal Concat
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \tilde{x}(r,c)…
与vertical concat类似,只是改变了concat的维度。
Mixed Concat
使用了两个 λ \lambda λ结合了以上两种方法。
Random 2 × 2
先分割成2x2的区域,再进行vertical concat或者horizontal concat
VH-Mixup
先做vertical concat和horizontal concat,然后再mixup
VH-BC+
先做vertical concat和horizontal concat,然后再BC+
Random Square
cutmix
Random Column Interval
cutmix的矩形区域替换成一个竖条状
Random Row Interval
cutmix的矩形区域替换成一个横条状
Random Rows
cutmix的矩形区域替换成多个横条状
Random Columns
cutmix的矩形区域替换成多个竖条状
Random Pixels
随机选择替换的pixel
Random Elements
随机选择替换的elements,与random pixels的区别是,pixels是二维平面的,elements是在三维空间的元素。
Noisy Mixup
认为没有必要让 λ \lambda λ在整个图像上是相同的。相反,只要它的期望是相同的,就适用相同的标签。因此对 λ \lambda λ添加均值为0的随机噪声,并在最后将其限制在0与1之间。