在pytorch中有nn.GLU的门控线性激活函数,其具体实现如下:
class GLU(nn.Module):
def __init__(self):
super(GLU, self).__init__()
def forward(self, x):
nc = x.size(1)
assert nc % 2 == 0, 'channels dont divide 2!'
nc = int(nc/2)
return x[:, :nc] * torch.sigmoid(x[:, nc:])
补充:
基于Gate mechanism的GLU、GTU 单元:
GTU(Gated Tanh Unit)的表达式为:
h
l
(
X
)
h_l(X)
hl(X) =
t
a
n
h
(
X
∗
W
+
b
)
tanh(X * W + b)
tanh(X∗W+b)
⊗
\otimes
⊗
δ
(
X
∗
V
)
\delta(X * V)
δ(X∗V) +
c
c
c
GLU(Gated Liner Unit)的表达式为:
h
l
(
X
)
h_l(X)
hl(X) =
(
X
∗
W
+
b
)
(X * W + b)
(X∗W+b)
⊗
\otimes
⊗
δ
(
X
∗
V
)
\delta(X * V)
δ(X∗V) +
c
c
c
and ⊗ is the element-wise product between matrices.(⊗表示矩阵乘法的点积)
分析GTU和GLU的组成结构可以发现:
Tanh激活单元:tanh(X * W+b),加上一个Sigmoid激活单元:O(X*V+c)构成的gate unit,就构成了GTU单元。
Relu激活单元:(X * W + b),加上一个Sigmoid激活单元:O(X * V + c)构成的gate unit,就构成了GLU单元。