本文同样来自stanford 组,不过他研究的是分布式学习中的weight compression and estimation problem.
首先,我们考虑 NN 有
d
d
d 个参数, 他们服从分布
p
θ
p_\theta
pθ. 总共有
n
n
n 个节点观测
p
θ
p_\theta
pθ 每个节点得到一个 realization
X
n
X_n
Xn。 因此我们有
X
1
,
X
2
,
.
.
.
,
X
n
∼
i.i.d.
p
θ
X_1,X_2,...,X_n\overset{\text{i.i.d.}}{\sim} p_\theta
X1,X2,...,Xn∼i.i.d.pθ
Problem setup 是: 每个节点把自己的观测
X
i
X_i
Xi 独立的编码为
k
k
k-bits
M
i
=
Π
i
(
X
i
)
M_i=\Pi_i(X_i)
Mi=Πi(Xi)
并发送给PS。而PS的目标是从
n
k
nk
nk-bits
M
=
(
M
1
,
M
2
,
.
.
.
,
M
n
)
M=(M_1,M_2,...,M_n)
M=(M1,M2,...,Mn)中估计出
θ
\theta
θ 使得 worst case squared
ℓ
2
\ell^2
ℓ2 risk 最小化:
inf
{
Π
i
}
,
θ
^
sup
θ
∈
Θ
E
θ
∥
θ
^
(
M
)
−
θ
∥
2
\inf_{\{\Pi_i\},\hat{\theta}}\sup_{\theta\in\Theta}\mathbb{E}_\theta\|\hat{\theta}(M)-\theta\|^2
{Πi},θ^infθ∈ΘsupEθ∥θ^(M)−θ∥2
即,我们需要联合设计 { Π i } \{\Pi_i\} {Πi} and θ ^ \hat{\theta} θ^.