当前位置: 首页 > 工具软件 > rtop > 使用案例 >

Stanford 3: rTop-k: A Statistical Estimation Approach to Distributed SGD

闻飞跃
2023-12-01

本文同样来自stanford 组,不过他研究的是分布式学习中的weight compression and estimation problem.

问题建模

分布式统计参数估计

首先,我们考虑 NN 有 d d d 个参数, 他们服从分布 p θ p_\theta pθ. 总共有 n n n 个节点观测 p θ p_\theta pθ 每个节点得到一个 realization X n X_n Xn。 因此我们有
X 1 , X 2 , . . . , X n ∼ i.i.d. p θ X_1,X_2,...,X_n\overset{\text{i.i.d.}}{\sim} p_\theta X1,X2,...,Xni.i.d.pθ

Problem setup 是: 每个节点把自己的观测 X i X_i Xi 独立的编码为 k k k-bits
M i = Π i ( X i ) M_i=\Pi_i(X_i) Mi=Πi(Xi)
并发送给PS。而PS的目标是从 n k nk nk-bits M = ( M 1 , M 2 , . . . , M n ) M=(M_1,M_2,...,M_n) M=(M1,M2,...,Mn)中估计出 θ \theta θ 使得 worst case squared ℓ 2 \ell^2 2 risk 最小化:
inf ⁡ { Π i } , θ ^ sup ⁡ θ ∈ Θ E θ ∥ θ ^ ( M ) − θ ∥ 2 \inf_{\{\Pi_i\},\hat{\theta}}\sup_{\theta\in\Theta}\mathbb{E}_\theta\|\hat{\theta}(M)-\theta\|^2 {Πi},θ^infθΘsupEθθ^(M)θ2

即,我们需要联合设计 { Π i } \{\Pi_i\} {Πi} and θ ^ \hat{\theta} θ^.

 类似资料:

相关阅读

相关文章

相关问答