当前位置：首页 > 面试题库 >

Tensorflow：在分布式培训中使用参数服务器

窦华晖

2023-03-14

问题内容：

尚不清楚参数服务器如何知道分布式张量流训练中的操作。

例如，在此SO问题中，以下代码用于配置参数服务器和工作程序任务：

if FLAGS.job_name == "ps":
    server.join()
elif FLAGS.job_name == "worker":
    ##some training code

如何server.join()指示给定的任务应该是参数服务器？参数是一种默认的任务行为吗？您还能/应该告诉参数服务任务做什么？

编辑：这个SO问题解决了我的一些问题：“逻辑确保将Variable对象均匀分配给充当参数服务器的工作程序。”
但是参数服务器如何知道它是参数服务器？是否server.join()足够？

问题答案：

TL; DR：
TensorFlow对“参数服务器”一无所知，但它支持在不同进程中跨多个设备运行图形。其中一些进程的设备名称以开头"/job:ps"，并且其中包含变量。工人负责培训过程，当他们运行培训过程时，train_op将导致"/job:ps"设备上发生工作，这将更新共享变量。

该server.join()方法只是告诉TensorFlow阻塞并监听请求，直到服务器关闭为止（这意味着它永远永久阻塞，或者直到您终止进程为止，因为当前尚未实现干净关闭）。

在我上一个答案的示例中，PS任务是被动的，并且一切都由…中的工作程序任务控制## some training code。如果您将代码拆分到多个设备上，TensorFlow将添加适当的通信，这将扩展到不同进程中的设备。该with tf.device(tf.train.replica_device_setter(...)):块告诉TensorFlow通过将其设备设置为"/job:ps/task:{i}"（对于的不同值{i}，以循环方式选择）将每个变量置于不同的PS任务上。

当您调用时sess.run(train_op)，TensorFlow将运行一个依赖并更新变量的图，并包括更新变量的操作。这部分计算将在"/job:ps"设备上进行，因此这些设备将充当参数服务器。

类似资料：

tensorflow 固定部分参数训练,只训练部分参数的实例

本文向大家介绍tensorflow 固定部分参数训练,只训练部分参数的实例，包括了tensorflow 固定部分参数训练,只训练部分参数的实例的使用技巧和注意事项，需要的朋友参考一下在使用tensorflow来训练一个模型的时候，有时候需要依靠验证集来判断模型是否已经过拟合，是否需要停止训练。 1.首先想到的是用tf.placeholder()载入不同的数据来进行计算，比如这种方式很简单，也很
在TensorFlow培训期间打印损失

问题内容：我正在看TensorFlow“ MNIST对于ML初学者”教程，我想在每个训练步骤之后打印出训练损失。我的训练循环目前看起来像这样：现在，定义为：我要打印的损失在哪里：一种打印方式是在训练循环中显式计算：我现在有两个问题：鉴于已经在期间进行了计算，因此将其计算两次效率低下，这需要所有训练数据的前向通过次数的两倍。有没有一种方法可以访问在计算期间的value ？我如何打印？
完成正在进行的Tensorflow培训

数据丢失：不是sstable（错误的幻数）：可能您的文件格式不同，您需要使用不同的还原运算符？我看过这篇文章，但是tf。火车导出元图不起任何作用。另外，如果我尝试在新的终端选项卡中生成输出，如下所示：我得到这个错误，基本上说我不能生成输出，因为训练数据还没有保存。如何保存并完成培训？
培训期间Tensorflow Slim调试

对于初始模型，我主要遵循这一点。比方说，我想在每个训练循环上打印批次中使用的图像数据，即我想在“微调不同标签集上的模型”中打印每个训练迭代的“images”变量值代码，既然会话实际上是在slim中创建的，我该如何做呢。训练训练功能，因此我无法进行sess。在没有SES的情况下运行（[图像]）？
分布式训练

相关概念客户端 (Client)：客户端是一个用于建立 TensorFlow 计算图并创立与集群进行交互的会话层 tensorflow::Session 的程序。一般客户端是通过 python 或 C++ 实现的。一个独立的客户端进程可以同时与多个 TensorFlow 的服务端相连 (上面的计算流程一节)，同时一个独立的服务端也可以与多个客户端相连。集群 (Cluster) : 一个 Ten
十二、设备和服务器上的分布式 TensorFlow

在第 11 章，我们讨论了几种可以明显加速训练的技术：更好的权重初始化，批量标准化，复杂的优化器等等。但是，即使采用了所有这些技术，在具有单个 CPU 的单台机器上训练大型神经网络可能需要几天甚至几周的时间。在本章中，我们将看到如何使用 TensorFlow 在多个设备（CPU 和 GPU）上分配计算并将它们并行运行（参见图 12-1）。首先，我们会先在一台机器上的多个设备上分配计算，然后在

相关阅读

如何使用Socket.io防范Node.js中的分布式拒绝服务攻击？对tensorflow中的strides参数使用详解如何使用Tensorflow训练'Word2Vec'算法？培训因ResourceExausted错误而中断将Spacy培训数据格式转换为Spacy CLI格式（用于空白NER）

相关文章

25届腾讯CSIG技术产品商务培训生面经 4399产品培训生4·8笔试贝壳花桥培训运营面经蔚来培训运营实习面经江南布衣-定向培训生（销售运营方向）-一面经验

相关问答

服务于tensorflow分类器 Ant-Jmeter分布式负载测试:主服务器不向从服务器发送参数微服务 - 分布式事务与acid？在Pytorch中使用自定义损失的培训模型如何设置优化器并运行培训？无法在分布式事务中调用Connection.Commit

相关工具

Google Android 官方培训课程中文版 Tiny分布式计算框架 TensorFlow Xlight FTP服务器 CSharp 邮件服务器

相关文档

毫末科技培训资料米斯特白帽培训讲义分布式 Java 小米数据处理和分析服务（EMR）使用指南 TensorFlow 正式版中文文档