TensorFlow分布式计算

精华

小牛编辑

244浏览

2023-03-14

本章将重点介绍如何开始使用分布式TensorFlow。目的是帮助开发人员了解重复出现的基本分布式TF概念，例如TF服务器。我们将使用Jupyter Notebook来评估分布式TensorFlow。使用TensorFlow实现分布式计算如下所述 -

第1步 - 为分布式计算导入必需的模块 -

import tensorflow as tf

第2步 - 使用一个节点创建TensorFlow集群。让这个节点负责一个名称为“worker”的作业，并在localhost:6688上运行一个作业。

cluster_spec = tf.train.ClusterSpec({'worker' : ['localhost:6688']})
server = tf.train.Server(cluster_spec)
server.target

以上脚本生成以下输出 -

'grpc://localhost:6688'
The server is currently running.

第3步 - 可以通过执行以下命令计算具有相应会话的服务器配置 -

server.server_def

以上命令生成以下输出 -

cluster {
   job {
      name: "worker"
      tasks {
         value: "localhost:6688"
      }
   }
}
job_name: "worker"
protocol: "grpc"

第4步 - 启动TensorFlow会话，执行引擎是服务器。使用TensorFlow创建本地服务器并使用lsof查找服务器的位置。

sess = tf.Session(target = server.target)
server = tf.train.Server.create_local_server()

第5步 - 查看此会话中可用的设备并关闭相应的会话。

devices = sess.list_devices()
for d in devices:
   print(d.name)
sess.close()

以上命令生成以下输出 -

/job:worker/replica:0/task:0/device:CPU:0