1.5 TrainJob功能

优质
小牛编辑
131浏览
2023-12-01

前面几章介绍了Cloud-ML的一些概念,相信大家对下面这些术语和工具已经有所了解:

  1. Org及AKSK;
  2. Cloud-ML的四个任务类型,Trainjob,Dev, ModelService 和 TensorBoard,并了解这几个任务的区别;
  3. 安装了Cloud-ML SDK;
  4. 已经申请了Quota;
  5. 了解目前Cloud-ML的集群环境。

这一部分我们详细介绍Cloud-ML Trainjob的功能,将涵盖以下五部分内容:

第一部分:Trainjob 基本组件和训练流程 我们将介绍使用Cloud-ML Trainjob 所需要的基本要素和基本流程。

第二部分:上手Trainjob 我们以Tensorflow为例,实现一个简单的线性回归模型,通过这个例子,我们将介绍Cloud-ML Trainjob 最基本的使用方法,包括怎么使用命令行或Web界面提交任务,怎样查看已提交的任务列表,怎样查看任务事件和log以及删除不需要的任务;

第三部分:使用GPU GPU 设备可以用来加速训练,这一部分我们将介绍怎样通过 Cloud-ML 使用 GPU 进行训练;

第四部分:使用FDS 训练任务离不开训练数据,训练的结果也需要及时保存,这一部分我们将介绍怎样从FDS获取数据及保存训练结果到FDS;

第五部分:使用FDS FUSE 使用FDS可以实现数据的持久化,但是也存在一些问题,比如受限于特定的框架。为了更通用的解决持久化问题,可以使用Fuse功能。

第六部分:高级功能 这一部分我们介绍Cloud-ML提供的一些高级训练功能,包括(注意,下面这些功能有些依赖深度学习框架本身提供,具体差别会在详细介绍中列出):1)分布式训练; 2)自动超参数调优; 3)使用自定义镜像; 4)使用Tensorflow模板应用