当前位置: 首页 > 知识库问答 >
问题:

在jupyter笔记本中使用gCloud ml引擎(或ai平台)命令向f1-Micro提交作业失败

国阳
2023-03-14

我正试图提交一份谷歌云工作,为mnist数字培训cnn模型。由于我是gcp的新手,我想先在f1微型机上训练这项工作,以便练习。但并不成功。我有两个问题。

这是我的系统。Windows10、anaconda、jupyter笔记本6、python 3.6、TF1.13.0。起初,我的模型在没有任何gcp命令的情况下运行良好。然后我按照gcp课程的建议将文件打包成一个模块。并对本地列车使用gcloud命令。在我关闭并停止ipynb文件之前,单元格似乎被卡住了,什么也不做。训练刚开始,结果是正确的,我在Tensorboard上进行了监控。我需要做什么才能使它在不关闭笔记本的情况下从手机正常运行?顺便说一句,我可以让它运行在终端没有这个问题虽然。

第二个问题,我然后尝试做一个提交到谷歌云机器。我用f1微创建了一个vm实例来练习,因为它有很多空闲时间。但是我的命令选项不被接受。我尝试了几种机器类型的格式。我不能正确设置机器类型。我如何构建到我创建的实例的连接?

有什么建议吗?谢谢代码在这里。

#1.local submission lines


OUTDIR='trained_test'

INPDIR='..\data'
shutil.rmtree(path = OUTDIR, ignore_errors = True) 

!gcloud ai-platform local train \
    --module-name=trainer.task \
    --package-path=trainer \
    -- \
    --output_dir=$OUTDIR \
    --input_dir=$INPDIR \
    --epochs=2 \
    --learning_rate=0.001 \
    --batch_size=100


#2. submit to compute engine

OUTDIR='gs://'+BUCKET+'/digit/train_01'
INPDIR='gs://'+BUCKET+'/digit/data'
JOBNAME='kaggle_digit_01_'+datetime.now().strftime("%Y%m%d_%H%M%S")

!gcloud ai-platform jobs submit training $JOBNAME \
    --region=$REGION \
    --module-name=trainer.task \
    --package-path=trainer \
    --job-dir=$OUTDIR \
    --staging-bucket=gs://$BUCKET \
    --scale-tier=custom \
    --master-machine-type=zones/us-central1-a/machineTypes/f1-micro \
    --runtime-version 1.13 \
    -- \
    --output_dir=OUTDIR \
    --input_dir=INPDIR \
    --epochs=5 --learning_rate=0.001 --batch_size=100 \

错误消息:

ERROR: (gcloud.ai-platform.jobs.submit.training) INVALID_ARGUMENT: Field: master_type Error: The specified machine type is not supported: zones/us-central1-a/machineTypes/f1-micro
- '@type': type.googleapis.com/google.rpc.BadRequest
  fieldViolations:
  - description: 'The specified machine type is not supported: zones/us-central1-a/machineTypes/f1-micro'
    field: master_type

更新:

改变机器类型确实有效

--scale-tier=CUSTOM \
--master-machine-type=n1-standard-4 \

我还将以下内容放在开头,以便笔记本识别文件格式,如$jobname。。。

import gcsfs

顺便说一句,工作指导似乎并不重要。

然而,当地的火车仍然有同样的问题,我需要关闭并停止笔记本才能开始训练。有人能对此提出建议吗?

共有1个答案

郏佐
2023-03-14

人工智能平台培训不支持f1 micro。以下是支持的计算机列表。此外,您不需要指定区域。只是机器类型。即--master machine type=n1-standard-4

 类似资料:
  • 我已经通过Anaconda安装了Qiskit,并在Python 3.8中设置了一个虚拟环境。当我在Anaconda提示符中运行命令时,我得到一个错误。我不确定是什么问题。我怎么修理它? 已满足要求:c:\users\brenm\anaconda3\envs.venv\lib\site软件包中的qiskit(0.23.1)已满足要求:c:\users\brenm\anaconda3\envs.ven

  • 我试图从谷歌云平台上的人工智能平台的Jupyter笔记本中访问存储在BigQuery中的数据。首先,我尝试了以下代码: 身份验证凭据存储在本地计算机上名为gcpcred的json文件中,但这给了我一个错误提示 FileNotFoundError:[Errno 2]没有这样的文件或目录:'\local\u path\gcpcred。json 我想既然我在人工智能平台(在云上)运行这个,我就不必使用这

  • 每个人都试着用https://console.developers.google.com/project/_/mc/template/hadoop? Spark对我来说安装正确,我可以SSH进入hadoop worker或master,Spark安装在/home/hadoop/Spark install/ 我可以使用spark python shell在云存储中读取文件 lines=sc.text

  • 我正在使用谷歌可乐人工智能平台来训练我在本地电脑上的Jupyter笔记本上测试的模型。它没有造成任何进口问题。但是在谷歌云的jupyterlab中,它无法导入原型。 我尝试在Google Cloud的SSH终端中测试导入,结果显示没有导入错误。 我尝试卸载并安装google和protobuf,但问题依然存在。 我尝试按照[this][1]问题中的建议创建init.py文件,但没有解决问题。 使用T

  • 我在Windows 10上运行Anaconda,并使用Jupyter Notebook进行机器学习项目。 我最近开始意识到Conda中的虚拟环境。 我使用以下命令在conda中创建了一个虚拟环境 激活环境 ipykernel中安装的环境(不确定使用的术语是否正确) 现在环境是可见的jupyter笔记本,但当我启动它我得到

  • im关注亚马逊文档,向emr集群提交spark作业https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/ 在按照说明进行操作后,使用frecuent进行故障排除,它由于未解析的地址与消息类似而失败。 错误火花。SparkContext:初始化SparkContext时出错