当前位置: 首页 > 知识库问答 >
问题:

在AWS Sagemaker培训期间从检查点重新加载

谭勇
2023-03-14

Sagemaker是培训您的模型的绝佳工具,我们通过使用AWS spot实例节省了一些资金。然而,培训工作有时会在中间停止。我们正在使用一些机制在重新启动后从最新的检查点继续。另请参见文档。

不过,您如何有效地测试这种机制?你能自己触发吗?否则,您必须等待spot实例实际重新启动。

另外,您是否需要为此使用链接的checkpoint_s3_uri参数或model_dir?例如,TensorFlow估计器文档似乎为检查点建议了一些model_dir

共有1个答案

徐俊人
2023-03-14

由于您无法手动终止sagemaker实例,请运行少量时代的Amazon SageMaker托管点培训,Amazon SageMaker会将您的检查点文件备份到S3。检查检查点是否在那里。现在运行第二次训练运行,但这次将第一个作业的检查点位置提供给checkpoint_s3_uri。参考在这里,这也回答了你的第二个问题。

 类似资料:
  • 对于初始模型,我主要遵循这一点。比方说,我想在每个训练循环上打印批次中使用的图像数据,即我想在“微调不同标签集上的模型”中打印每个训练迭代的“images”变量值代码,既然会话实际上是在slim中创建的,我该如何做呢。训练训练功能,因此我无法进行sess。在没有SES的情况下运行([图像])?

  • 问题内容: 我正在看TensorFlow“ MNIST对于ML初学者”教程,我想在每个训练步骤之后打印出训练损失。 我的训练循环目前看起来像这样: 现在,定义为: 我要打印的损失在哪里: 一种打印方式是在训练循环中显式计算: 我现在有两个问题: 鉴于已经在期间进行了计算,因此将其计算两次效率低下,这需要所有训练数据的前向通过次数的两倍。有没有一种方法可以访问在计算期间的value ? 我如何打印?

  • 我遵循Gilbert Tunner教程使用Tensorflow 2进行对象检测,但在使用: Traceback(最近的调用最后): 文件"model_main_tf2.py",第113行,在tf.compat.v1.app.run()文件"C:\用户\anaconda3\envs\tenorflow 2\lib\site-包\tenorflow\python\平台\app.py",第40行,在运行

  • 我想在flink中测试一次端到端的处理。我的工作是: Kafka资料来源- 我在mapper1中放了一个< code > thread . sleep(100000),然后运行了这个作业。我在停止作业时获取了保存点,然后从mapper1中删除了< code > thread . sleep(100000),我希望该事件应该会被重放,因为它没有下沉。但这并没有发生,乔布斯正在等待新的事件。 我的Ka

  • QA职责 QA起到监督项目执行进度、监控项目质量的重要责任; QA辅助项目经理,推进项目开发; QA向公司的QA部门负责人汇报; QA需了解项目的所有需求; QA人员,同时承担项目上的开发工作,开发与项目保障并进。 对于目前的状况,QA的规划有如下特点: QA不作为公司的一个单独部门,而是由分散到每个项目的指定开发人员临时担任; QA是培养项目经理的重要岗位 QA工作内容 每天的进度反馈(从用户视

  • 我们正在构建一个使用Spark Streaming和Kafka的容错系统,并且正在测试Spark Streaming的检查点,以便在Spark作业因任何原因崩溃时可以重新启动它。下面是我们的spark过程的样子: Spark Streaming每5秒运行一次(幻灯片间隔),从Kafka读取数据 Kafka每秒大约接收80条消息 我们想要实现的是一个设置,在这个设置中,我们可以关闭spark流作业(