问题：

在AWS Sagemaker培训期间从检查点重新加载

谭勇

2023-03-14

Sagemaker是培训您的模型的绝佳工具，我们通过使用AWS spot实例节省了一些资金。然而，培训工作有时会在中间停止。我们正在使用一些机制在重新启动后从最新的检查点继续。另请参见文档。

不过，您如何有效地测试这种机制？你能自己触发吗？否则，您必须等待spot实例实际重新启动。

另外，您是否需要为此使用链接的checkpoint_s3_uri参数或model_dir？例如，TensorFlow估计器文档似乎为检查点建议了一些model_dir。

共有1个答案

徐俊人

2023-03-14

由于您无法手动终止sagemaker实例，请运行少量时代的Amazon SageMaker托管点培训，Amazon SageMaker会将您的检查点文件备份到S3。检查检查点是否在那里。现在运行第二次训练运行，但这次将第一个作业的检查点位置提供给checkpoint_s3_uri。参考在这里，这也回答了你的第二个问题。

类似资料：

培训期间Tensorflow Slim调试

对于初始模型，我主要遵循这一点。比方说，我想在每个训练循环上打印批次中使用的图像数据，即我想在“微调不同标签集上的模型”中打印每个训练迭代的“images”变量值代码，既然会话实际上是在slim中创建的，我该如何做呢。训练训练功能，因此我无法进行sess。在没有SES的情况下运行（[图像]）？
在TensorFlow培训期间打印损失

问题内容：我正在看TensorFlow“ MNIST对于ML初学者”教程，我想在每个训练步骤之后打印出训练损失。我的训练循环目前看起来像这样：现在，定义为：我要打印的损失在哪里：一种打印方式是在训练循环中显式计算：我现在有两个问题：鉴于已经在期间进行了计算，因此将其计算两次效率低下，这需要所有训练数据的前向通过次数的两倍。有没有一种方法可以访问在计算期间的value ？我如何打印？
TensorFlow 2.4，model_main_tf2.py，训练期间的检查点问题

我遵循Gilbert Tunner教程使用Tensorflow 2进行对象检测，但在使用： Traceback（最近的调用最后）：文件"model_main_tf2.py"，第113行，在tf.compat.v1.app.run（）文件"C：\用户\anaconda3\envs\tenorflow 2\lib\site-包\tenorflow\python\平台\app.py"，第40行，在运行
Flink检查点不重放保存点/检查点期间正在处理的kafka事件

我想在flink中测试一次端到端的处理。我的工作是： Kafka资料来源- 我在mapper1中放了一个< code > thread . sleep(100000)，然后运行了这个作业。我在停止作业时获取了保存点，然后从mapper1中删除了< code > thread . sleep(100000)，我希望该事件应该会被重放，因为它没有下沉。但这并没有发生，乔布斯正在等待新的事件。我的Ka
QA 培训

QA职责 QA起到监督项目执行进度、监控项目质量的重要责任； QA辅助项目经理，推进项目开发； QA向公司的QA部门负责人汇报； QA需了解项目的所有需求； QA人员，同时承担项目上的开发工作，开发与项目保障并进。对于目前的状况，QA的规划有如下特点： QA不作为公司的一个单独部门，而是由分散到每个项目的指定开发人员临时担任； QA是培养项目经理的重要岗位 QA工作内容每天的进度反馈（从用户视
火花流与Kafka-从检查点重新启动

我们正在构建一个使用Spark Streaming和Kafka的容错系统，并且正在测试Spark Streaming的检查点，以便在Spark作业因任何原因崩溃时可以重新启动它。下面是我们的spark过程的样子： Spark Streaming每5秒运行一次（幻灯片间隔），从Kafka读取数据 Kafka每秒大约接收80条消息我们想要实现的是一个设置，在这个设置中，我们可以关闭spark流作业（

在AWS Sagemaker培训期间从检查点重新加载

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档