当前位置: 首页 > 知识库问答 >
问题:

AWS提供多种培训工作

阎承嗣
2023-03-14

我们目前有一个在AWS Sagemaker上运行的系统,其中几个单元有自己训练的机器学习模型工件(使用带Sagemaker SKLearning估计器的SKLearning训练脚本)。

通过使用Sagemaker的多模型endpoint,我们能够在一个实例上托管所有这些单元。

我们面临的问题是,我们需要将这个系统扩展到可以为数十万个单元训练单个模型,然后将结果模型工件托管在多模型endpoint上。但是,Sagemaker对你可以并行训练的模型数量有限制(我们的限制是30个)。

除了批量训练我们的模型之外,有人有任何想法如何在AWS Sagemaker中实现一个系统,对于数十万个单元,我们可以为每个单元拥有一个单独的训练过的模型工件吗?

有没有一种方法可以使用SKLearn估计器为一个sagemaker培训工作输出多个模型工件?

此外,Sagemaker在提交培训脚本时如何使用多个CPU?是否必须在培训脚本/估算器对象中指定,或者是否自动处理?

共有1个答案

左丘峰
2023-03-14

以下是一些想法:

1.有没有人知道如何在AWS Sagemaker中实现一个系统,这样对于几十万个单元,我们可以为每个单元提供一个单独的经过培训的模型工件?有没有一种方法可以使用SKLearn估计器为一个sagemaker培训工作输出多个模型工件?

我不知道30个培训工作的并发性是否是一个硬限制,如果它是一个拦截器,你应该尝试打开一张支持票,询问它是否是,并尝试提高它。否则,正如您所指出的,您可以尝试在一个作业中训练多个模型,并生成多个工件,您可以(a)手动发送到S3,或者(b)保存到opt/ml/model,以便将它们全部发送到模型。焦油S3中的gz工件。注意,如果这个工件变得太大,这可能变得不切实际

2.提交培训脚本时,Sagemaker如何使用多个CPU?是否必须在培训脚本/估算器对象中指定,或者是否自动处理?

这取决于您正在使用的训练容器的类型。SageMaker内置容器由亚马逊团队开发,旨在有效利用可用资源。如果您使用自己的代码,如SkLearning容器中的自定义python,您有责任确保您的代码被有效地编写并使用可用的硬件。因此,框架选择是非常重要的:)例如,一些skLearning模型支持显式地使用多个CPU(例如随机森林中的n_jobs参数),但我不认为SkLearning本机支持GPU、多GPU或多节点训练。

 类似资料:
  • 我对SageMaker有以下挑战: > 我已经下载了一个教程笔记本(https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/tensorflow_abalone_age_predictor_using_keras/tensorflow_abalone_age_predictor_us

  • QA职责 QA起到监督项目执行进度、监控项目质量的重要责任; QA辅助项目经理,推进项目开发; QA向公司的QA部门负责人汇报; QA需了解项目的所有需求; QA人员,同时承担项目上的开发工作,开发与项目保障并进。 对于目前的状况,QA的规划有如下特点: QA不作为公司的一个单独部门,而是由分散到每个项目的指定开发人员临时担任; QA是培养项目经理的重要岗位 QA工作内容 每天的进度反馈(从用户视

  • 两周培训规划 基础培训及考核-2d 代码规范培训-4h Linux基础-20h 工具培训及考核-6d gulp-4h webpack-4h postman-4h webstorm-4h git-8h gitlab-4h npm-4h bower-4h Lo-Dash-8h Chrome-dev-tool-4h Swagger-4h Graphql-4h SecureCRT-2h gitbook/m

  • 我正在尝试使用我自己的sickit learn ML模型和SageMaker,并使用github示例。 python代码如下所示: 但是我得到了这个错误: 信息:sagemaker:创建培训工作与名称:决策树样本-2018-04-24-13-13-38-281 ---------------------------------------------------------------------

  • 我想在aws sagemaker上培训YOLOv5,还要在sagemaker上部署模型,还需要了解entrypoint python脚本。我如何为此构建管道?

  • DevOps培训认证可以帮助任何渴望成为DevOps工程师职业的人。认证可从亚马逊网络服务,红帽,微软学院,DevOps Institute获得。 下面我们将一个一个地来了解他们 - AWS认证DevOps工程师 此DevOps工程师证书将测试如何使用最常见的DevOps模式在AWS上开发,部署和维护应用程序。它还会评估DevOps方法的核心原则。 该认证有两个必要条件。认证费用为美元,持续时间为