当前位置：首页 > 软件库 > 云计算 > 云原生 >

KubeDL

基于 Kubernetes 的 AI 工作负载管理框架

授权协议 Apache-2.0

开发语言 Google Go JavaScript

所属分类云计算、云原生

软件类型开源软件

地区国产

投递者向子安

操作系统跨平台

开源组织阿里巴巴

适用人群未知

软件概览

KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架，取自"Kubernetes-Deep-Learning"的缩写；旨在使深度学习工作负载能够更轻松、更高效地在 Kubernetes 上运行。KubeDL 是一个 CNCF Sandbox 项目。

其核心功能包括：

在将 ML 模型部署为推理服务之前自动调整最佳容器级配置。- Morphling Github
用于在 CRD 中本地跟踪模型历史的模型沿袭和版本控制：何时使用哪些数据和哪些图像训练模型、模型的每个版本、正在运行的版本等。
启用利用容器映像存储和版本控制模型。每个模型版本都存储为自己的图像，以后可以使用 Serving 框架提供服务。
在单个统一控制器中支持推理框架和训练工作负载（Tensorflow、Pytorch、Mars等）。

相关资料

基于工作负载标识的GKE节点池GCP IAM绑定

我使用Cloud Composer在Kubernetes中运行任务来安排作业。我在与composer相同的GKE中设置了一个新的节点池，并使用它来运行Kubernetes任务。在该节点池中，我使用默认服务帐户，但将该帐户绑定到与Composer节点池相同的服务帐户，使用IAM策略绑定，并启用工作负载标识。然而，我可以从错误中看到kubernetes服务号缺少作曲家服务号可以访问的一些东西的权限。
GKE工作负载标识池与来自工作负载标识联合的工作负载标识池

Google docu表示，工作负载标识可以用来授权GKE POD使用Google API提供的服务（而且效果很好）。它还表示，将有一个自动创建的标识池，名为PROJECT\u ID.svc。id.goog。关于工作负载标识联合的Docu说：“您可以使用工作负载标识池来组织和管理外部标识。” 在我按照这里所述配置了工作负载标识（并且工作正常）之后，我正在尝试检索项目中现有的工作负载标识池，我希望
工作负载标识

我试图在Composer 2环境中运行GKEStartPodOperator/KubernetesPodOperator任务，该环境在自动驾驶模式下使用GKE集群。我们有一个现有的Composer 1环境，GKE集群不处于自动驾驶模式。我们使用谷歌云平台服务（BigQuery、GCS等）进行身份验证的任务在Composer 2环境中失败，但在Composer 1环境中成功。在日志文件中，我可以看
基于Cookie的WebSocket负载平衡？

我的情况是，我们目前正在编写一个使用Node的在线应用程序。服务器端的js和WebSocket侦听器。我们有两个不同的部分：一个是服务页面，另一个是使用节点。js和express ejs，另一个是完全不同的应用程序，只包含套接字。用于WebSocket的io库。现在我们来讨论WebSocket部分的可伸缩性问题。我们发现的一个解决方案是使用redis并在服务器之间共享套接字信息，但由于体系结构的
基于Spark版本的火花负载罐

我们希望以版本不可知的方式为我们的spark作业加载< code > org . Apache . spark:spark-avro _ 2.12 包。有的人在用火花3.1.2，有的人在用3.2.0。对于3.1.2上的那些，我需要加载：对于3.2.0上的，我需要加载：我是否可以实现一种通用机制来根据火花版本加载正确的jar，而无需我的用户在他们那端做任何事情？我不介意在本地保存所有版本的
Linux工作管理

工作管理指的是在单个登录终端（也就是登录的 Shell 界面）同时管理多个工作的行为。也就是说，我们登陆了一个终端，已经在执行一个操作，那么是否可以在不关闭当前操作的情况下执行其他操作呢？当然可以，我们可以再启动一个终端，然后执行其他的操作。不过，是否可以在一个终端执行不同的操作呢？这就需要通过工作管理来实现了。例如，我在当前终端正在 vi 一个文件，在不停止 vi 的情况下，如果我想在同一个

KubeDL

同类工具

相关阅读

相关文章

相关问答

相关文档