当前位置: 首页 > 软件库 > 云计算 > 云原生 >

KubeDL

基于 Kubernetes 的 AI 工作负载管理框架
授权协议 Apache-2.0
开发语言 Google Go JavaScript
所属分类 云计算、 云原生
软件类型 开源软件
地区 国产
投 递 者 向子安
操作系统 跨平台
开源组织 阿里巴巴
适用人群 未知
 软件概览

KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"的缩写;旨在使深度学习工作负载能够更轻松、更高效地在 Kubernetes 上运行。KubeDL 是一个 CNCF Sandbox 项目。

其核心功能包括:

  • 在将 ML 模型部署为推理服务之前自动调整最佳容器级配置。- Morphling Github
  • 用于在 CRD 中本地跟踪模型历史的模型沿袭和版本控制:何时使用哪些数据和哪些图像训练模型、模型的每个版本、正在运行的版本等。
  • 启用利用容器映像存储和版本控制模型。每个模型版本都存储为自己的图像,以后可以使用 Serving 框架提供服务。
  • 在单个统一控制器中支持推理框架和训练工作负载(Tensorflow、Pytorch、Mars等)。

 

 相关资料
  • 我使用Cloud Composer在Kubernetes中运行任务来安排作业。我在与composer相同的GKE中设置了一个新的节点池,并使用它来运行Kubernetes任务。在该节点池中,我使用默认服务帐户,但将该帐户绑定到与Composer节点池相同的服务帐户,使用IAM策略绑定,并启用工作负载标识。 然而,我可以从错误中看到kubernetes服务号缺少作曲家服务号可以访问的一些东西的权限。

  • Google docu表示,工作负载标识可以用来授权GKE POD使用Google API提供的服务(而且效果很好)。它还表示,将有一个自动创建的标识池,名为PROJECT\u ID.svc。id.goog。 关于工作负载标识联合的Docu说:“您可以使用工作负载标识池来组织和管理外部标识。” 在我按照这里所述配置了工作负载标识(并且工作正常)之后,我正在尝试检索项目中现有的工作负载标识池,我希望

  • 我试图在Composer 2环境中运行GKEStartPodOperator/KubernetesPodOperator任务,该环境在自动驾驶模式下使用GKE集群。我们有一个现有的Composer 1环境,GKE集群不处于自动驾驶模式。我们使用谷歌云平台服务(BigQuery、GCS等)进行身份验证的任务在Composer 2环境中失败,但在Composer 1环境中成功。 在日志文件中,我可以看

  • 我的情况是,我们目前正在编写一个使用Node的在线应用程序。服务器端的js和WebSocket侦听器。我们有两个不同的部分:一个是服务页面,另一个是使用节点。js和express ejs,另一个是完全不同的应用程序,只包含套接字。用于WebSocket的io库。现在我们来讨论WebSocket部分的可伸缩性问题。 我们发现的一个解决方案是使用redis并在服务器之间共享套接字信息,但由于体系结构的

  • 我们希望以版本不可知的方式为我们的spark作业加载< code > org . Apache . spark:spark-avro _ 2.12 包。 有的人在用火花3.1.2,有的人在用3.2.0。 对于3.1.2上的那些,我需要加载: 对于3.2.0上的,我需要加载: 我是否可以实现一种通用机制来根据火花版本加载正确的jar,而无需我的用户在他们那端做任何事情? 我不介意在本地保存所有版本的

  • 工作管理指的是在单个登录终端(也就是登录的 Shell 界面)同时管理多个工作的行为。也就是说,我们登陆了一个终端,已经在执行一个操作,那么是否可以在不关闭当前操作的情况下执行其他操作呢? 当然可以,我们可以再启动一个终端,然后执行其他的操作。不过,是否可以在一个终端执行不同的操作呢?这就需要通过工作管理来实现了。 例如,我在当前终端正在 vi 一个文件,在不停止 vi 的情况下,如果我想在同一个