Caelus

全场景在离线混部系统
授权协议 Apache
开发语言 Google Go
所属分类 管理和监控、 DevOps/运维工具
软件类型 开源软件
地区 国产
投 递 者 西门伟
操作系统 跨平台
开源组织 腾讯
适用人群 未知
 软件概览

Caelus是一套 Kubernetes 解决方案,通过运行额外的批处理作业来重新利用节点的闲置资源,这些资源来自于在线作业的利用率不足,尤其是在低流量时期。为了使批处理作业与在线作业兼容,caelus 动态地管理多种资源隔离机制,同时检查各种指标的异常情况。如果检测到干扰,批处理作业将被限制甚至终止。

特性:

  • 收集各种指标,包括节点资源、cgroup 资源和在线作业延迟

  • 批处理作业可以在 YARN 或 Kubernetes 上运行

  • 预测节点的总资源使用情况,包括在线作业和内核模块,例如slab

  • 动态管理CPU、内存、磁盘空间等多种资源隔离机制

  • 动态检查各种指标的异常,例如CPU使用率或在线作业延迟

  • 当检测到资源压力或延迟峰值时限制甚至终止批处理作业

  • 支持 Prometheus 指标

  • 支持报警

Caelus为了适应各种的混部场景,遵循了几个关键原则,主要包括:

  • 不改变业务使用方式,便于业务迁移到Caelus混部平台。比如大数据任务仍然可以使用原有的方式提交job,如果原来是Yarn,Caelus实现了Yarn on k8s。如果大数据已经是on k8s的方式,也可以更方便的使用统一调度;
  • 对基础生态零入侵。不论是对hadoop,还是对k8s,都是零入侵的实现,因此保证了对多种版本的兼容性,以及后续的可扩展性;
  • 非耦合、可扩展的架构。在实现时,充分兼顾了未来的可扩展性,大多功能都是以插件的形式实现。
  • 腾讯大数据星火计划技术沙龙第8期《Caelus——腾讯基于Kubernetes的全场景在离线混部方案》。本次沙龙围绕从上层的Kubernetes调度器、离线资源管理方案,到底层OS隔离,为大家分享了Caelus方案的设计思路及生产实践。 以下是本次沙龙的直播回放,欢迎大家收看。 「腾讯大数据-星火计划技术沙龙」腾讯Caelus在离线混合部署技术沙龙回顾 获取讲师PPT,请关注微信公众号“腾讯大数据

 相关资料
  • 我在这里阅读了几个与我的问题相关的问题/解决方案。但似乎什么都不管用。 所以我有一个全屏模式的primarystage,比如说,如果我点击一个按钮,它会改变场景。但舞台似乎显示了任务栏。我还通过将此添加到所有场景方法中解决了此问题。。 但是,场景中的过渡不是那么流畅。首先,它进入桌面,然后回到全屏...这不是理想的解决方案。 以下是我的初级阶段代码: 这是我改变场景的代码: 我不知道这是虫子还是什

  • 我是JavaFX的新手。我有我的主要场景和次要场景;当我从第一个场景切换到第二个场景时,窗口的条形图变得可见。我该怎么解决呢?

  • 所有堆栈溢出成员, 我在研究实体关系图,在关系数据库模块。我们已经对ER图有了足够的了解,可以创建实体,识别每个实体的属性,包括主键、外键、实体之间的关系和基数约束。 我们从考文垂大学得到了一个官方的场景,它要求根据这个场景绘制ER图。问题是;没有一个学生得到正确的答案(对ERD不满意),甚至连教师和教师也对此感到困惑。我回答了我所理解的,但我不满意我的回答。 这是一个场景: 考虑组织中的以下场景

  • 问题内容: 我有一个使用javafx Scene来渲染某些东西的应用程序,并且我想将该渲染结果放入我在Javafx中创建的某些GUI中。我该怎么做? 基本上,有一些容器可以放入场景,然后将其放入GUI。 抱歉,如果是新手问题,我是JavaFX的新手 问题答案: 该场景只有一个顶级父节点作为根。您可以获取它并放入另一个场景。

  • 我有一个Rest Web客户机来执行API调用,并按照下面给出的方式处理异常。 我希望以全局方式处理404、401和400错误,而不是在单个客户端级别处理。我们如何才能实现同样的目标。

  • 我该如何使用和部署 Akka? Akka 可以有几种使用方式: 作为一个库: 以普通jar包的形式放在classpath上,或放到web应用中的 WEB-INF/lib位置 作为一个独立的应用程序,使用微内核(Scala) / 微内核(Java) ,自己使用一个main类来初始化Actor系统 将Akka作为一个库 当编写web应用的时候,你很可能要使用这种方式。通过添加更多的模块,可以有多种使用