当前位置: 首页 > 知识库问答 >
问题:

云原生 - 构建新型算力云的技术难点与挑战有哪些?

令狐昌胤
2023-07-13

构建新型算力云的技术难点与挑战有哪些,请从现状和未来趋势展开分析

共有1个答案

司空实
2023-07-13

一、现状

01 当前国内的多个超算中心、智算中心处于烟囱式建设,很多数据中心在建设初期并未考虑到将来算力的互联互通诉求。
02 当前中国算力行业面临很大的国际压力,芯片卡脖子背景下,一些真正能够支撑大模型开发的云基础设施环境仍旧稀缺,严重阻碍技术创新。
03 AIGC大趋势下,市场不断提出新的算力诉求,尤其是近几个月,算力租赁、算力市场、算力交易的概念不断被提出,从To B到To C,很多个人新玩家都对算力提出比较关键的使用需求。
04 国家政策要求,算力新基建的稳态发展、低碳发展,要求发展绿色算力、即取即用。

二、构建绿色新型算力云的挑战

构建绿色新型算力云的主要挑战在于三点,它们相互关联。
由于各个算力中心的烟囱式建设,算力资源管理处于割裂状态,往往不同的算力中心建设了各自的算力管理平台,如典型的超算平台、智算平台、通用的算力管理平台,因此建设算力的统一视图和算力的感知度量就很关键。

三、如何实现对以上几类异构算力进行统一纳管?

原先不同的算力中心资源管理建设方案不统一,存在物理机、虚拟化、容器化几种形式。有时候超算中心不一定做虚拟化,直接使用裸金属物理机以达到高性能运行业务诉求。如果是基于Kubernetes的业务,为提升部署密度,往往直接基于裸金属运行容器化业务,所以不同的算力应用场景对算力资源的管理建设方案也不一样,对于存量的、新建的算力中心,需要针对性地制定方案。

四、如何对多元任务负载进行编排和调度?

实际落地场景中,根据业务属性,有Long Running(一直运行)的业务,也有一次性的任务,而GPU训练的模型在第一次训练好之后,有时可能还需执行增量训练,这其中其实涉及大量的网络通信和数据交换。随着AI for Science的出现,超算与智算的融合已成为刚性需求,业务对于时延、敏感度、稳定性的诉求,对云网协同、资源调度、复杂业务编排等算力云的底层实力进一步提出了挑战。

 类似资料:
  • 当前局势下,构建绿色算力面对那些挑战?如何对绿色算力进行统一纳管?如何对多元任务负载进行编排和调度?

  • 关键技术和挑战 从技术角度讲,区块链涉及到的领域比较杂,包括分布式、存储、密码学、心理学、经济学、博弈论、网络协议等,下面列出了目前认为有待解决或改进的关键技术点。 密码学技术 怎么防止交易记录被篡改? 怎么证明交易方的身份? 怎么保护交易双方的隐私? 密码学正是要提供解决这些问题的有效手段。传统方案包括 hash 算法,加解密算法,数字证书和签名(盲签名、环签名)等。区块链技术的应用将可能刺激密

  • 我正在使用google cloud build来构建我的maven项目,并使用JFrog antifactory registry来存储maven工件。云中构建需要这些工件。我尝试了几部纪录片[1],[2]。但有时会出现很多错误。我可以带上最新的指南来集成云构建和JFrog antifactory吗。正确的身份验证方法需要使用用户名密码以外的其他方法。可以使用API密钥方法。 [1].https:

  • 任何事物的发展,从来不是一蹴而就的。 商贸合作中签订的合同,怎么确保对方能遵守和执行? 餐厅宣称刚从海里打捞上来的三文鱼,怎么证明捕捞时间和运输中的卫生? 数字世界里,怎么证明你对资产的所有? 囚徒困境中的两个人,怎样能达成利益的最大化? 宇宙不同文明之间的猜疑链,有没有可能打破? 这些看似很难解决的问题,在区块链的世界里已经有了初步的答案。 本章将简要介绍区块链相关的背景知识,包括其起源、定位、

  • 云计算技术: 首先让大家明白什么是云端,所谓云端需要两层理解 服务不在本地,这一层可以理解为服务器 它和普通的服务器是不一样的,这些云端的服务器的资源是共享的,一旦一个服务器不能承受,将会把任务分配给其他机器。 云技术与其他技术的区别:        云技术可以使用的语言有java,c++等。云技术的开发,并没有发展什么新语言,而是在其他语言的基础上。比如Java语言。与其他技术,最显著的区别,不

  • 现在我们将探索云原生应用架构的几个主要特征,和这些特征是如何解决我们前面提到的使用云原生应用架构的动机。 12因素应用 12因素应用是一系列云原生应用架构的模式集合,最初由Heroku提出。这些模式可以用来说明什么样的应用才是云原生应用。它们关注速度、安全、通过声明式配置扩展、可横向扩展的无状态/无共享进程以及部署环境的整体松耦合。如Cloud Foundry、Heroku和Amazon Elas