6.2. Edge
对5G+AI时代的新型算力平台(边缘计算)与网络连接(算力网络)进行了系统性的介绍。
shi W等人10将“边缘”定义为数据源与云数据中心之间的任何计算资源和网络资源.对于其优势和必要性,Hu W等人11通过实验进行了相关验证,并通过实验证明移动设备盲目卸载计算任务到云可能导致更低的性能和更高的能耗.
边缘计算的定义是:在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的分布式开放平台(架构),就近提供边缘智能服务,满足行业数字化在敏捷连接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。它可以作为连接物理和数字世界的桥梁,使能智能资产、智能网关、智能系统和智能服务。
边缘计算是在网络边缘提供计算、存储等资源,通过分布式的系统满足上层应用对时延等性能指标的要求,同时降低资源消耗,降低综合支出。因此边缘计算无法像传统云计算那样通过集中化、规模化管控,需要找到新的途径实现对离散资源的管控与资源互通,并实现网络资源和计算资源的协同调度,从而向用户提供有质量保证的服务。1
6.2.1. 端侧AI的优点9
隐私性: 数据的存储计算等都在本地,避免了传到云端可能带来的数据安全问题。
可靠性: 决策在本地大幅降低了数据经过更长的通路产生错误的几率。
低延时: 数据的存储计算在本地处理、本地响应方面时间更短速度更快。
高效率:选择性占用网络带宽资源,高效利用网络带宽,减少不必要流量,提升效率。
个性化: 透过持续学习、模型调整和保护隐私的分布式学习,终端侧人工智能使设备具有与人类相似的理解能力和行为,给人们带来更个性化的互动与体验。
6.2.2. 算力
用于AI和图形处理的每秒浮点运算次数,FLOP/s),智能社会对算力的需求主要是浮点运算能力,专用AI芯片如华为昇腾910采用7nm工艺,半精度FP16算力达256TFLOP/s,低功耗的12nm芯片昇腾310半精度FP16算力也达到了8 TFLOP/s。过去5年,随着深度学习算法的演进,AI训练对算力的需求增加了30万倍,一些互联网厂家已经将算力作为服务提供给用户,从1 FP 32 TFLOP/s或8 FP 16 TFLOP/s到4FP 32 TFLOP/s或32 FP 16 TFLOP/s的AI推理加速服务,简单的语音语义识别或单流视频分析 8 FP16 TFLOP/s即可满足,复杂的推荐引擎或风险检测则需要32 FP 16 TFLOP/s的算力2
6.2.3. 新型算力平台:边缘计算
边缘计算包含把数据处理任务放至网络边缘的设备上,使其尽可能地靠近数据源。这种计算方式能以非常高的速度实现实时的数据处理,对很多具备机器学习能力的复杂物联网方案而言是必备能力。在此基础上,边缘计算能够缓解网络压力、降低能耗、提升安全性以及改善数据隐私。7
中国电信在深圳召开的5G创新合作大会上对外展示了自主研发的基于分布式开放平台的多接入边缘计算(Multi-access Edge Computing,MEC)平台。该平台就近提供边缘智能服务,支持固定/移动网络接入、第三方能力/应用灵活部署及边缘能力统一开放,可应用于工业互联网、高清视频、车联网等行业。3
边缘计算凭借“边缘”的特性,可以更好地支撑云端的应用,而云计算则能够基于大数据分析,完成边缘节点无法胜任的计算任务,助力边缘计算更加满足本地化的需求。
6.2.4. 端计算端
即用户终端,如PC、手机和物联网终端设备等。用户终端设备具有一定的计算能力,能够对采集的数据进行实时处理,进行本地优化控制、故障自动处理、负荷识别和建模等操作。在和网络进行连接后,用户终端设备可以把加工汇集后的高价值数据与云端进行交互,在云端进行全网的安全和风险分析、大数据和人工智能的模式识别、节能和策略改进等操作。同时,如果遇到网络覆盖不到的情况,可以先在边缘侧进行数据处理,当有网络时再将数据上传到云端,在云端进行数据存储和分析3。
6.2.5. 算力网络
算力网络是一种通过网络分发服务节点的算力信息、存储信息、算法信息等,结合网络信息(如路径、时延等),针对用户需求,提供最佳的资源分配及网络连接方案,并实现整网资源最优化使用的解决方案。算力网络将具备以下四个基本特征。
资源抽象:算力网络需要将计算资源、存储资源、网络资源(尤其是广域范围内的连接资源)及算法资源等都抽象出来,作为产品的组成部分提供给用户。
业务保证:以业务需求划分服务等级,而不是简单地以地域划分,向用户承诺诸如网络性能、算力大小等服务等级的协议(Service-LevelAgreement,SLA),屏蔽底层的差异性(如异构计算、不同类型的网络连接等)。
统一管控:统一管控云计算节点、边缘计算节点、网络资源(含计算节点内部网络和广域网络)等,根据业务需求对算力资源及相应的网络资源、存储资源等进行统一调度。
弹性调度:实时监测业务流量,动态调整算力资源,完成各类任务,高效处理和整合输出,并在满足业务需求的前提下实现资源的弹性伸缩,优化算力分配
6.2.6. 硬件:Jetson Nano7
推理时间第一名:
在推理时间方面,组合使用 ResNet-50、TensorRT 和 PyTorch 的 Jetson Nano 获胜。该组合用 2.67 毫秒处理一张图像,即每秒处理 375 帧。
这个结果很让人惊讶,因为其超过英伟达公布的推理速度十倍之多。结果差异的原因很可能是英伟达使用的是 TensorFlow,而非 PyTorch。
准确度第一名:
准确度方面,最佳结果来自 Jetson Nano 与 TF-TRT 和 EfficentNet-B3 的组合,其实现了 85% 的准确度。但是,这些结果是相对的,因为我们训练模型时,有的模型使用的数据集比其它模型更大一些。
可以看到,当我们向模型输入更小的数据集时,准确率会更高;而当使用完整数据集时,准确度更低。这个结果的原因是我们没有对更小的数据集进行随机排序,因此其中的图像没有实现合理的平衡。
当涉及到选择和部署预编译的模型和框架时。Jetson 是最灵活的。
6.2.7. 软件:KubeEdge4
KubeEdge构建于Kubernetes之上,是将Kubernetes原生的容器编排能力扩展到了边缘节点上,并增加了对边缘设备的管理功能。它由云端部分和边缘部分组成,核心基础架构提供了对网络、应用部署和云边之间元数据同步的支持。它同时支持MQTT,使得边缘设备可以通过边缘节点接入集群。 https://github.com/kubeedge/kubeedge
6.2.8. 边缘智能6
边缘智能不是边缘计算和人工智能的简单结合,虽然目前国际上尚未建立边缘人工智能的标准架构和统一算法,但各大厂商已经开始在相关领域进行探索。谷歌、亚马逊和微软等传统云服务提供商推出了边缘人工智能服务平台,通过在终端设备本地运行预先训练好的模型进行ML(Machine Learning,机器学习)推断,将智能服务推向边缘。此外,市场上已经出现多种边缘人工智能芯片,如谷歌edge TPU、英特尔Nervana NNP、华为Ascend 910和Ascend 310等。
另外,还有很多企业都试图在智能手机、汽车甚至可穿戴设备等边缘设备上运行人工智能算法,而不是跟中心云平台或服务器通信,使得边缘设备具备了在本地处理信息的能力,并且可以更快速地对情况做出响应。边缘人工智能对消费者电子、电信、医疗影像等主流行业均有应用意义。比如说在监控摄像头上运行人脸识别、肩颈识别等人工智能算法,可以快速提供安防威胁识别,如果结合本地数据存储,则能够更进一步发现和定位安全威胁嫌疑人,此外,边缘人工智能在即时驾驶决策、婴儿监视器、无人机、机器人视觉能力(无互联网连接)等方面也具有非常积极的价值。
需要指出的是,边缘人工智能具有减少延迟、快速做出决策的优势,但也存在计算和存储能力受限的问题,因此边缘人工智能未来将与云端人工智能构成混合模式,从而提供更好的人工智能服务。
6.2.9. 挑战
边缘智能产业生态逐渐构建,不过在形势大好的背后,边缘智能仍然面临着各种各样的难题。5
由于云计算服务的下沉,有些流量直接通过本地边缘智能平台流出。在传统核心网中,计算、控制、安全等均在核心网内部完成,如何对边缘智能平台的流量进行计费和控制,需要进行研究;同时边缘智能在实际的网络架构上有多种不同的部署规划,比如部署在无线接入云、边缘云及汇聚云,而不同的架构所面临的问题也略有不同。
边缘智能所服务的对象以及场景较为多样化,如何使一套边缘智能平台适应多样化的第三方应用,也是目前面临的一个问题。
因为业务的碎片化,边缘智能可能针对单一场景或者两三个场景进行部署,不仅需要在整个部署能力特性上进行明确定义,且需要考虑如何进行敏捷智能化的运维。
如何更好地引入人工智能,发挥边缘计算的整体优势有待研究。
协调如何将边缘智能平台内部基于OpenStack 的平台管理子系统进一步轻量化,并考虑将一些微服务架构迅速地引入边缘智能平台,从而降低管理开销。此外,边缘智能的商业运营模式、部署位置、自愈和自动扩缩容等问题仍需要得到进一步的明确和解决。
然而,目前针对模型计算任务划分的研究相对较少,尝试针对基于深度神经网络的算法模型进行更细致的计算任务划分,结合边缘计算,解决深度学习技术在嵌入式领域应用性较差的问题8
https://github.com/StevenJokess/Awesome-System-for-Machine-Learning/blob/master/edge_system.md