1.1. time
人最多只有3万多天,该怎么活?
开发时间,训练时间,部署时间,运行时间。9
1.1.1. 生命周期长2
时间:训练一个 CNN 或 RNN 通常需要数周的时间。这还不算上为了达到所需的性能表现,花在定义问题以及编程深度网络时迭代成败上的数周甚至数月的时间; 成本:数百美元GPU连续数周的计算成本高昂,这还没开始算上人力成本。完成一个 AI 项目往往需要要占用最优秀人才数月、一年甚或更多的时间;3
AI模型的全生命周期长,包括数据接入、数据处理、特征工程、模型训练、模型评估及发布、模型管理等环节。
传统模式下,企业主要通过单点开发的方式,即“烟囱式”架构部署AI应用。针对新场景的开发,企业需要重新购买、部署硬件和CPU、GPU计算资源,再次进行数据接入、数据处理和模型开发流程,AI项目落地往往需要数月时间。2
1.1.2. 研究成果商业化周期的滞后。
学术界的研究成果,在能够商业化前还有很长的路要走。我们虽然在技术上做了验证,但没法在目前的硬件平台上落地。6
1.1.3. 敏捷响应低
随着来自互联网流量的积累,客户行为的变化速度加快,客户需求原本按季度月变化,转为按周/天小时变化,单个A应用的生命周期大幅度缩短。
如针对退货险的订单量在双十一当天爆发式增长,由于数据源发生了改变,以往的退货险模型难以识别大量新增客户的欺诈风险,旧模型不再适用。敏捷开发的核心是快速迭代和快速试错,以适应数据源变化后产生的新需求。但“烟囱式”应用开发方式迭代缓慢、试错成本高。在“烟囱式”开发架构下,由于已经开发的模型难以复用到相似的场景中,新场景开发需重新进行数据接入、数据清洗、特征工程、模型训练和模型评估一系列开发流程,单个A应用从部署到上线需要3-5个月。
此外,由于在数据接入和数据处理环节开源算法工具对不同类型的数据类型兼容性较差,需人工进将原始数据转化为开源算法所支持的数据类型,当数据源发生改变,仅重新进行数据接入和数据处理环节即需耗费数周时间,非结构化的数据标注通常会占据算法团队5成以上的工作时间,难以及时响应业务需求变化。
1.1.4. 实时响应
自动驾驶中突发事件的实时响应。
延迟指的是收集一个数据点所花费的时间 延迟问题是促使众多组织从云迁移到边缘的原因。“边缘的洞察力”,“边缘AI”或“边缘机器学习”意味着,与其在云端的算法中进行处理,不如将数据在本地存储在硬件小工具中的算法中进行处理。这可以实现实时活动,但是,它同样可以从根本上减少与处理云中数据有关的电源利用率和安全漏洞。5
1.1.5. 训练规模
参数规模甚至到数十亿量级的全连接层参数规模的问题,人们转而考虑增加卷积层,使全连参数降低。随之带来的负面影响便增长了计算时间与能耗。1
1.1.6. 重复工作
在部署机器学习模型的漫长道路上,超过四分之一 的企业都存在重复工作。8
1.1.7. 实现
实现过程中,有很无法直接实现,或者有找到简便的方法,不得不绕了个弯子,确实
1.1.8. 持续监控和改进
人工智能系统必须得到持续监控和改进。如果你的模型是“离线”训练的,那么它很容易出现概念漂移,即现实世界中的数据分布随着时间的推移与你训练的数据发生变化。这种情况可能是自然发生的,也可能是对抗性的,比如当用户试图欺骗信用风险算法时。出现这种情况时,就必须对模型进行再训练。7