netflix 开源
Netflix已开源Metaflow ,这是一种内部开发的工具,用于构建和管理基于Python的数据科学项目。 Metaflow解决了从原型到模型部署的整个数据科学工作流程,并提供了与AWS云服务的内置集成。
机器学习和数据科学项目需要机制来跟踪代码,数据和模型的开发。 手动完成所有操作都容易出错,并且用于源代码管理的工具(如Git)并不适合所有这些任务。
从数据访问到计算资源,版本控制,模型训练,调度和模型部署,Metaflow为数据科学工作流中的整个技术堆栈提供Python API。
根据Metaflow的介绍性文件 ,Netflix建立了Metaflow,以为其自身的数据科学家和开发人员提供“ 基础架构堆栈的统一API,这是执行从原型到生产的数据科学项目所必需的”,并“专注于最广泛的ML用例,其中许多是中小型的,许多公司每天都要面对。”
Metaflow不支持任何特定的机器学习框架或数据科学库。 元流项目只是Python代码,项目数据流的每个步骤都由通用的Python编程习惯用语表示。 每次运行Metaflow项目时,都会为其生成的数据分配一个唯一的ID。 这样,您可以通过引用其ID或用户分配的元数据来访问每个运行及其每个步骤。
Netflix建议在AWS上运行Metaflow 。 该公司在那里提供了Metaflow的沙盒版本 (在存储和数据寿命方面受到限制),供开发人员尝试该框架。
Metaflow的第一个公开发行版Metaflow 2.0缺少Netflix内部使用的某些功能 ,例如,对R语言的支持或通过DataFrames对大数据的内存中处理。 但是,如果相应的GitHub问题吸引了足够的支持,则Netflix愿意提供这些功能。
翻译自: https://www.infoworld.com/article/3488796/netflix-open-sources-data-science-management-tool.html
netflix 开源