Netflix开源数据科学管理工具

翁翰墨
2023-12-01

Netflix开源了Metaflow ,这是一种内部开发的工具,用于构建和管理基于Python的数据科学项目。 Metaflow解决了从原型到模型部署的整个数据科学工作流程,并提供了与AWS云服务的内置集成。

机器学习和数据科学项目需要机制来跟踪代码,数据和模型的开发。 手动执行所有这些操作很容易出错,并且用于源代码管理的工具(如Git)并不适合所有这些任务。

[ 也在InfoWorld上:人工智能,机器学习和深度学习:您需要知道的一切 ]

从数据访问到计算资源,版本控制,模型训练,调度和模型部署,Metaflow为数据科学工作流中的整个技术堆栈提供Python API。

根据Metaflow的介绍性文件 ,Netflix建立了Metaflow,以向其自己的数据科学家和开发人员提供“ 对基础架构堆栈的统一API,这是执行从原型到生产的数据科学项目所需的基础架构堆栈”,并“专注于各种机器学习用例,其中许多是中小型的,许多公司每天都会面对这些用例。”

Metaflow不支持任何特定的机器学习框架或数据科学库。 元流项目只是Python代码,而项目数据流的每一步都由通用的Python编程习惯用法表示。 每次运行Metaflow项目时,都会为其生成的数据分配一个唯一的ID。 这样,您可以通过引用其ID或用户分配的元数据来访问每个运行及其每个步骤。

[ 通过InfoWorld的机器学习和分析报告时事通讯来了解机器学习,人工智能和大数据分析的最新进展 ]

Netflix建议在AWS上运行Metaflow 。 该公司在那里提供了Metaflow沙盒版本 (对存储和数据生存期有限制),供开发人员尝试该框架。

Metaflow的第一个公开发行版Metaflow 2.0缺少Netflix内部使用的某些功能 ,例如,对R语言的支持或通过DataFrames对大数据的内存中处理。 但是,如果相应的GitHub问题吸引了足够的支持,则Netflix愿意提供这些功能。

From: https://www.infoworld.com/article/3488796/netflix-open-sources-data-science-management-tool.html

 类似资料: