数据湖提供了一个完整的、权威的数据存储,可以赋能数据分析、商业智能和机器学习。
数据湖是以原始格式保存大量数据的集中式存储位置。与分层数据仓库(将数据存储在文件或文件夹中)相比,数据湖使用扁平体系结构和对象存储来存储数据。 对象存储存储储数据的时候会存储数据的据元数据标记和唯一标识符,这使得跨区域查找和检索数据更加容易,并提高了性能。通过利用廉价的对象存储和开放格式,数据湖使许多应用程序能够利用数据。
针对数据仓库的局限性开发了数据湖。虽然数据仓库为企业提供了高性能和可扩展的分析,但它们成本高昂、专有,无法处理大多数公司希望解决的当前案例。数据湖通常用于将一个组织的所有数据整合到一个单一的位置,在该位置可以“按原样”保存数据,而无需像数据仓库那样预先强加模式(即数据组织方式的正式结构)。加工过程中所有阶段的数据都可以存储在数据池中:原始数据可以直接与组织的结构化表格数据源(如数据库表)以及加工原始数据过程中生成的中间数据表一起同步和存储。与大多数数据库和数据仓库不同,data Lake可以处理所有数据类型,包括图像、视频、音频和文档等非结构化和半结构化数据,这对于当今的机器学习和高级分析用例至关重要。
首先也是最重要的一点是,数据湖是开放格式的,因此用户能避免锁定到像数据仓库这样的专有系统,这在现代数据体系结构中变得越来越重要。数据湖还具有高度持久性和低成本,因为它们能够扩展和利用对象存储。此外,基于非结构化数据的高级分析和机器学习是当今企业最具战略意义的事项之一。以多种格式(结构化、非结构化、半结构化)接收原始数据的