98%的企业都面临数据孤岛问题,数据没标准、数据难统一、数据难打通、数据质量低。打通数据孤岛难度大周期长成本高,企业每年在糟糕的数据上多花费近25%的成本。
有痛点就有市场,数据湖应市而生。
为什么是数据湖而不是数据河或者数据海?
河强调的是流动性,而企业数据是需要长期沉淀的,因此叫湖比叫河要贴切。既是长期沉淀下来的数据,一定是海量数据,而且是多种类型的数据包括结构化、半结构化和非结构化。因此,数据湖产品必须能从多个数据源获取原始数据,并且针对不同的业务,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。传统数据库因为性能瓶颈问题,很难满足。新一代分布式数据库是首选。
不叫海的原因在于,海是无边无界的,而湖是有边界的,这个边界就是企业的业务边界,这与企业建设统一数据中心,存放管理数据的需求是一致的。因此数据湖产品需要更多的数据管理和权限管理能力,并且能在它们之上做进一步的处理与分析,产生最终输出供各类程序消费。这里面一定会涉及到企业商业本质的数据,基于信息安全可控考虑,国产数据库是首选。
叫湖的另一个重要原因是数据湖是需要精细治理的,一个缺乏管控、缺乏治理的数据湖最终会退化为“数据沼泽”,从而使应用无法有效访问数据,使存于其中的数据失去价值。
天云数据结合业内大数据相关数据库使用经验,自主研发的百万原生代码的HTAP数据库—HUBBLE,融合传统数据库形成支持混合负载交易的数据联邦,帮助企业实现集中存储、历史数据分析、信息追踪与一致性保障、数据治理、预测分析、商业智能等。不仅彻底解决传统数据库系统无法横向水平扩展,技术瓶颈难以突破的问题,还完成了数据库国产化替代的使命,已在多家大型银行应用。
Hubble数据库支持标准SQL语法解析,oracle,mysql,Hive等主流数据库都可以作为hubble的数据库源头;Hubble利用联邦服务技术能力,实现异构数据(结构化数据、半结构化数据、非结构化数据)的统一管理,统一探查,统一服务;Hubble基于CBO、RBO技术实现自动SQL执行过滤器,可以快速精准确定TP和AP场景;Hubble利用AI算法的优势,将数据库进行分层设计,使得数据库更全面智能算力更快。
一句话概述,Hubble以数据为资产,实现任意来源、任意类型数据的全量获取与存储,快速实现TP、AP场景分析与计算,从而帮助企业做出更好更快的决策。