至顶网软件频道消息: 大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。
Databricks表示,这个名为“Delta Lake”的项目有点类似于常规的数据湖,但通过确保所有存储信息是“干净的”且没有错误的,以提供更高的可靠性。
数据湖是以自然格式(通常是对象“blobs”或者文件)存储数据的系统或存储库。数据湖通常被作为所有企业数据的单一存储库,包括源系统数据的原始副本,和用于报告、可视化、分析和机器学习等任务的转换数据。
Databricks表示,由于多种原因,存储在传统数据湖中的信息可能是不可靠或者不准确的,这会导致写入失败、模式不匹配和数据不一致等问题,而且会在批量数据和流数据混合在一起的时候出现这些问题。
Databricks公司首席执行官Ali Ghodsi表示:“过去十年来,企业组织一直在构建数据湖,但却未能从数据中获得洞察力,因为这就像是垃圾的输入和输出,存在数据质量、可扩展性和性能方面的问题。”
Databricks表示,数据不可靠可能会让企业无法及时获得业务洞察,同时也会阻碍机器学习模式训练等需要数据准确性和一致性的计划。
Ghodsi补充说:“Delta Lake通过‘过滤’混乱数据并阻止这些数据进入Delta Lake来应对这些挑战。Delta Lake中的数据都是干净的数据。目前没有其他数据湖可以提供这种可靠性。”
Delta Lake通过管理批量数据和流数据之间的交易处理以及多次同时写入来确保数据的准确性和可靠性。那些使用Apache Spark分析数据的企业,可以利用Delta Lakes作为主要信息源,这样他们就不需要改动现有的数据架构。此外,Delta Lakes不需要构建在不同计算系统之间迁移信息所必需的复杂数据管道,所有企业信息都可以存储在Delta Lake中,让数百个应用可以根据需要使用湖中的信息。
Delta Lakes还让个人开发者更轻松了。开发者设置好就可以通过笔记本电脑访问Delta Lake了,并且快速构建一个数据管道通向他们正在使用的应用。他们还可以访问Delta Lake的每个早期版本,以进行审核、回滚或者重现机器学习实验的结果。此外,开发者可以将Parquets(存储大型数据集常用的格式)转换为Delta Lake,避免了对系统的密集读取和新数据写入。
Ghodsi表示:“Delta Lake适合于那些希望将原始的、不可靠的数据转换为可靠数据并可用于机器学习的开发者们。Delta Lake将简化数据工程,并解决开发者每天都会遇到的可靠性问题。”
Wikibon分析师James Kobielus表示,Delta Lake实际上听起来与数据仓库非常类似,他将数据仓库定义为“事实的单一版本”,管理着一个干净数据的存储库,这些数据被下游应用用于运营商业智能、报告、预测等工作负载。
“换句话说,Databricks似乎正在拓宽市场重点,以覆盖更广泛的传统企业用例例如数据仓库。但Delta Lakes存在一个显而易见的问题:除了能够分析Spark数据仓库中的数据之外,还能支持哪些常用开源数据仓库例如Apache Hive所不能支持的?”
Delta Lake现已在Apache 2.0许可下面向客户提供了。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。