Databricks打造“Delta Lake”意图取代凌乱的传统数据湖

大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。

至顶网软件频道消息：大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。

Databricks表示，这个名为“Delta Lake”的项目有点类似于常规的数据湖，但通过确保所有存储信息是“干净的”且没有错误的，以提供更高的可靠性。

数据湖是以自然格式（通常是对象“blobs”或者文件）存储数据的系统或存储库。数据湖通常被作为所有企业数据的单一存储库，包括源系统数据的原始副本，和用于报告、可视化、分析和机器学习等任务的转换数据。

Databricks表示，由于多种原因，存储在传统数据湖中的信息可能是不可靠或者不准确的，这会导致写入失败、模式不匹配和数据不一致等问题，而且会在批量数据和流数据混合在一起的时候出现这些问题。

Databricks公司首席执行官Ali Ghodsi表示：“过去十年来，企业组织一直在构建数据湖，但却未能从数据中获得洞察力，因为这就像是垃圾的输入和输出，存在数据质量、可扩展性和性能方面的问题。”

Databricks表示，数据不可靠可能会让企业无法及时获得业务洞察，同时也会阻碍机器学习模式训练等需要数据准确性和一致性的计划。

Ghodsi补充说：“Delta Lake通过‘过滤’混乱数据并阻止这些数据进入Delta Lake来应对这些挑战。Delta Lake中的数据都是干净的数据。目前没有其他数据湖可以提供这种可靠性。”

Delta Lake通过管理批量数据和流数据之间的交易处理以及多次同时写入来确保数据的准确性和可靠性。那些使用Apache Spark分析数据的企业，可以利用Delta Lakes作为主要信息源，这样他们就不需要改动现有的数据架构。此外，Delta Lakes不需要构建在不同计算系统之间迁移信息所必需的复杂数据管道，所有企业信息都可以存储在Delta Lake中，让数百个应用可以根据需要使用湖中的信息。

Delta Lakes还让个人开发者更轻松了。开发者设置好就可以通过笔记本电脑访问Delta Lake了，并且快速构建一个数据管道通向他们正在使用的应用。他们还可以访问Delta Lake的每个早期版本，以进行审核、回滚或者重现机器学习实验的结果。此外，开发者可以将Parquets（存储大型数据集常用的格式）转换为Delta Lake，避免了对系统的密集读取和新数据写入。

Ghodsi表示：“Delta Lake适合于那些希望将原始的、不可靠的数据转换为可靠数据并可用于机器学习的开发者们。Delta Lake将简化数据工程，并解决开发者每天都会遇到的可靠性问题。”

Wikibon分析师James Kobielus表示，Delta Lake实际上听起来与数据仓库非常类似，他将数据仓库定义为“事实的单一版本”，管理着一个干净数据的存储库，这些数据被下游应用用于运营商业智能、报告、预测等工作负载。

“换句话说，Databricks似乎正在拓宽市场重点，以覆盖更广泛的传统企业用例例如数据仓库。但Delta Lakes存在一个显而易见的问题：除了能够分析Spark数据仓库中的数据之外，还能支持哪些常用开源数据仓库例如Apache Hive所不能支持的？”

Delta Lake现已在Apache 2.0许可下面向客户提供了。

来源：siliconANGLE

0赞

好文章，需要你的鼓励

Databricks打造“Delta Lake”意图取代凌乱的传统数据湖

来源：siliconANGLE

2019

04/26

11:15

分享

点赞

OpenAI CEO计划投入数万亿美元建设AI基础设施

心理学家和心理健康专家推动使用自定义指令让AI成为治疗辅助工具

HPE焕新品牌战略，进一步拓展中国市场合作伙伴生态

浏览器是智能体AI未来的关键吗？Opera和Perplexity这样认为

福特颠覆传统装配线生产模式 制造低成本美国电动车

研究员将OpenAI开源大语言模型逆向还原为无推理"基础模型"

Asmi Linux 13 Debian版本发布：Xfce桌面焕然一新

英伟达发布大规模AI就绪欧洲语言数据集和工具

企业通用智能将比AGI更快实现商业突破

闪迪重回增长轨道：NAND供应短缺推动营收飙升

"便宜"的开源AI模型实际上在消耗你的计算预算

SK Telecom打造主权AI基础设施，支持韩国国家AI模型开发

数据湖演进之路：架构分裂推动AI分析的新时代

戴尔用更快的查询速度和更多功能增强数据湖仓

AWS与IBM Netezza都已支持Iceberg表格式

湖仓一体：揭秘数据湖架构现代化之道

Databricks数据+AI峰会表明，AI光环效应在增强

探索“智能湖仓”，构建企业发展“内生动力”

迎合GREENLAKE业务环境需求，HPE出手增强ALLETRA存储解决方案

戴尔科技滕昱：高性能对象数据湖 助力新型工作负载

数据湖架构及概念简介

解锁“暗数据”的隐藏价值

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

福特颠覆传统装配线生产模式制造低成本美国电动车

戴尔科技滕昱：高性能对象数据湖助力新型工作负载