至顶网软件频道消息: 大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。
Databricks表示,这个名为“Delta Lake”的项目有点类似于常规的数据湖,但通过确保所有存储信息是“干净的”且没有错误的,以提供更高的可靠性。
数据湖是以自然格式(通常是对象“blobs”或者文件)存储数据的系统或存储库。数据湖通常被作为所有企业数据的单一存储库,包括源系统数据的原始副本,和用于报告、可视化、分析和机器学习等任务的转换数据。
Databricks表示,由于多种原因,存储在传统数据湖中的信息可能是不可靠或者不准确的,这会导致写入失败、模式不匹配和数据不一致等问题,而且会在批量数据和流数据混合在一起的时候出现这些问题。
Databricks公司首席执行官Ali Ghodsi表示:“过去十年来,企业组织一直在构建数据湖,但却未能从数据中获得洞察力,因为这就像是垃圾的输入和输出,存在数据质量、可扩展性和性能方面的问题。”
Databricks表示,数据不可靠可能会让企业无法及时获得业务洞察,同时也会阻碍机器学习模式训练等需要数据准确性和一致性的计划。
Ghodsi补充说:“Delta Lake通过‘过滤’混乱数据并阻止这些数据进入Delta Lake来应对这些挑战。Delta Lake中的数据都是干净的数据。目前没有其他数据湖可以提供这种可靠性。”
Delta Lake通过管理批量数据和流数据之间的交易处理以及多次同时写入来确保数据的准确性和可靠性。那些使用Apache Spark分析数据的企业,可以利用Delta Lakes作为主要信息源,这样他们就不需要改动现有的数据架构。此外,Delta Lakes不需要构建在不同计算系统之间迁移信息所必需的复杂数据管道,所有企业信息都可以存储在Delta Lake中,让数百个应用可以根据需要使用湖中的信息。
Delta Lakes还让个人开发者更轻松了。开发者设置好就可以通过笔记本电脑访问Delta Lake了,并且快速构建一个数据管道通向他们正在使用的应用。他们还可以访问Delta Lake的每个早期版本,以进行审核、回滚或者重现机器学习实验的结果。此外,开发者可以将Parquets(存储大型数据集常用的格式)转换为Delta Lake,避免了对系统的密集读取和新数据写入。
Ghodsi表示:“Delta Lake适合于那些希望将原始的、不可靠的数据转换为可靠数据并可用于机器学习的开发者们。Delta Lake将简化数据工程,并解决开发者每天都会遇到的可靠性问题。”
Wikibon分析师James Kobielus表示,Delta Lake实际上听起来与数据仓库非常类似,他将数据仓库定义为“事实的单一版本”,管理着一个干净数据的存储库,这些数据被下游应用用于运营商业智能、报告、预测等工作负载。
“换句话说,Databricks似乎正在拓宽市场重点,以覆盖更广泛的传统企业用例例如数据仓库。但Delta Lakes存在一个显而易见的问题:除了能够分析Spark数据仓库中的数据之外,还能支持哪些常用开源数据仓库例如Apache Hive所不能支持的?”
Delta Lake现已在Apache 2.0许可下面向客户提供了。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。