至顶网软件频道消息: 大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。
Databricks表示,这个名为“Delta Lake”的项目有点类似于常规的数据湖,但通过确保所有存储信息是“干净的”且没有错误的,以提供更高的可靠性。
数据湖是以自然格式(通常是对象“blobs”或者文件)存储数据的系统或存储库。数据湖通常被作为所有企业数据的单一存储库,包括源系统数据的原始副本,和用于报告、可视化、分析和机器学习等任务的转换数据。
Databricks表示,由于多种原因,存储在传统数据湖中的信息可能是不可靠或者不准确的,这会导致写入失败、模式不匹配和数据不一致等问题,而且会在批量数据和流数据混合在一起的时候出现这些问题。
Databricks公司首席执行官Ali Ghodsi表示:“过去十年来,企业组织一直在构建数据湖,但却未能从数据中获得洞察力,因为这就像是垃圾的输入和输出,存在数据质量、可扩展性和性能方面的问题。”
Databricks表示,数据不可靠可能会让企业无法及时获得业务洞察,同时也会阻碍机器学习模式训练等需要数据准确性和一致性的计划。
Ghodsi补充说:“Delta Lake通过‘过滤’混乱数据并阻止这些数据进入Delta Lake来应对这些挑战。Delta Lake中的数据都是干净的数据。目前没有其他数据湖可以提供这种可靠性。”
Delta Lake通过管理批量数据和流数据之间的交易处理以及多次同时写入来确保数据的准确性和可靠性。那些使用Apache Spark分析数据的企业,可以利用Delta Lakes作为主要信息源,这样他们就不需要改动现有的数据架构。此外,Delta Lakes不需要构建在不同计算系统之间迁移信息所必需的复杂数据管道,所有企业信息都可以存储在Delta Lake中,让数百个应用可以根据需要使用湖中的信息。
Delta Lakes还让个人开发者更轻松了。开发者设置好就可以通过笔记本电脑访问Delta Lake了,并且快速构建一个数据管道通向他们正在使用的应用。他们还可以访问Delta Lake的每个早期版本,以进行审核、回滚或者重现机器学习实验的结果。此外,开发者可以将Parquets(存储大型数据集常用的格式)转换为Delta Lake,避免了对系统的密集读取和新数据写入。
Ghodsi表示:“Delta Lake适合于那些希望将原始的、不可靠的数据转换为可靠数据并可用于机器学习的开发者们。Delta Lake将简化数据工程,并解决开发者每天都会遇到的可靠性问题。”
Wikibon分析师James Kobielus表示,Delta Lake实际上听起来与数据仓库非常类似,他将数据仓库定义为“事实的单一版本”,管理着一个干净数据的存储库,这些数据被下游应用用于运营商业智能、报告、预测等工作负载。
“换句话说,Databricks似乎正在拓宽市场重点,以覆盖更广泛的传统企业用例例如数据仓库。但Delta Lakes存在一个显而易见的问题:除了能够分析Spark数据仓库中的数据之外,还能支持哪些常用开源数据仓库例如Apache Hive所不能支持的?”
Delta Lake现已在Apache 2.0许可下面向客户提供了。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。