至顶网软件频道消息: 大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。
Databricks表示,这个名为“Delta Lake”的项目有点类似于常规的数据湖,但通过确保所有存储信息是“干净的”且没有错误的,以提供更高的可靠性。
数据湖是以自然格式(通常是对象“blobs”或者文件)存储数据的系统或存储库。数据湖通常被作为所有企业数据的单一存储库,包括源系统数据的原始副本,和用于报告、可视化、分析和机器学习等任务的转换数据。
Databricks表示,由于多种原因,存储在传统数据湖中的信息可能是不可靠或者不准确的,这会导致写入失败、模式不匹配和数据不一致等问题,而且会在批量数据和流数据混合在一起的时候出现这些问题。
Databricks公司首席执行官Ali Ghodsi表示:“过去十年来,企业组织一直在构建数据湖,但却未能从数据中获得洞察力,因为这就像是垃圾的输入和输出,存在数据质量、可扩展性和性能方面的问题。”
Databricks表示,数据不可靠可能会让企业无法及时获得业务洞察,同时也会阻碍机器学习模式训练等需要数据准确性和一致性的计划。
Ghodsi补充说:“Delta Lake通过‘过滤’混乱数据并阻止这些数据进入Delta Lake来应对这些挑战。Delta Lake中的数据都是干净的数据。目前没有其他数据湖可以提供这种可靠性。”
Delta Lake通过管理批量数据和流数据之间的交易处理以及多次同时写入来确保数据的准确性和可靠性。那些使用Apache Spark分析数据的企业,可以利用Delta Lakes作为主要信息源,这样他们就不需要改动现有的数据架构。此外,Delta Lakes不需要构建在不同计算系统之间迁移信息所必需的复杂数据管道,所有企业信息都可以存储在Delta Lake中,让数百个应用可以根据需要使用湖中的信息。
Delta Lakes还让个人开发者更轻松了。开发者设置好就可以通过笔记本电脑访问Delta Lake了,并且快速构建一个数据管道通向他们正在使用的应用。他们还可以访问Delta Lake的每个早期版本,以进行审核、回滚或者重现机器学习实验的结果。此外,开发者可以将Parquets(存储大型数据集常用的格式)转换为Delta Lake,避免了对系统的密集读取和新数据写入。
Ghodsi表示:“Delta Lake适合于那些希望将原始的、不可靠的数据转换为可靠数据并可用于机器学习的开发者们。Delta Lake将简化数据工程,并解决开发者每天都会遇到的可靠性问题。”
Wikibon分析师James Kobielus表示,Delta Lake实际上听起来与数据仓库非常类似,他将数据仓库定义为“事实的单一版本”,管理着一个干净数据的存储库,这些数据被下游应用用于运营商业智能、报告、预测等工作负载。
“换句话说,Databricks似乎正在拓宽市场重点,以覆盖更广泛的传统企业用例例如数据仓库。但Delta Lakes存在一个显而易见的问题:除了能够分析Spark数据仓库中的数据之外,还能支持哪些常用开源数据仓库例如Apache Hive所不能支持的?”
Delta Lake现已在Apache 2.0许可下面向客户提供了。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。