至顶网软件频道消息: 大数据公司Databricks希望通过一个全新的开源项目来清理企业凌乱的数据湖。
Databricks表示,这个名为“Delta Lake”的项目有点类似于常规的数据湖,但通过确保所有存储信息是“干净的”且没有错误的,以提供更高的可靠性。
数据湖是以自然格式(通常是对象“blobs”或者文件)存储数据的系统或存储库。数据湖通常被作为所有企业数据的单一存储库,包括源系统数据的原始副本,和用于报告、可视化、分析和机器学习等任务的转换数据。
Databricks表示,由于多种原因,存储在传统数据湖中的信息可能是不可靠或者不准确的,这会导致写入失败、模式不匹配和数据不一致等问题,而且会在批量数据和流数据混合在一起的时候出现这些问题。
Databricks公司首席执行官Ali Ghodsi表示:“过去十年来,企业组织一直在构建数据湖,但却未能从数据中获得洞察力,因为这就像是垃圾的输入和输出,存在数据质量、可扩展性和性能方面的问题。”
Databricks表示,数据不可靠可能会让企业无法及时获得业务洞察,同时也会阻碍机器学习模式训练等需要数据准确性和一致性的计划。
Ghodsi补充说:“Delta Lake通过‘过滤’混乱数据并阻止这些数据进入Delta Lake来应对这些挑战。Delta Lake中的数据都是干净的数据。目前没有其他数据湖可以提供这种可靠性。”
Delta Lake通过管理批量数据和流数据之间的交易处理以及多次同时写入来确保数据的准确性和可靠性。那些使用Apache Spark分析数据的企业,可以利用Delta Lakes作为主要信息源,这样他们就不需要改动现有的数据架构。此外,Delta Lakes不需要构建在不同计算系统之间迁移信息所必需的复杂数据管道,所有企业信息都可以存储在Delta Lake中,让数百个应用可以根据需要使用湖中的信息。
Delta Lakes还让个人开发者更轻松了。开发者设置好就可以通过笔记本电脑访问Delta Lake了,并且快速构建一个数据管道通向他们正在使用的应用。他们还可以访问Delta Lake的每个早期版本,以进行审核、回滚或者重现机器学习实验的结果。此外,开发者可以将Parquets(存储大型数据集常用的格式)转换为Delta Lake,避免了对系统的密集读取和新数据写入。
Ghodsi表示:“Delta Lake适合于那些希望将原始的、不可靠的数据转换为可靠数据并可用于机器学习的开发者们。Delta Lake将简化数据工程,并解决开发者每天都会遇到的可靠性问题。”
Wikibon分析师James Kobielus表示,Delta Lake实际上听起来与数据仓库非常类似,他将数据仓库定义为“事实的单一版本”,管理着一个干净数据的存储库,这些数据被下游应用用于运营商业智能、报告、预测等工作负载。
“换句话说,Databricks似乎正在拓宽市场重点,以覆盖更广泛的传统企业用例例如数据仓库。但Delta Lakes存在一个显而易见的问题:除了能够分析Spark数据仓库中的数据之外,还能支持哪些常用开源数据仓库例如Apache Hive所不能支持的?”
Delta Lake现已在Apache 2.0许可下面向客户提供了。
 
 0赞
0赞好文章,需要你的鼓励
 推荐文章
                    推荐文章
                  虽然ChatGPT等AI工具正在快速改变世界,但它们并非无所不知的神谕。ChatGPT擅长"令人信服的错误",经常提供有偏见、过时或完全错误的答案。在健康诊断、心理健康、紧急安全决策、个人财务规划、机密数据处理、违法行为、学术作弊、实时信息监控、赌博预测、法律文件起草和艺术创作等11个关键领域,用户应避免完全依赖ChatGPT,而应寻求专业人士帮助。
清华大学团队开发了名为DiffTester的AI代码生成加速框架,专门解决程序测试代码生成效率低的问题。该框架通过识别测试代码中的重复结构模式,让AI模型能够批量生成相似代码片段,而非逐词生成。实验显示该方法可将生成速度提升一倍以上,同时保持代码质量,在Python、Java、C++三种语言上均表现出色,为软件开发中的自动化测试提供了新的解决方案。
微软重启三里岛核反应堆的协议确认了AI革命与能源现实主义的融合。亚马逊和谷歌也达成类似协议,共同押注核能为AI未来提供最可行的动力路径。到2030年代,数据中心用电量可能媲美大国水平。国际能源署预测全球电力需求到2050年将增长六倍。核电厂90%的容量因子使其独特适合数据中心需求。世界核协会估计,当前全球398GW核能产能必须在2050年前至少增长两倍。
英国巴斯大学研究团队开发了Policy Reasoning Traces方法,通过让AI学习专家的推理过程来提升政策合规判断能力。该方法在HIPAA、GDPR等重要政策测试中表现卓越,准确率超过81%,创造新纪录。PRT不仅能跨领域迁移,还具有良好的成本效益,为企业建立智能合规体系提供了实用解决方案。
 
             
                 
                     
                     
                    