从数据中获得业务创新的动力是当下处于数字化转型中的企业的最大诉求,特别是全域数据统一管理,集中开发和融合共享是一个必然的趋势。
当前,金融企业希望融合实时数据湖与数据仓库,打造实时数据中台支撑其数字化业务创新。但目前的主流数据湖技术等只解决了更新、大表访问性能、流式消费等问题,仍然遗留小文件导致性能损耗、兼容性和流失更新等性能和易用性相关问题,而开源社区尚未出现应对的解决方案。
为此,华泰证券与网易数帆开展了积极探索,引入Arctic实现实时湖仓,并在融资融券、埋点日志运营等场景实现了良好的应用和出色的性能。
实时湖仓在华泰证券日内数据离线加工、实时关联大量历史数据、金融数据频繁修正、统一埋点加工链路等方面具有极大的价值,然而此前数仓建设面临流批链路分开建设、纯实时业务逻辑复杂、数据存储不统一、数据更新复杂以及演进难等五大问题。
“业界给出了Iceberg、Hudi等解决方案,但我们业务、平台需要的不仅仅是单一的开源数据湖组件。”华泰证券大数据流计算技术专家陈丰说,华泰证券对实时数据湖建设设定了流批一体、高性能低延迟、兼容现有Hive/Impala等多重目标。
例如融资融券场景包括了大量历史数据联合计算,使用流式计算实现逻辑复杂。从离线架构到实时架构,再到实时湖仓架构的升级后,整体实现逻辑明了,且端到端延迟时间从T+1天缩短到了T+20分钟。
近日,网易数帆于线上举办企业级流式湖仓服务Arctic开源发布会,宣布以开源的Arctic完善现有数据湖底座,拓展数据平台的边界,改善产品、数据孤岛和流程规范割裂带来的低效和成本浪费,推动湖仓一体、流批融合落地,实现数据生产力,驱动业务价值。
网易数帆大数据实时计算技术专家、湖仓一体项目负责人马进告诉记者,湖仓一体核心的问题是将产品和方法论的边界拓展到实时场景、AI场景,形成完整的、对用户友好和便捷的工具到基础软件的生态。
何为流式湖仓服务Arctic?
Arctic是搭建在Apache Iceberg之上的流式湖仓服务(Streaming LakeHouse Service),流式强调向实时能力的拓展,服务则强调管理、标准化度量,以及其他可以抽象到基础软件中的湖仓一体能力。
通过Arctic,用户可以在Flink、Spark、Trino等引擎上实现更加优化的CDC、流式更新、OLAP等功能,结合数据湖高效的离线处理能力,Arctic能够服务于更多流批混用的场景;同时,Arctic的结构自优化、并发冲突解决以及标准化的湖仓管理功能,可以有效减少用户在数据湖管理和优化上的负担。
马进表示,当前数据湖技术虽多,提供的都是各种数据湖格式,而非真正的湖仓一体平台。这些格式已经存在于企业环境,Arctic作为服务可以去适配不同的数据湖格式,使得企业无需担心数据湖技术的选型问题,持续优化数据分析能力,也让数据流管理变得简单。
在能力上,Arctic不仅提供了基于主键高效地流式更新,数据自动分桶、结构自优化的特性,还支持将数据湖和消息队列封装成统一的表,实现比传统方案更低延迟的流批一体,从根本上优雅地解决性能问题。另一方面,Arctic还提供流式数仓标准化的度量,dashboard 和相关管理工具,并为流批并发写入提供事务性保障。
在架构上,Arctic设计简洁,只有AMS、optimizer和dashboard三个组件,在数据湖和计算引擎之间提供湖仓一体落地所需的能力,但却支持Spark和Flink读写、Trino查询,百分百兼容Iceberg/Hive的表格式和语法,这使得它的使用成本很低。
马进还强调了Arctic定位的深层意义:“当我们将数据湖的能力拓展到实时场景,成本、性能和数据新鲜度三者的关系将呈现更为复杂和微妙的状态,Arctic的服务和管理功能,将为用户和上层平台理清这个三角关系。”
未来,Arctic希望成为一个成熟的湖仓管理系统,在性能、可靠性、持续优化、管理标准化等方面进行加强,并且面向DataOps提供流批统一、开箱即用的元数据服务,让数据湖更加好用和实用。
为什么开源?
网易数帆大数据产品线提供大数据相关的工具产品平台,并且帮助网易集团建设公共数据,并总结了数据建设方法论,也就是DataOps、DataFusion和DataProduct。
网易数帆大数据产品线总经理余利华介绍说,网易数帆构建大数据体系时的两大技术原则:开放式架构和开源。“开放式架构就是把原来封闭在一个孤立系统里面的各个模块都独立拉出来成为一个个项目,通过一种松耦合的方式把他们组装在一起。”
在开源方面,网易数帆优先采用开源软件,并积极深度参与和长期回馈社区,比如在Apache Spark社区累计600多个Patch提交被合入,并培养了国内少数的Spark committer 成员,在这个大数据领域先后培养了七八位Apache的committer。
如果开源社区无法满足需求,网易数帆会采用自研方式,比如自研Kyuubi(已捐赠给Apache)构建统一SQL网关,为数据湖提供统一的入口。
秉承开放式架构原则,Arctic立足开源数据湖,拒绝魔改,不绑定计算引擎,注重与传统数仓Hive的兼容。这是继SQL统一入口之后,网易数帆大数据体系再次在存储层面实现统一,这使得数据中台体系可以无缝扩展到实时场景,企业数据生产力的发挥将不再被孤岛所困扰。
马进表示,湖仓一体最大的应用难点在于选型,而目前的开源技术与企业的产品需求存在差距。“我们将Arctic开源,并不会在底层重复‘造轮子’,而是帮助企业用户在软件层面解决管理、适配等问题。”
据悉,Arctic开源社区的规划将为开发者、用户等成员建立一个公开、自由的全球数据湖技术交流社区,所有成员可通过贡献、分享、协作的方式参与社区。
共建企业参与计划同步启动,华泰证券作为Arctic开源社区的首家共建单位,在Arctic项目开源之初率先了加入社区参与建设,不仅作为用户结合业务场景提供真实的使用反馈,也作为重要的开发力量共同持续探索流式湖仓技术领域创新性功能。
好文章,需要你的鼓励
AMD CIO的职能角色早已超越典型的CIO职务,他积极支持内部产品开发,一切交付其他部门的方案都要先经过他的体验和评判。
医学生在选择专业时,应当考虑到AI将如何改变医生的岗位形态(以及获得的薪酬待遇)。再结合专业培训所对应的大量时间投入和跨专业的高门槛,这一点就更显得至关重要。
我们拥有大量数据,有很多事情要做,然后出现了一种有趣的技术——生成式AI,给他们所有人带来的影响。这种影响是巨大的,我们在这个领域正在做着惊人的工作。