数字化转型趋势下,各行业对数据生产力的探索与追求逐步进入深水区。现实的问题是,企业数据仓库存储、数据湖多种技术并存的局面将长期存在,如何才能摆脱技术协同的内耗,让大数据直通生产力的彼岸?
8月11日下午,网易数帆与华泰证券携手于线上举办企业级流式湖仓服务Arctic开源发布会,宣布以开源的Arctic完善现有数据湖底座,拓展数据平台的边界,改善产品、数据孤岛和流程规范割裂带来的低效和成本浪费,推动湖仓一体、流批融合落地,实现数据生产力,驱动业务价值。
Arctic开源:不魔改,不封闭,推动数据生产力落地
面对网易的多元化业务、多元化技术,网易数帆在推动数据生产力时遇到了文章开头提到的问题,但网易数帆从基础设施、数据研发、数据中台到数据产品,建设了一套完善的大数据技术体系,并推广应用到金融、零售、流通、制造等行业三百余家客户。
网易数帆大数据产品线总经理余利华表示,这成果得益于网易数帆构建大数据体系时的两大技术原则:开放式架构和开源。开放式架构采用模块化设计和大量开源组件实现,这使得该体系能力全面、生命力强,同时建设成本低。当然这也带来了使用复杂、维护复杂的问题,而网易数帆通过融入开源社区解决这个问题,典型的如通过开源Apache Kyuubi构建统一SQL网关,为数据湖提供统一的入口。
网易数帆大数据产品线总经理 余利华
参与到金融行业数字化转型,让网易数帆发现了新的挑战:金融企业希望融合实时数据湖与数据仓库,打造实时数据中台支撑其数字化业务创新。这本质上正是湖仓一体的思路,但目前的主流数据湖技术等只解决了更新、大表访问性能、流式消费等问题,仍然遗留小文件导致性能损耗、兼容性和流失更新等性能和易用性相关问题,而开源社区尚未出现对应的解决方案。这就是网易数帆研发并开源流式湖仓服务Arctic项目的直接原因。
Arctic 是搭建在 Apache Iceberg之上的流式湖仓服务(Streaming LakeHouse Service)。通过 Arctic,用户可以在 Flink、Spark、Trino 等引擎上实现更加优化的 CDC、流式更新、OLAP 等功能, 结合数据湖高效的离线处理能力,Arctic 能够服务于更多流批混用的场景;同时,Arctic 的结构自优化、并发冲突解决以及标准化的湖仓管理功能,可以有效减少用户在数据湖管理和优化上的负担。
余利华表示,秉承开放式架构原则,Arctic立足开源数据湖,拒绝魔改,不绑定计算引擎,注重与传统数仓Hive的兼容。这是继SQL统一入口之后,网易数帆大数据体系再次在存储层面实现统一,这使得数据中台体系可以无缝扩展到实时场景,企业数据生产力的发挥将不再被孤岛所困扰。金融行业的应用实践,也验证了这一思路的价值。
Arctic设计:重塑成本、性能和数据新鲜度的平衡
网易数帆大数据实时计算技术专家、湖仓一体项目负责人马进进一步介绍了Arctic项目的目标、特性、规划以及给开源用户带来的价值。
马进表示,Arctic的定位是流式湖仓服务,流式强调向实时能力的拓展,服务则强调管理、标准化度量,以及其他可以抽象到基础软件中的湖仓一体能力。
网易数帆大数据实时计算技术专家、湖仓一体项目负责人 马进
当前数据湖技术虽多,提供的都是各种数据湖格式,而非真正的湖仓一体平台。这些格式已经存在于企业环境,Arctic作为服务可以去适配不同的数据湖格式,使得企业无需担心数据湖技术的选型问题,持续优化数据分析能力,也让数据流管理变得简单。
在能力上,Arctic不仅提供了基于主键高效地流式更新,数据自动分桶、结构自优化的特性,还支持将数据湖和消息队列封装成统一的表,实现比传统方案更低延迟的流批一体,从根本上优雅地解决性能问题。另一方面,Arctic还提供流式数仓标准化的度量,dashboard 和相关管理工具,并为流批并发写入提供事务性保障。
在架构上,Arctic设计简洁,只有AMS、optimizer和dashboard三个组件,在数据湖和计算引擎之间提供湖仓一体落地所需的能力,但却支持Spark和Flink读写、Trino查询,百分百兼容Iceberg/Hive的表格式和语法,这使得它的使用成本很低。
马进还强调了Arctic定位的深层意义:“当我们将数据湖的能力拓展到实时场景,成本、性能和数据新鲜度三者的关系将呈现更为复杂和微妙的状态,Arctic的服务和管理功能,将为用户和上层平台理清这个三角关系。”
华泰证券:Arctic助力金融数智中台实时湖仓完善
华泰证券大数据流计算技术专家陈丰介绍了Arctic在华泰数智中台实时湖仓建设中发挥的作用。实时湖仓在华泰证券日内数据离线加工、实时关联大量历史数据、金融数据频繁修正、统一埋点加工链路等方面具有极大的价值,然而当前数仓建设面临流批链路分开建设、纯实时业务逻辑复杂、数据存储不统一、数据更新复杂以及演进难等五大问题。
华泰证券大数据流计算技术专家 陈丰
“业界给出了Iceberg、Hudi等解决方案,但我们业务、平台需要的不仅仅是单一的开源数据湖组件。”陈丰说,华泰证券对实时数据湖建设设定了流批一体、高性能低延迟、兼容现有Hive/Impala等多重目标。
华泰证券与网易数帆合作,引入Arctic实现实时湖仓,并在融资融券、埋点日志运营等场景实现了良好的应用和出色的性能。例如融资融券场景包括了大量历史数据联合计算,使用流式计算实现逻辑复杂。从离线架构到实时架构,再到实时湖仓架构的升级后,整体实现逻辑明了,且端到端延迟时间从T+1天缩短到了T+20分钟。
社区规划:欢迎所有成员贡献、分享、协作
马进还介绍了Arctic开源社区的规划,将为开发者、用户等成员建立一个公开、自由的全球数据湖技术交流社区,所有成员可通过贡献、分享、协作的方式参与社区。
共建企业参与计划同步启动,华泰证券作为 Arctic 开源社区的首家共建单位,在 Arctic 项目开源之初率先了加入社区参与建设,不仅作为用户结合业务场景提供真实的使用反馈,也作为开发力量共同持续探索流式湖仓技术领域创新性功能。
未来,华泰证券将进一步繁荣 Arctic 社区生态,与Arctic 社区小伙伴一起,共同打造一款全球领先的流式湖仓服务创新产品,构建繁荣的数据湖仓生态圈。
在此,网易数帆也欢迎更多的个人和企业参与到Arctic社区。
• Arctic 文档地址:https://arctic.netease.com/ch/
• GitHub 地址:https://github.com/NetEase/arctic
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。