“极速、统一、开放”,StarRocks开启企业数据分析新局面

近日,由知名分析型数据库公司StarRocks主办的StarRocks Summit 2021在线召开。

近日,由知名分析型数据库公司StarRocks主办的StarRocks Summit 2021在线召开。此次会议以“极速、统一、开放 ”为主题,探讨了在新技术、新场景驱动之下数据分析的新机遇和新架构。此次活动吸引了近万名大数据、数据库相关的工程师、媒体和分析师在线观看和互动,还有来自互联网、房地产、零售、物流等领域的客户参与并分享观点。在本次峰会上,StarRocks还发布了全新的2.0产品。

新一代数据架构必然是“极速统一”的

近年来,数据驱动的概念不断深入人心,企业的数据分析场景也越来越丰富,对数据分析架构的要求也越来高。StarRocks的联合创始人,COO叶谦在开场的主题演讲中分享,企业新的数据分析场景催生的新需求主要包括四个方面:希望数据分析的速度变得更快、希望数据分析更加灵活、希望数据分析更实时、希望数据分析能支持更高的并发。

在这几方面的需求里,对数据分析的速度要求是一个最根本的需求。现有的同类产品在分析速度上仍然差强人意。虽然有的产品在单表分析上表现优异的产品,但在其他各个分析场景中,特别是在涉及到多表关联查询的场景、实时大量写入并分析场景、高并发查询分析场景时,当前同类产品的速度仍然不能满足业务需求。

正是因为速度不达标,企业为了满足业务需求,只能求助于预计算和大宽表,结果就是造成了数据分析的灵活性下降。叶谦指出“很难想象这样的数据分析灵活性如何能支持好业务的快速迭代。可能数据报表还没建设好,业务就已经错过了最佳的拓展窗口期。”

不仅如此,现有数据分析复杂架构还带来了很高的成本,包括建设成本、开发成本和维护成本。有的公司同时在维护5、6套不同的数据分析系统,而公司的大数据团队可能才不到10个人。在这种情况下,公司很难深入掌握每一套数据分析系统,导致了线上业务的风险。

StarRocks一直在试图解决现有复杂数据架构的问题,他们的答案是:新一代极速统一的数据分析架构。StarRocks已经实现了在多种数据分析场景下都能达到极速的分析效果。StarRocks的单表查询性能和当前业界最好的产品持平,多表查询性能大幅领先于当前的同类产品。“正是因为这样全方位的极速,我们才能在业务中应用星型模型、雪花模型等更灵活的建模方式。”叶谦说,“在这个数据架构中,整个OLAP分析层可以统一到StarRocks中。”。

“极速、统一、开放”,StarRocks开启企业数据分析新局面

(图1:基于StarRocks的极速统一的数据架构)

追求极速,直道超车

StarRocks的联合创始人,CTO赵纯的主题演讲深度解密了StarRocks极速背后的硬核技术。StarRocks从自主研发的全面向量化引擎出发,在追求极速的路上不断实现突破。逐渐从追赶者,变成了领跑者。

在分析型数据库领域,国外著名产品ClickHouse一直是一个业界标杆。这个起源于俄罗斯的产品,最近刚刚以20亿美元的估值,融资2.5亿美金。其融资速度和其分析速度一样,震惊了业界。赵纯分享,在StarRocks向量化引擎1.0阶段,StarRocks的单表查询性能已经比肩国外著名产品ClickHouse,而多表查询性能,远超ClickHouse。

而不久即将发布的StarRocks 2.0将把整个产品推入向量化引擎2.0阶段。在这个阶段里的,利用全新自主研发的基于代价模型的CBO优化器将发挥巨大的作用。由于新优化器的加持,StarRocks在查询规划方面能够利用全局上下文,这使得有更多的优化手段可以用来加速单表查询。字符串全局字典就是其中一项重要优化,它适用于线上最普遍的,针对字符串列的多维度聚合分析场景,如连锁机构针对地域和门店的聚合查询,针对订单基于品类和标签的聚合分析等。在这种场景下StarRocks比ClickHouse还要快一倍以上!

极速统一的力量

截止到当前,StarRocks已经在数百家公司的生产环境上线使用, 其中大公司超过70家。这些客户里包含了多个不同行业的头部客户,包括互联网,金融,物流,制造,教育,航旅,游戏和房地产等领域。“更让我们感到自豪的是,我们的每个上线客户都在不断扩大StarRocks的线上集群规模。这一方面说明了客户数据分析需求的旺盛,另一方面也说明了大家对StarRocks的认可。” 叶谦说。

与会的10个行业头部公司,如:腾讯微信、小米、贝壳找房、携程、顺丰科技等,分享了各自公司基于StarRocks打造新一代数据分析架构的经验。这其中不乏从ClickHouse切换到StarRocks的实践案例。

在携程的案例中,携程大住宿HData之前是ClickHouse的重度用户,虽然单表查询性能优异,但是不能支持高并发查询,以及运维的复杂性都让携程大住宿的工程师深受困扰。在峰会的圆桌讨论环节中,携程大住宿的史文俊还提到,曾经出现过长假访问高峰期间ClickHouse出现Bug,导致所有服务都受到影响的情况,搞得工程师每逢长假都睡不好觉。在使用了StarRocks之后,高并发查询的问题,以及运维复杂的问题都得到了很好得解决。后续,携程大住宿会把实时和离线的数据分析都迁移到StarRocks上来,期望最终实现OLAP数据分析层的统一。

除了携程之外,贝壳找房、顺丰科技、汽车之家等公司也用实际案例,佐证了“极速统一”架构的能力。

开放的生态,无限的未来

自从9月初开放源代码以来,StarRocks的社区建设进展迅速。目前,已经有近10家知名企业正式加入了StarRocks的建设。当前社区每月有229个commits,月活跃contributors数超过30人,每月产生300多个Pull Request。这个活跃度堪比Flink和Spark等著名的开源社区。据悉的StarRocks即将和几个著名的头部云厂商展开合作,共同对外提供基于StarRocks的产品。云厂商也会投入研发力量,加入StarRocks的社区建设。另外,StarRocks面向开发者的Hacker meetup,也将在近期启动。此举将一步激活社区,吸引更多的开发者加入StarRocks的建设。

“极速、统一、开放”,StarRocks开启企业数据分析新局面

(图2:当前已经加入社区的知名企业)

本次StarRocks Summit 2021是StarRocks举办的第一届年度峰会。它向业界展示了一个锋利强悍的产品,一个朝气蓬勃、快速发展的社区。相信在未来的日子里的,StarRocks一定会像它的名字那样,一面仰望星空,一面脚踏实地,为企业的数据分析发展注入更多的驱动力。

来源:业界供稿

0赞

好文章,需要你的鼓励

2021

11/02

11:56

分享

点赞

邮件订阅
白皮书