2016 年 7 月 28 日,主题为“科技,洞见未来”的青云大会 QingCloud Insight 在北京召开。在会上,青云CEO黄云松等东道主除了展示青云的新产品、新技术外,还有由用户为主导的 6 场主题各异的分论坛,不仅仅有银行、保险、证券行业的用户现身说法,还会有公共事业部门的用户,非常令人期待。
在大会间隙,ZD 至顶网专访间请到了PingCAP 的联合创始人兼CEO刘奇,让他从合作伙伴的角度谈了对云服务商的要求。PingCAP 专注于开源分布式数据库,对云服务商的运营稳定性有着严格要求,以期与云计算服务商通过合作,解决云计算领域最后一块瓶颈。
以下为访谈实录:
ZD至顶网:各位网友,大家好!我们请到的嘉宾是来自 PingCAP 联合创始人兼 CEO 刘奇,请您大概介绍 PingCAP 主要在什么领域比较活跃?
刘奇:PingCAP 主要在分布式数据库领域比较活跃,严格来说是在开源分布式数据库比较活跃,现在应该算是比较新的分支,叫做 NewSQL,相当于结合前面两代的技术。大概 30 年前传统关系型数据库技术以及 Web 起来后的 NoSQL 领域的技术,NoSQL 有非常好的 scale 能力,但基本上放弃了分布式事务,放弃严格的 SQL 的支持,而 NewSQL 同时兼顾这两个优点,它能很好的支持分布式,也能很好的支持 SQL,同时具有很好的可扩展性。目前我们领域比较新,相关的理论基础完成时间比较短。我们现在所做的 TiDB 和它底层的 TiKV,主要参考的是谷歌在 2012 年发布的 Spanner 论文,2013 年初谷歌的 F1 论文,还有一个相关的复制协议 Raft,是14年初才发表的论文。整个领域在三篇论文形成完整性之前很难做这个事情,业界没有足够好的实践。如果谷歌不对外发布这两篇论文,外面的人对这个东西到底怎么做,还是有迷的味道。谷歌发布了 Spanner 和 F1 ,告诉你这是经过几十万台规模的环境验证,正确性得到很好的验证。同时,Raft 在学术上也经过两个形式化的证明。整个理论基础相当于 2014 年才补上,从 2014 年至今,真正的时间大概两年多一点,整个领域相对比较新,全球只有两家公司做这件事,一家是我们,另一家公司在纽约。这就是我们公司做的过程,它的理论基础和开始时间。
ZD至顶网:可以看到 PingCAP 在技术方面比较侧重,现在在云计算方面的应用是怎样的,或者在云计算应用方面有哪些难点?
刘奇:我们换一个思路,大家觉得云计算上一切都可以控制,我可以增加机器,所有问题都可以解决。事实上并非如此,比如无状态这一层可以很好的做 scale,因为它本身没有状态,没有任何依赖和负担。但有状态这一层不太好做,很典型的就是 Database 领域,不是加机器就能解决问题。我们现在是专注于解决云计算领域几乎最后一块不能做 scale 的地方。这应该说是云计算瓶颈的部分。
其他的方面,大部分云计算厂商已经做得比较好,虚机可以随便加,甚至是服务发现基本上都是随便加的。更底下这一层,数据库是一个瓶颈,相当于我们现在在解决最后一块瓶颈。我们主要专注在数据库领域的技术,和云计算厂商更多时候是合作的关系。不是我们应用他们的技术或者他们应用我们的技术,应该是互相补充对方的短板的关系。
ZD至顶网:跟像青云这样的云计算厂商合作,需要他们给我们提供什么样的便利,我们互相之间应该有什么样的交接?
刘奇:因为我们的数据库的支持异地多活,跨数据中心的复制,这时候对硬件有要求。不同数据中心之间光纤的延迟,这是很重要的。同时数据中心之间连通能力,一个数据中心或者多个数据中心同时集中在一个地方,都集中在某一个城市,万一这个城市出了点问题,数据都丢了,更大程度来讲是为了安全。比如像谷歌,他们在美国东海岸、中部、西海岸都有自己的数据中心。即使其中一部分受到攻击或是受到自然灾害的影响,整个数据仍然是可用的状态,这是云计算厂商自己要做的,就是要跟上硬件的基础设施。以现在的云计算来讲,我在北京有足够的数据中心,我在上海、广州、香港甚至海外,数据的容灾能力跟硬件有关,硬件铺的越好,容灾能力会越强,同时延迟可能会更小,我用更高质量的光纤、新技术、新硬件降低它们之间的延迟。
云可以很好的提供对数据库有帮助的东西,同时云可以提供很好的 API。因为数据库需要做扩容,扩容时候基本上扩云厂商的 API 就可以,自动增加我们的容器或者虚机,来扩大整个数据库的容量,也可以根据用户的需要把它缩回去,这时,我们就会跟云计算厂商说这几台不用了,现在还回去。
ZD至顶网:同云计算厂商合作,对他们的容灾、备份,包括运营方面的要求会比较高。
刘奇:容灾备份是我们 Database 自己本身会有,即使云计算厂商有一个数据中心挂掉,对我们系统没有任何影响。我们希望它本身的数据中心有更低的延迟,数据中心靠的比较近是有帮助的。能够深度结合的话,在应用上有很好的增强。用户不用太关心,他可能在一个界面上可以感觉所有的东西,管理微服务、Database。
ZD至顶网:在过程中,您对云服务厂商的要求有哪些?他需要具备哪些特点,我们才愿意跟他们合作。
刘奇:首先,硬件要跟的上,我们有些用户要求比较严格,我们要求跨城市的安全,万一北京的机房出了点问题、进水、被雷劈,不管出现什么问题,我希望离的比较远的地方是安全的。
ZD至顶网:在青云用户大会上,您觉得青云是一家怎样的公司,参加一上午的会后,对青云大会有什么样的感触?
刘奇:我对青云的印象,青云应该是技术驱动的公司,我本身比较宅,关注的比较少,基本属于在技术领域常年闷头写代码,偶尔出来讲一讲。
好文章,需要你的鼓励
当前企业面临引入AI的机遇与挑战。管理层需要了解机器学习算法基础,包括线性回归、神经网络等核心技术。专家建议从小规模试点开始,优先选择高影响用例,投资数据治理,提升员工技能。对于影子IT现象,应将其视为机会而非问题,建立治理流程将有效工具正式化。成功的AI采用需要明确目标、跨部门协作、变革管理和持续学习社区建设。
这项由东京科学技术大学等机构联合发布的研究提出了UMoE架构,通过重新设计注意力机制,实现了注意力层和前馈网络层的专家参数共享。该方法在多个数据集上显著优于现有的MoE方法,同时保持了较低的计算开销,为大语言模型的高效扩展提供了新思路。
美国垃圾收集行业2024年创收690亿美元,近18万辆垃圾车每周运营六至七天,每日停靠超千次。设备故障成为行业最大隐性成本,每辆车年均故障费用超5000美元。AI技术通过实时监控传感器数据,能提前数周预测故障,优化零部件库存管理,减少重复维修。车队报告显示,预测性维护每辆车年节省高达2500美元,显著提升运营效率和服务可靠性。
小米团队开发的MiMo-7B模型证明了AI领域"小而精"路线的可行性。这个仅有70亿参数的模型通过创新的预训练数据处理、三阶段训练策略和强化学习优化,在数学推理和编程任务上超越了320亿参数的大模型,甚至在某些指标上击败OpenAI o1-mini。研究团队还开发了高效的训练基础设施,将训练速度提升2.29倍。该成果已完全开源,为AI民主化发展提供了新思路。