根据Gartner预测,到2028年,50%构建于2023年之前的中国数据和分析(D&A)平台,将因为与生态系统脱钩而过时;此外,到2028年,在中国开展跨境业务的企业机构(包括出海企业和外资企业),如果不能简化其互联云/混合云的数据管理,其所有D&A成果的洞察交付时间将延长一倍。
面对经济不确定性和人工智能(AI)的快速发展,中国的企业机构比以往任何时候都要更强调其数智基建的直接投资回报率(ROI)和适应性。中国的D&A领导者在考虑数智基建的建设方法时,应将重点转向构建数据、分析和AI生态系统。
Gartner高级研究总监顾星宇告诉记者,由于当今的分析和AI技术十分复杂,许多与数据管理相关的组件正在快速演进。在这些背景下,中国的D&A领导者在实施D&A解决方案和选择供应商时,应转变思维,以生态系统为中心,应对市场变动。
数智基建取代数据中台
在过去十年中,大多数的数据中台供应商同时扮演了服务提供商的角色,帮助客户开发D&A用例。但这种一人饰多角的合作方式,也稀释了厂商对核心技术持续研发的能力。
顾星宇指出,近年来,随着外部环境的变化,特别是经济增长放缓和不确定性增加,企业对数据中台的传统部署模式产生了质疑。数据中台曾被视为实现数据驱动转型的有效途径,但现在面临着两大挑战:一是企业对快速价值兑现的需求日益增长;二是AI技术的快速发展要求平台具备更高的可组装性。
“数据中台”概念由阿里巴巴提出,强调中心化管理与治理的重要性,但这种模式在实践中往往导致较长的交付周期和高昂的运维成本。相比之下,“数智基建”是一种更为灵活和可持续的部署模式,它不再依赖单一供应商的端到端解决方案,而是通过厂商间的生态合作形成联合解决方案。
“传统的数据中台建设往往采用一次性交付模式,随着时间的推移,这种模式暴露出成本高、灵活性差的问题。所以我们认为企业应该摆脱过去这样的一次性交付模式,转而采用生态合作的方式。”顾星宇说。
Gartner将“数智基建”定义为基于数据、分析和AI生态合作的一种部署模式,通过使用已经相互建立了密切合作的供应商组合,构建全面的数据分析和人工智能的解决方案和服务。“数智基建”提供了包括分析型数据库、数据集成、元数据管理和数据质量、数据虚拟化等在内的技术能力,作为整个数据分析和AI应用的可复用的底座。
顾星宇表示,在继续创新数据库、数据集成和数据治理等核心技术的同时,中国数智基建供应商已开始与行业SaaS供应商或服务商合作,将其技术嵌入合作伙伴的行业解决方案中。这一方法极大地缩短了D&A投资的价值实现时间,使企业可以在时间和预算均十分有限的情况下,启动针对特定业务用例的D&A实践。与此同时,由数智基建供应商为相关应用的数据管理技术提供支持,可确保企业未来能够适应不断变化的新技术需求。
构建数据分析及AI生态系统的作用
在部署D&A应用方面,中国企业比世界其他地区的企业所面临的云环境更为复杂。在这种情况下,只能与一种环境兼容的D&A平台不再满足各企业机构对各自D&A资产进行有效且合规管理的需求。
顾星宇表示,中国的数智基建供应商正在加快与多个云供应商建立合作伙伴关系,以确保其解决方案在各种云环境中都能够实现最大能力。同时,通过提供自动互联云资源优化和自动数据属地管理等功能,这些供应商可以帮助企业提高跨云数据管理的效率和合规性。
Gartner的研究显示,构建数据分析及AI生态系统对于企业具有多重积极作用。首先,生态合作有助于降低成本并提高效率。例如,数智基建供应商与云厂商的合作可以为企业提供更加统一且值得信赖的数据基础设施,特别是在跨境业务场景中,这对于确保数据合规性、安全性和性能至关重要。
其次,生态合作有助于实现技术与业务场景的快速结合。在中国,许多优秀的服务商与数智基建供应商建立了合作关系,这种模式使得技术能够更快地适应业务需求,同时也减轻了供应商在非专业领域的负担。
最后,数智基建与AI厂商的合作对于生成式AI等前沿技术的应用至关重要。Gartner的调查显示,中国企业对于生成式AI应用的主要担忧包括数据泄露、知识产权侵犯等问题,而这些问题的解决离不开高质量的数据准备和持续优化。数智基建供应商与AI厂商之间的合作有助于建立元数据共享机制,从而持续改进AI就绪数据的质量。
顾星宇说,中国的数智基建供应商正在对数据安全和质量管理、数据语义层以及元数据管理等功能进行创新,确保为客户提供可靠的底座。数智基建所提供的能力也将在解决大模型幻觉方面发挥至关重要的作用。同时,数智基建可以帮助企业避免模型或云锁定。
结语
随着数据和AI技术的不断发展,数智基建将成为支撑企业数字化转型的关键基石。通过加强生态合作,企业不仅能更好地应对不确定性带来的挑战,还能在快速变化的市场环境中抓住机遇,实现持续的增长与创新。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。