——新冠疫情加速了企业数字化转型的进程,但数字化领先者与追随者之间的差距正在扩大
2021年11月30日,北京 —— Altimeter与欧特克公司(NASDAQ: ADSK)联合开展了一项全球数字化转型的研究项目,其研究报告《解析融合:数字化转型的下一波浪潮》显示:数字化成熟的企业正在积极迎地接下一波数字化颠覆浪潮,即“融合”。受到新冠疫情的影响,虚拟通信、个性化数字交互、沉浸式建模、快速原型制作以及高效协作等创新实践如今已成为主流。
该研究对来自中国、美国、英国、德国、法国和日本的749位企业领导人进行了调研,涉及的行业包括了工程建设行业,设计与制造行业,以及传媒和娱乐行业。调研结果显示,由新冠疫情带来的颠覆性变革造就了两类企业:
“融合”就是将以前各自独立的技术、流程和数据结合在一起,从而创造出产品、服务及体验的全新组合,以重塑行业流程和结构。今天,大多数企业都认识到融合是一种趋势,并将以某种形式影响着他们。该研究发现,58%的受访者对融合有一定的考虑,或者认为融合是对其业务最关键的影响因素之一。这项研究的关键结论之一就是,数字化成熟度是一个强有力的预测指标,可以预测一家企业认为融合对自己的影响有多大。
为了确定企业的数字化成熟度,该研究让受访者从以下各个阶段中自选其一来定义自己的企业:
图1:各地区数字化成熟度的高级水平
调研数据显示,中国受访者中处于第 4 和第 5 阶段的比例最高(52%,全球为 42%),他们更有可能认识到融合带来的影响和好处。例如,82% 的中国受访者说他们看到了技术融合的影响,而全球受访者的这一比例为 65%;66% 的中国受访者表示,他们实际获得了技术融合的好处,而全球受访者的这一比例为 50%。中国受访者更有可能在其数字化转型工作中使用多种不同技术,特别是数字化技术、5G/宽带、物联网和人工智能(如下图)。
图2:使用的主要技术
同时,在数字化成熟度最高(第 5 阶段)的企业中,有 59% 的企业表示,融合是对其业务最关键的影响因素之一。随着成熟度水平的降低,将融合视为颠覆性趋势的认识也在下降。这是合理的,因为数字化成熟度较低的企业仍处于追赶阶段,在努力实施各种实践和创新,这是他们数字化转型的当前目标。
图3:处于数字化成熟度阶段较高的企业更有可能把“融合”视为一项关键影响因素
然而,这并不意味着不太成熟的企业应该等到他们达到数字化成熟度的较高阶段才考虑融合并为其做准备。事实上,为了达到第 5 阶段并获得融合带来的回报,需要尽早建立融合的基础。
构建数字化转型基础的第一步是了解所有的融合方式,并找出将对业务产生最大影响的类别。该研究将融合划分为了四个层级:
通过划分融合层级,我们可以绘制出每种融合类型所具有的影响,以及这种影响如何因行业的不同而变化。
图4:技术融合和流程融合对行业影响最大
虽然融合的好处在数字化成熟度的每个阶段似乎都很明显,但要充分实现这些好处,许多企业在实施所需的步骤时都会面临挑战。其中一些主要挑战包括:
欧特克公司技术策略师Alexander Stern说道:“了解融合并使其为您的组织服务是一项还未得到充分利用的竞争优势。流程、数据和技术融合主要影响的是企业内部的运作。而外部力量推动的产业融合则会产生不可思议的奇效。这种融合是让从前互不相干或平行运转的行业找到合作互利的途径。这种协作可以有多种形式,比如伙伴关系、交易关系或者简单的资源共享。”
Altimeter创始人兼高级研究员Charlene Li表示:“企业可以评估自己的数字化成熟度以及优先的投资项目,然后利用这些数据与我们的受访者进行比较,并制定一个转型路线图。这将使他们能够有效地为即将到来的颠覆做好准备,甚至在其中蓬勃发展。”
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。