至顶网软件频道消息:上周发表的《自然》(Nature)杂志刊载了IBM和麻省理工学院在量子计算机上实现机器学习的一些有趣的研究结果。
文章提及,在有些机器学习方面,量子计算机实际上比经典(即是说电子)计算机更具有一定的优势。
至于量子是否可以导致“杀手级应用程序”尚无定论。如果只是一些在量子计算中可以做而在经典计算中很难做到的东西是不足以成为杀手级应用程序的;必须是值得做的东西。
IBM旗下T.J. Watson研究中心的研究人员(包括Vojtech Havlícek、AntonioD.Córcoles、Kristan Temme、Abhinav Kandala、Jerry M. Chow和Jay M. Gambetta)与麻省理工学院理论物理中心的Aram W. Harrow合作撰写了《自然》杂志文章,题为“量子增强特征空间里的监督学习” (https://www.nature.com/articles/s41586-019-0980-2)。另外有一篇独立的补充材料文章 (https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-019-0980-2/MediaObjects/41586_2019_980_MOESM1_ESM.pdf)也绝对值得一读。
Temme和Gambetta还撰写了一篇博客文章(https://www.ibm.com/blogs/research/2019/03/machine-learning-quantum- advantage/)。
以上的研究人员在IBM的“IBM Q”量子机器上运行了机器学习算法,而且他们是用两个量子比特(Qubits)完成的,因此是个现在就能用的实际系统,并不是要等十年后才可能上线的几十个量子比特。
IBM的双量子比特量子机将数据编成“特征映射”,用了两层Hadamard门及名为相位门的交织。(图:
IBM)。
研究人员用量子比特构建了一个分类器程序,该程序根据数据中的模式学习如何将数据分配到不同的类别。他们发现如果用两个 Hadamard门构建分类器就可以得到比传统计算机更复杂的功能。Hadamard门是一种类似于傅里叶变换的数据转换。
他们用的的机器学习并不是深度学习,而是传统上被称为“浅”网络的机器学习,他们用了 “支持向量机”或SVM的量子版,SVM是由Vladimir Vapnik在上世纪90年代提出的。
具单个权重“内核”的SVM将输入数据转换为“特征映射”后,数据可以被彻底分离并置放在不同的桶里。 Havlícek及其同事寻找的是在经典计算机上难以计算的特征映射。他们在文章里提到,他们发现一些所需要的特征映射,这些特征映射需要用到上面提到的多个Hadamard门。
问题是会不会有人想要极复杂的特征映射。深度学习领域多年来都是认为SVM方法和类似内核方法比诸如卷积神经网络(CNN)或递归神经网络( RNNs)等支持深度神经网络的的方法性能差一些。
蒙特利尔大学MILA学院的Yoshua Bengio及其同事在2013年的文章里提到,深层网络可表达成等级结构(https://arxiv.org/abs/1206.5538)。深度学习的全部意义在于,计算限制的约束迫使深度网络使用一个规则达到产生抽象的目的,从而导致有意义的普遍化。
正如Bengio在文章里写的,“我们可以用层次结构里的其他概念来描述我们周围的世界,这是一个有用的概念,层次结构里高层更抽象的概念可以用不那么抽象的概念来定义。”
机器学习的深度学习形式的智能来自限制。限制迫使抽象的分级,进而导致数据更复杂的表达方法。IBM研究人员也是在寻求构建表达的方法,只不过他们要构建的是一个非常难于计算的单一特征映射。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。