ZD至顶网软件频道消息:说这是一场神秘的发布会,并不为过。仅仅在会前不到两天,媒体们才收到阿里云发来的邀请:只说4月6日下午在长沙会有一场在人工智能方面的重要发布会。在人工智能话题如此热的当下,阿里巴巴的行动并不快,于是乎尽快推出自己在人工智能领域的举措,抢夺眼球,绝对是必须的。发布会锁定长沙是为什么呢?长沙有什么?娱乐之都,湖南卫视,最近大热的《我是歌手》!
从机场开车到湖南卫视只需要半小时时间,而且全程高速不需要进城,这也是让前来湖南卫视参加节目录制的各路明星们感到无比便利之处吧。
进到湖南卫视标志性的“h”状大楼里,一楼天井位置《我是歌手》赛前发布会现场已经准备就绪,熟悉的明星海报、比赛Logo…让人忽然想到本周五就是总决赛日了。
当电视上才能见到的洪涛导演、歌手黄致列来到台前的时候,恍然有种当娱记的错觉。不过阿里云科学家团队,尤其是阿里云人工智能科学家、“小Ai之父”闵万里博士的到场瞬间又把记者给拉了回来。
《我是歌手》是一个由现场500位大众评审根据歌手现场表现进行投票的一档火爆的音乐真人秀节目,阿里云要用其人工智能程序小Ai来提前预测《我是歌手》总决赛歌王的归属,这事儿有点难。
闵万里博士也承认是有点难:“不同于前不久的人机围棋大战,下围棋是有明确规则的深度搜索,歌王预测是无明确规则的广度搜索;围棋对弈有明确规则,是智商的巅峰对决,而歌王预测是7人混战,充满不确定性,是对理智和情感的复杂考验。这时候人工智能需要判断的,是歌手在现场的歌声、情感表达、临场表现,甚至是着装、颜值。“在记者看来,越是无法量化、言说、标准化的东西,越难去进行分析和预测,所以阿里云这个人工智能小Ai在总决赛那天的表现,还是挺让人捏把汗的。
不过据了解,小Ai已经在赛前进行过一次“模拟考“了,成绩还算合格吧:小Ai在4月1日预测了《我是歌手》突围赛的成绩,1、2、6、7、8名全部预测对了。
从本周五晚八点开始,小Ai将每隔5秒更新一次7位歌手夺冠概率,为了对《我是歌手》比赛进行预测,除了工程师、科学家之外,多位阿里音乐和专业人士作为教练给小Ai狂补音乐品味和鉴赏能力,小Ai提前学了200万首歌。在比赛没有到来之前,它还在一直学习中,而且绝对是“学霸“。目前小Ai的学习速度是人类的1万倍,人类需要10万小时成为某一领域的专家,小Ai只需要10小时。
其实小Ai并不是突然冒出来的,从2012年至今,小Ai已经历经四年研发,它主要基于神经网络、社会计算(social computing)、情绪感知等原理进行工作。此次亮相《我是歌手》之前,小Ai已经有知名度了。它在Sort Benchmark上获得世界排序比赛冠军,听写能力打败全球速记亚军,帮助交通部门预测未来道路拥堵情况,帮助光伏电厂预估发电产能减少能耗,帮助水利监管部门预测水库水位以预防灾害发生、帮助金融机构的客服人员接电话、帮助阿里音乐预测音乐黑马等等,可以说已经身经百战。
不过与科学家们对小Ai信心满满不同的是,现场的洪涛导演、黄致列以及通过视频连线的容祖儿、徐佳莹,都对人工智能能否准确预测歌王归属有所怀疑。
比赛没有结束,现在任何结论都为时过早。在4月8号决赛过程中,小Ai重要预测节点将有三次:分别在比赛开始前、第一轮帮帮唱结束后以及第二轮两两演唱结束后,最终以是否预测出现场500大众评委选出的歌王来衡量胜负。ai.aliyun.com、芒果TV将对此次挑战赛进行全程直播,小Ai能不能把歌王准确预测出来,留待比赛当天见分晓。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。