ZD至顶网软件频道消息:说这是一场神秘的发布会,并不为过。仅仅在会前不到两天,媒体们才收到阿里云发来的邀请:只说4月6日下午在长沙会有一场在人工智能方面的重要发布会。在人工智能话题如此热的当下,阿里巴巴的行动并不快,于是乎尽快推出自己在人工智能领域的举措,抢夺眼球,绝对是必须的。发布会锁定长沙是为什么呢?长沙有什么?娱乐之都,湖南卫视,最近大热的《我是歌手》!
从机场开车到湖南卫视只需要半小时时间,而且全程高速不需要进城,这也是让前来湖南卫视参加节目录制的各路明星们感到无比便利之处吧。
进到湖南卫视标志性的“h”状大楼里,一楼天井位置《我是歌手》赛前发布会现场已经准备就绪,熟悉的明星海报、比赛Logo…让人忽然想到本周五就是总决赛日了。
当电视上才能见到的洪涛导演、歌手黄致列来到台前的时候,恍然有种当娱记的错觉。不过阿里云科学家团队,尤其是阿里云人工智能科学家、“小Ai之父”闵万里博士的到场瞬间又把记者给拉了回来。
《我是歌手》是一个由现场500位大众评审根据歌手现场表现进行投票的一档火爆的音乐真人秀节目,阿里云要用其人工智能程序小Ai来提前预测《我是歌手》总决赛歌王的归属,这事儿有点难。
闵万里博士也承认是有点难:“不同于前不久的人机围棋大战,下围棋是有明确规则的深度搜索,歌王预测是无明确规则的广度搜索;围棋对弈有明确规则,是智商的巅峰对决,而歌王预测是7人混战,充满不确定性,是对理智和情感的复杂考验。这时候人工智能需要判断的,是歌手在现场的歌声、情感表达、临场表现,甚至是着装、颜值。“在记者看来,越是无法量化、言说、标准化的东西,越难去进行分析和预测,所以阿里云这个人工智能小Ai在总决赛那天的表现,还是挺让人捏把汗的。
不过据了解,小Ai已经在赛前进行过一次“模拟考“了,成绩还算合格吧:小Ai在4月1日预测了《我是歌手》突围赛的成绩,1、2、6、7、8名全部预测对了。
从本周五晚八点开始,小Ai将每隔5秒更新一次7位歌手夺冠概率,为了对《我是歌手》比赛进行预测,除了工程师、科学家之外,多位阿里音乐和专业人士作为教练给小Ai狂补音乐品味和鉴赏能力,小Ai提前学了200万首歌。在比赛没有到来之前,它还在一直学习中,而且绝对是“学霸“。目前小Ai的学习速度是人类的1万倍,人类需要10万小时成为某一领域的专家,小Ai只需要10小时。
其实小Ai并不是突然冒出来的,从2012年至今,小Ai已经历经四年研发,它主要基于神经网络、社会计算(social computing)、情绪感知等原理进行工作。此次亮相《我是歌手》之前,小Ai已经有知名度了。它在Sort Benchmark上获得世界排序比赛冠军,听写能力打败全球速记亚军,帮助交通部门预测未来道路拥堵情况,帮助光伏电厂预估发电产能减少能耗,帮助水利监管部门预测水库水位以预防灾害发生、帮助金融机构的客服人员接电话、帮助阿里音乐预测音乐黑马等等,可以说已经身经百战。
不过与科学家们对小Ai信心满满不同的是,现场的洪涛导演、黄致列以及通过视频连线的容祖儿、徐佳莹,都对人工智能能否准确预测歌王归属有所怀疑。
比赛没有结束,现在任何结论都为时过早。在4月8号决赛过程中,小Ai重要预测节点将有三次:分别在比赛开始前、第一轮帮帮唱结束后以及第二轮两两演唱结束后,最终以是否预测出现场500大众评委选出的歌王来衡量胜负。ai.aliyun.com、芒果TV将对此次挑战赛进行全程直播,小Ai能不能把歌王准确预测出来,留待比赛当天见分晓。
好文章,需要你的鼓励
美国劳动节前夕,AI与就业话题从猜测转向政策核心。美联储主席鲍威尔在杰克逊霍尔会议上表示,疲软的就业市场与顽固通胀并列成为美联储风险考量因素。市场解读为降息信号并大涨。研究显示AI主要推动就业重新配置而非大规模失业,仅4%岗位高度依赖AI。采用AI的企业内部流动性增加一倍,但员工job安全感并未下降。美联储将密切关注AI生产力提升如何影响工资谈判和就业稳定。
Hugging Face团队发布SmolLM2语言模型研究报告,详细阐述了17亿参数小型模型的创新训练方法。该研究通过多阶段精细化训练策略和三个全新数据集(FineMath、Stack-Edu、SmolTalk)的创建,证明了小模型在数据质量优化下可达到优异性能。模型在多项基准测试中超越同规模竞品,为人工智能技术的普及化和可持续发展提供了新的技术路径。
传统的数字堡垒安全模式已经过时,在云服务和远程办公时代,身份成为网络安全的新前线。Ping Identity首席执行官Andre Durand讨论了从简单密码到复杂验证的演进,去中心化数字凭证如何减少数据泄露影响,以及身份与人工智能的关系。他强调现代安全的核心是"只信任已验证的",AI代理需要具备身份认证和授权机制,所有数字交易都必须基于可验证的身份建立信任。
ByteDance研究团队发布OmniHuman-1,这是一个革命性的AI人物动画生成系统。该技术只需一张照片和音频就能生成逼真的说话视频,支持真人、动漫角色等多种图像类型。核心创新在于"全方位条件训练"策略,通过同时使用文字、音频、动作三种条件,将可用训练数据从10%提升到100%,显著改善了生成质量和多样性,为AI视频制作技术带来重大突破。