“苟日新,日日新,又日新”商汤王励精图治将此言刻在自己的澡盆上提醒自己清洁身体也要警醒思想。一千两百年后被儒家经典《礼记·大学》收录其中,强调人们要及时反省、不断革新。时光荏苒斗转星移,又隔了近两千六百年,2023年4月10日,商汤科技发布了自研的大模型,命名为“日日新”。
正如商汤科技董事长兼首席执行官徐立博士所言:“如今的大模型发展也是日新月异,模型训练的参数以及千亿记,每周以百倍的token量在增长。商汤今年的目标是训练万亿参数的大模型,这个大模型能支持增量的训练,同时要把训练成本降低90%。这背后靠的是AI算力‘大装置’的支撑。利用‘日日新’大模型未来将开放商汤的模型超市、模型工具,提升开发者的效率,赋能各行各业的智能化。”
此次商汤科技发布了基于大模型的六大产品及能力:包括自然语言的商量、体现绘画能力的秒画、创建虚拟数字人能力的如影、构建城市级大尺度数字孪生的琼宇、针对3D资产生成的格物以及数据智能标注系统明眸。
关注行业痛点 发挥AI优势
AI对话是最近大家经常谈到、用到的大模型产品。商汤自研的自然语言大模型叫“SenseChat”。 徐立认为:“自然语言大模型的能力就是在于说你跟他的互动之间挖掘出解决问题的方案。它不是一个单纯的问答,而是通过多次互动得到你想要的答案。”徐立幽默地形容:“我们的slogan就叫:有什么问题‘商量’都能解决。”
商量所对应的场景除了自然语言的交谈,编故事、写文案,还可以应用在医疗等专业的垂直领域。基于海量医学知识的导诊、问诊、健康咨询、辅助决策等多场景多轮会话能帮助提升医院的诊疗效率以及帮助患者快速定位病症并正确找到病症所属的科室和基本的解决方案。
数字时代,代码能力是很多企业的核心竞争力。如何产生高质量的代码是企业关注的重要问题。徐立尤其看重AI在代码能力的表现。徐立认为:“这将大幅提升企业的生产效率。”他大胆预测:“AI For AI将改变软件行业的二八定律。原来20%的代码来自于公共库,80%的代码需要由人来写。但未来,80%的代码是通过提示词由机器生成、衍生出来, 只有20%是通过人来最终整合。未来的程序员掌握了与AI交互编程的能力,就可以利用整个公司多年来积累的知识与经验,生产效率必然大幅提升。”
徐立这样的预测是根据真实的测试得到的。他表示:“我们的程序员日常办公就用AI代码助手,效率提升了62%,代码一遍通率达到了40.2%。很多企业担心自己的代码流失,可以通过API调用的方式,企业不用担心自己的代码库共享到外面去,并可以做增量训练,还可以很好地完成代码的补全、扩写、翻译、重构、修正、注释,代码复杂度分析、测试用例等任务。”
企业数字化营销需求越来越大,内容创作中大家对图片的需求既大也高。首先是图片需求数量大、内容能用图的绝不用字,其次是风格多样,什么二次元、油画风、国潮范五花八门,最后是图片要求质量高,既要构图新颖、又要有细节的体现还要有景深层次展现出画面的张力。秒画就是针对这种绘画要求的创作平台。然而相比于其他AI绘画平台,秒画平台的一大特色就是可以省去创作者思考如何写提示词的时间与精力。秒画平台包含了很多风格的图片库,创作者除了看到图片还能看到这张图片的各种描述,甚至衍生的各类风格描述也可以看到,这样创作者就可根据这些已生成的图片和提示词再进行二次加工,就可以快速生成自己所需的图像。
如果遇到库里没有的风格,还可以通过LoRA(Low-Rank Adaptation,大型语言模型的低阶自适应)方式再学习,通过你给的少量(约20张)的图片让模型做适当修改,形成你所期望的风格。LoRA的优势在于让大模型可以对特定任务进行微调,然而并不增加大模型在存储方面的负担,可以高效地进行任务的切换,同时不会带来推理延迟的问题。
数字人如今成为了很多企业对外宣传、直播带货的利器。商汤如影平台就是帮助这些企业制作虚拟数字人形象的平台。徐立特别介绍,:“如影这个名字就是‘商量’给起的。‘商量’说数字人来自如影随形这个词。”虚拟数字人既是人也不是人,但总跟着人与人形影不离。
通过5分钟的手机拍摄视频就可以生成一个容貌逼真,能反映出你的音容笑貌的数字人。能结合AI文案,声纹以各种题材,各种语言、各种风格、各种着装去介绍产品、展现内容,为企业的营销手段增添新形式。
琼宇、格物则针对元宇宙上的数据资产的模型生成工具。琼宇具备城市级大尺度的空间重建生成能力。生成的各类3D内容能够在平台上进行再编辑再创作,通过海量高精度数字资产的生产,满足影视创作、建筑设计、商品营销、数字孪生管理运营等行业需求。格物则针对虚拟物体进行精细化3D生成,可还原物体复杂的几何结构、纹理、材质、光泽等细节信息,能做到实时高逼真渲染。
大装置:千亿大模型的幕后“英雄”
训练千亿大模型需要巨大的算力。徐立把这算力的重要性比作物理界的离子对撞机。徐立表示:“电子对撞机与人工智能在1956年被同时提出,粒子对撞机已成为现代物理学重要的基础设施,也是基础设施中的大装置。然而在如今动辄上千亿的模型、甚至走向万亿规模的大模型背后同样需要巨大AI算力的支撑。因此商汤把AI算力中心也称之为AI的‘大装置’”。
商汤的‘大装置’坐落在上海自贸区临港新片区。其总投资约56亿元,由27000块不同类型、不同型号的人工智能专用的计算卡组成,总算力达到5000 Petaflops(1 Petaflops为每秒千万亿次浮点运算)。
很多人认为,算力就是计算资源的堆积,是暴力美学的成功。然而在商汤科技联合创始人、主管SenseCore AI大装置的杨帆看来,资源的堆积只是必要条件但不是充分条件。
杨帆表示:“只要肯花钱,堆积计算资源很容易。如果要把几千张、上万张计算卡连起来针对同一个大模型进行训练就不是一件简单的事,他需要大量的软件工程和技术能力才能做到。”
“现在网上有大量的数据可以收集,但如何将这些数据提供给模型,以怎样的顺提提供给模型、以及以怎样的数据质量、数据标提供给模型都需要具备大量知识和认知的沉淀,最终才能训练出一个好的模型。”
目前商汤的‘大装置’不仅自用还为诸多行业提供了算力支持,包括智慧商业、智慧城市、智慧生活和智能汽车,并与众多科研院所和高校展开了合作。
数据飞轮与智慧飞轮双轮驱动:实现数据感知闭环和决策闭环
由人工智能大模型引发的海量开放的任务也带来新的研究的范式。商汤科技首席科学家王晓刚认为,“基于超大的多模态基模型,通过人类的反馈以及强化学习,将不断解锁新模型的新能力。”
“通过模型与人的互动,将产生有智慧的内容,实现人机共治。现有的AI体系从前端获取大量数据进行标注,更新模型,通过更新的模型反馈到前端能获取高质量的数据实现了数据飞轮。"
“通过人与模型的互动,模型将不断理解人的意图,模型就会输出更加高质量的内容。这样就形成了智慧的飞轮。在这两个飞轮的相互促进下,将实现感知和决策的闭环。”
以自动驾驶为例,王晓刚表示:“利用多模态的大模型生成大量的实景图片,用环视的感知的数据,以及多模态的数据作为我们大模型的输入,实现感知决策一体化的集成。在输出层,通过环境的解码器去重构汽车的3D环境,通过行为解码器预测路径规划,以及动机的解码器去解释自动驾驶的动机。在这个大模型的推动下将来的自动驾驶的系统将是更加安全可靠,并且有可解释性,也更加接近人的驾驶的行为与判断。”
“因此在大模型的加持下,就能实现感知和决策数据的闭环。能大大提升数据的标注的能力。在人工智能 1.0 的时代,主要依赖于人工标注,时间长、成本高,现在我们可以基于大模型实现自动化的标注,成本只有原先的百分之一,实现了快速迭代与优化。”
天有严寒酷暑,水有潮起潮落。AI的发展也是长江后浪推前浪:1956年的达特茅斯会议掀起了人工智能的第一个浪潮,此后是专家系统、阿尔法狗、神经网络,如今是大模型,每一浪来得都更急更汹涌。有人认为AI已经死在了沙滩上,有人则认为它是一轮红日正当头,不管你如何看AI,如果有助于降本增效,我们就应大胆尝试——日日新,又日新。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。