“江南忆,最忆是杭州”。这座拥有8000年文明史的古都,如今既保留着深厚的历史底蕴,又焕发出现代电竞之都的魅力。
今年5月,全球首家王者荣耀IP电竞酒店在杭州开业,瞬间成为街区的新数字空间地标。住客办理入住后,可以免费领取KPL主题NFC卡片,体验独特的主题内容。在酒店的弧形LED屏幕互动区,客人们可以与虚拟数字人进行交互,了解酒店设施、王者荣耀以及KPL赛事的相关信息,整个沉浸式的体验让人仿佛置身于游戏世界。
这背后,是洲明科技张林华团队全流程参与打造的创意数字人互动方案,为这座电竞酒店注入了灵魂。
虚拟数字人“重生”背后
虚拟数字人,并非新鲜事物。但由于高昂的制作成本和较差的交互体验,虚拟数字人在市场中的应用一度受阻,逐渐淡出人们的视野,被调侃为“空有一副好皮囊”。直到AI模型的崛起,虚拟数字人才真正迎来了“涅槃重生”。
“AI模型给了虚拟数字人一个超强大脑。过去,用户与虚拟数字人的互动是单向的被动接受,现在,他们可以真正参与进来,与它对话,实现双向交流,这是完全不同的体验。”张林华一语道出了虚拟数字人质变的关键。
创新业务部技术产品总监张林华
在王者荣耀IP电竞酒店,张林华团队通过主题形象设计、IP互动装置以及NFC玩法的实施,让住客与数字形象产生了更加多元的互动。他们将设计的虚拟形象与洲明自研的垂直多模态模型LuminGPT相结合,通过酒店的弧形LED屏幕互动区,让虚拟数字人能够实现复杂的实时交互功能。
为了让电竞酒店的“虚拟主理人”形象更加逼真,张林华团队使用了Maya、ZBrush等专业软件进行数字人的建模、绑骨、雕刻、贴图、渲染。每一个步骤都需要大量的显存和计算资源,以确保每一处细节都分毫毕现。这对设备的性能和稳定性提出了极高的要求。
“执行这些数字人相关的任务,需要高算力终端设备的支持。我们团队采用了戴尔Precision 7960塔式工作站,通过它搭载的NVIDIA专业级显卡,配合卓越的散热设计,可以轻松完成数字人形象的建模和渲染。即使持续以高负载状态运行一整天,工作站也不会出现丝毫卡顿,一台设备可以同步执行多个3D处理任务。”张林华表示。
不仅如此,戴尔独有的Optimizer智能调优软件,通过学习用户的使用习惯,为常用的软件分配更多算力资源,使设计软件的运行更加流畅、稳定。“戴尔Precision 7960工作站为我们节省了至少80%的工作时间,大大提升了团队的工作效率。”他补充道。
XR+数字人:一场虚拟现实的跨越
虚拟数字人,正是洲明科技“LED+AI”技术融合策略的关键创新之一。
洲明科技创新业务副总经理吴斌表示:“在文旅行,影视、展览展示等行业,消费者对于沉浸式互动体验的期待日益增强,市场对于数字文化IP等内容的需求呈现快速增长的趋势,同时AI技术日益成熟。在这样的需求和趋势下,洲明科技提出了“LED+AI”融合战略,基于LED应用场景需求,布局数字内容、AI、XR虚拟制作等生态,推出虚拟数字人、多模态垂直模型等多个AI业务产品。”
洲明科技在行业提出(LED x内容)AI新公式
结合洲明的XR虚拟拍摄技术,数字人能够以各种形式出现在虚拟影棚的画面中,与虚拟场景和现场的真人主持人进行互动,极大地拓展了观众的视觉体验。
然而,要让数字人实时表达复杂的情感和动作,并非易事。这需要高精度的面部捕捉和动作捕捉系统,对人物的毛发、皮肤、眼睛反射等微小细节进行实时处理,这个过程中最受考验的就是实时渲染的算力。而且将数字人融入XR虚拟环境并实时呈现,更大大增加了计算负荷。
“一般来说,高复杂度的数字人需要16到24GB的显存,而复杂的XR虚拟场景,包含高分辨率的环境贴图和丰富的物理效果,显存需求会进一步提升,至少达到32GB以上。”张林华解释。
面对这样的高要求,硬件设备的性能至关重要。戴尔Precision 7960塔式工作站,可为AI图形、渲染和繁重的计算工作负载提供极致的性能,也因此成为了他们的“得力助手”。
“戴尔Precision 7960工作站,最高可以选配4张NVIDIA RTX 5880 Ada显卡,一台工作站光是显存就已经高达192GB,完成这样的任务自然是游刃有余。”张林华说。
随时随地的移动工作室
在AI技术突飞猛进的当下,虚拟数字人线上与线下的互动体验不断丰富。戴尔工作站的强大算力和稳定性能,不仅让数字人变得更加“聪明”,也使其具备了更加即时的反馈能力。
面向未来,张林华相信,数字人将不只是隔着屏幕与人互动的虚拟形象,它们还能够与实体机器人产生联动,而这需要更加便携的移动工作站提供支持。
戴尔Precision 5690移动工作站可以满足这样的需求。这款设备拥有与普通笔记本电脑相当的轻薄机身,最高可以搭载NVIDIA RTX 5000 Ada显卡。外出办公时可以随身携带,随时随地处理高负载的任务,不再受限于场地,就像是一个移动创意工作室。
从技术的纵向发展而言,一项新型技术需要经过时间的检验,并在人们长期的选择和应用中得以保留下来。虚拟数字人技术,从“空有其表”到“内外兼修”,从“被动接受”到“双向交流”,正以全新的姿态走进我们的生活。而这一切,离不开像洲明科技这样的创新企业,以及戴尔Precision工作站所代表的强大技术支持。
当技术与艺术完美融合,当虚拟与现实的界限日渐模糊,我们有理由期待,一个更加精彩的数字世界正在到来。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。