在电视台的新闻报道中,虚拟数字人正逐渐取代传统的手语老师,提供汉语到手语的实时翻译,确保听障人士的观看体验。以前,为了让翻译准确,手语虚拟数字人还需要较多的人工干预,在生成式AI出现后,通过对自然语言的理解,AI就能直接让虚拟数字人实现汉语、手语互译的能力。
生成式AI正成为虚拟数字人智能化的关键角色,通过整合生成式AI的能力,虚拟数字人也找到了更丰富的应用场景。数字栩生(北京)科技有限公司首席市场官郭学赟表示,生成式AI让虚拟数字人从一种单纯的虚拟形象,进化成能够与人互动的智能实体。
从建模到AI,虚拟数字人的升级之路
虚拟数字人的制作需要依靠光场建模、动作捕捉等技术,动作捕捉通过捕捉真人的动作来生成数字人的动作。生成式AI的出现,也为虚拟数字人的制作提供另一种方案——AI生成,让AI通过算法来生成数字人匹配的动作。

数字栩生通过构建人脸数据库,供给深度学习算法训练
郭学赟指出,这两种技术各有优势,动作捕捉在真实性上表现更好,AI生成则是在灵活性和成本上更胜一筹。为了让虚拟数字人提供更真实的视觉体验,依然需要光场建模和大量的算法模型。
虚拟数字人的应用浪潮最早出现在影视制作领域,利用传统的影视技术完成制作;生成式AI的出现和快速迭代,让虚拟数字人迎来第二波发展。
AI极大降低了虚拟数字人的制作成本,郭学赟表示,通过AI算法,很短时间内生成的2D虚拟数字人,可以应用到直播等领域,3D数字人的制作周期也大幅缩减,极大提高了数字人的生产效率,加速了数字人从概念到现实的转化。
由AI驱动,加速应用场景落地
除了生成虚拟数字人,生成式AI也能帮助虚拟数字人获得交互能力,并且在功能上不断扩展。虚拟数字人已经被应用于智能客服、教育辅助、娱乐互动等多个领域,例如,银行和教育机构已经开始利用数字人提供服务,而娱乐行业则利用数字人进行互动表演和游戏。
数字栩生推出的虚拟数字人已经深入多个领域,主要包括游戏娱乐、教育讲解、手语服务、名人复现等等。

国内首个京剧数字人“数字梅兰芳”
游戏娱乐方面,通过与虚拟数字人的结合,在线游戏将获得更智能的NPC,线下娱乐场所也能通过虚拟数字人提供更丰富的娱乐体验。在北京三里屯的一家KTV,数字栩生的数字人不仅可以充当服务员的角色,还能摇身一变成为现场的DJ或主持人。在游戏中,虚拟数字人形态的NPC能够与玩家实时交互,由AI实时生成动态的对话和反应,而不是传统NPC的预设剧本,更有沉浸感。
教育讲解方面,虚拟数字人可以担任讲解员或辅助教师,例如在景区、博物馆等公共场所提供讲解服务。虚拟数字人在景点或博物馆中担任讲解员,能够向参观者提供详细的展品解说和历史背景介绍。对于图书馆或大型展览,虚拟数字人也可以提供导览服务,指引访客浏览不同的区域,并提供关键信息。在教育场景中,数字人可以用作教学辅助工具,帮助解释复杂的概念或进行语言学习练习。

为上海博物馆“古埃及文明大展”提供导览服务的AI数字人“小可”
手语服务方面,虚拟数字人被应用到广电和特殊教育场景,提供标准化的手语翻译。郭学赟表示,数字栩生公司在手语数字人领域与专业机构合作,确保手势的准确性和标准化,同时利用AI技术提升信息服务的可接入性。事实上,在北京冬奥会期间,手语虚拟数字人得到了更加广泛的应用,为听障观众提供无障碍的观看体验。
名人复现方面,数字栩生通过与北京理工大学、中央戏剧学院等机构的共同合作,复原了如梅兰芳等历史名人的数字化形象,提供更好的传统文化教育和传播。郭学赟提到,他们曾完成“梅兰芳”、“鲁迅”、“李大钊”等历史名人的数字化复原。
挑战与前景,虚拟数字人的未来
虚拟数字人的制作和功能落地是一个复杂的过程,涉及大量的技术细节。尽管AI拉近了虚拟数字人与真人的差距,但情感表达和交互能力上,当前的技术很难让虚拟数字人完美实现。

数字栩生参与打造的高逼真数字演员“春草”
除此之外,人们对虚拟数字人的接受程度仍然存在挑战。尽管虚拟数字人技术在某些领域已经得到应用,但市场仍处于发展阶段。用户对虚拟数字人的认知和接受程度,将直接影响数字人技术的普及和应用。
虚拟数字人市场尚未成熟,竞争却已经非常激烈,尤其是在技术能力和设计美学方面,竞争者们也各有优势。不过对普通用户来说,当前的虚拟数字人仍然缺乏真人的情感价值与柔和性,这意味着数字人在真实性和情感表达方面仍有长远的路要走。郭学赟认为,虚拟数字人技术充满可能性,数字栩生还在探索如何将虚拟数字人技术应用于高端养老和情感疗愈中,但目前还存在很多限制,需要时间和进一步的技术发展才能解决。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。