在电视台的新闻报道中,虚拟数字人正逐渐取代传统的手语老师,提供汉语到手语的实时翻译,确保听障人士的观看体验。以前,为了让翻译准确,手语虚拟数字人还需要较多的人工干预,在生成式AI出现后,通过对自然语言的理解,AI就能直接让虚拟数字人实现汉语、手语互译的能力。
生成式AI正成为虚拟数字人智能化的关键角色,通过整合生成式AI的能力,虚拟数字人也找到了更丰富的应用场景。数字栩生(北京)科技有限公司首席市场官郭学赟表示,生成式AI让虚拟数字人从一种单纯的虚拟形象,进化成能够与人互动的智能实体。
从建模到AI,虚拟数字人的升级之路
虚拟数字人的制作需要依靠光场建模、动作捕捉等技术,动作捕捉通过捕捉真人的动作来生成数字人的动作。生成式AI的出现,也为虚拟数字人的制作提供另一种方案——AI生成,让AI通过算法来生成数字人匹配的动作。
数字栩生通过构建人脸数据库,供给深度学习算法训练
郭学赟指出,这两种技术各有优势,动作捕捉在真实性上表现更好,AI生成则是在灵活性和成本上更胜一筹。为了让虚拟数字人提供更真实的视觉体验,依然需要光场建模和大量的算法模型。
虚拟数字人的应用浪潮最早出现在影视制作领域,利用传统的影视技术完成制作;生成式AI的出现和快速迭代,让虚拟数字人迎来第二波发展。
AI极大降低了虚拟数字人的制作成本,郭学赟表示,通过AI算法,很短时间内生成的2D虚拟数字人,可以应用到直播等领域,3D数字人的制作周期也大幅缩减,极大提高了数字人的生产效率,加速了数字人从概念到现实的转化。
由AI驱动,加速应用场景落地
除了生成虚拟数字人,生成式AI也能帮助虚拟数字人获得交互能力,并且在功能上不断扩展。虚拟数字人已经被应用于智能客服、教育辅助、娱乐互动等多个领域,例如,银行和教育机构已经开始利用数字人提供服务,而娱乐行业则利用数字人进行互动表演和游戏。
数字栩生推出的虚拟数字人已经深入多个领域,主要包括游戏娱乐、教育讲解、手语服务、名人复现等等。
国内首个京剧数字人“数字梅兰芳”
游戏娱乐方面,通过与虚拟数字人的结合,在线游戏将获得更智能的NPC,线下娱乐场所也能通过虚拟数字人提供更丰富的娱乐体验。在北京三里屯的一家KTV,数字栩生的数字人不仅可以充当服务员的角色,还能摇身一变成为现场的DJ或主持人。在游戏中,虚拟数字人形态的NPC能够与玩家实时交互,由AI实时生成动态的对话和反应,而不是传统NPC的预设剧本,更有沉浸感。
教育讲解方面,虚拟数字人可以担任讲解员或辅助教师,例如在景区、博物馆等公共场所提供讲解服务。虚拟数字人在景点或博物馆中担任讲解员,能够向参观者提供详细的展品解说和历史背景介绍。对于图书馆或大型展览,虚拟数字人也可以提供导览服务,指引访客浏览不同的区域,并提供关键信息。在教育场景中,数字人可以用作教学辅助工具,帮助解释复杂的概念或进行语言学习练习。
为上海博物馆“古埃及文明大展”提供导览服务的AI数字人“小可”
手语服务方面,虚拟数字人被应用到广电和特殊教育场景,提供标准化的手语翻译。郭学赟表示,数字栩生公司在手语数字人领域与专业机构合作,确保手势的准确性和标准化,同时利用AI技术提升信息服务的可接入性。事实上,在北京冬奥会期间,手语虚拟数字人得到了更加广泛的应用,为听障观众提供无障碍的观看体验。
名人复现方面,数字栩生通过与北京理工大学、中央戏剧学院等机构的共同合作,复原了如梅兰芳等历史名人的数字化形象,提供更好的传统文化教育和传播。郭学赟提到,他们曾完成“梅兰芳”、“鲁迅”、“李大钊”等历史名人的数字化复原。
挑战与前景,虚拟数字人的未来
虚拟数字人的制作和功能落地是一个复杂的过程,涉及大量的技术细节。尽管AI拉近了虚拟数字人与真人的差距,但情感表达和交互能力上,当前的技术很难让虚拟数字人完美实现。
数字栩生参与打造的高逼真数字演员“春草”
除此之外,人们对虚拟数字人的接受程度仍然存在挑战。尽管虚拟数字人技术在某些领域已经得到应用,但市场仍处于发展阶段。用户对虚拟数字人的认知和接受程度,将直接影响数字人技术的普及和应用。
虚拟数字人市场尚未成熟,竞争却已经非常激烈,尤其是在技术能力和设计美学方面,竞争者们也各有优势。不过对普通用户来说,当前的虚拟数字人仍然缺乏真人的情感价值与柔和性,这意味着数字人在真实性和情感表达方面仍有长远的路要走。郭学赟认为,虚拟数字人技术充满可能性,数字栩生还在探索如何将虚拟数字人技术应用于高端养老和情感疗愈中,但目前还存在很多限制,需要时间和进一步的技术发展才能解决。
好文章,需要你的鼓励
数字孪生技术正在改变网络安全防御模式,从被动响应转向主动预测。这种实时学习演进的虚拟副本让安全团队能够在威胁发生前预见攻击。组织可以在数字孪生环境中预演明日的攻击,将防御从事后反应转变为事前排演。通过动态更新的IT生态系统副本,团队可在真实条件下压力测试防御体系,模拟零日漏洞攻击并制定应对策略,从根本上重塑网络安全实践方式。
NVIDIA联合多所大学开发的Omni-RGPT实现了AI视觉理解的重要突破,首次让AI能同时精准理解图像和视频中用户指定的任何区域。通过独创的Token Mark机制,该系统解决了传统方法在视频中容易"跟丢"目标的问题,在视觉问答、区域描述等多项任务上达到最先进水平,为教育、安防、内容创作等领域的AI应用奠定了基础。
Linux内核开发面临动荡时期,Rust语言引入引发摩擦,多名核心开发者相继离职。文章介绍了三个有趣的替代方案:Managarm是基于微内核的操作系统,支持运行Linux软件;Asterinas采用Rust语言开发,使用新型framekernel架构实现内核隔离;Xous同样基于Rust和微内核设计,已有实际硬件产品Precursor发布。这些项目证明了除Linux之外,还有许多令人兴奋的操作系统研发工作正在进行。
这项由中国人民大学等机构合作完成的研究提出了Virgo系统,发现仅用5000个纯文本推理案例训练就能让AI在视觉推理任务上达到顶级商业系统水平。研究证实推理能力具有跨模态通用性,为更经济高效地开发多模态AI系统指明了新方向,同时也揭示了AI感知反思能力不足的局限性。