AI大模型的春风,吹进了各行各业。迎着这股热潮,似乎每个行业都嗅到了一丝新的发展气息,LED领域亦是如此。
由于不具有明显的护城河,近年来众多企业涌入LED行业,导致市场竞争环境日益激烈,不仅硬件产品同质化严重,高昂的内容制作成本更是加剧了企业的生存压力。
生成式AI的出现,无疑给行业打开了一扇新窗。它带来了内容生产的全面进化,极大提升了创意和效率,显著降低了成本。对于LED行业来说,这意味着屏体内容的需求将被更好地满足。
毕竟,硬件本身只是载体,内容才是提升价值的关键。
作为LED行业翘楚,洲明科技深谙这一点。洲明科技创新业务副总经理张林华表示,AI技术的加持极大增强了LED屏的沉浸感和内容呈现效果,提升了用户的互动体验。进一步地,LED屏和内容之间的相互作用形成了一种飞轮效应,在这个过程中,AI技术不仅解决了内容量和质的问题,还将驱动市场产生更多对LED屏的需求。
洲明科技创新业务副总经理张林华
顺应这一趋势,洲明科技创新性地提出“LED+AI”技术融合策略,基于LED应用场景需求布局数字内容、AI、虚拟制作三大生态,推出了虚拟数字人、多模态垂直多模型、虚拟制作工具等多个业务产品。从过去单一的硬件售卖,逐步转型为集硬件+软件+内容+互动于一体的方案集成商,在行业首次亮相(LED x内容)AI新公式、新发展、新机遇。其中,虚拟数字人是整个“LED+AI”策略的一个关键创新,透过它,也许便能窥见LED行业在人工智能时代下的暗流涌动。
“LED+AI”,从虚拟数字人落地
虚拟数字人本身并不是新鲜事物,在互联网发展的不同阶段,都有其典型的代表人物。而最早走入普罗大众视野的,大概要数初音未来、洛天依等虚拟偶像。
2021年,在被称为“元宇宙元年”的这一年,虚拟数字人进入快速爆发期。数据显示,2021年虚拟数字人相关企业融资共2843起,融资金额达2540亿元。
然而好景不长,由于生产成本高、交互效果差等问题,虚拟数字人在市场中的应用很受限,逐渐走向“过气”。由于智能水平不足,虚拟数字人一度被认为“空有一副好皮囊”。
直到AI大模型爆发,虚拟数字人迎来了涅槃重生。张林华表示,AI大模型给了虚拟数字人一个超强大脑。过去用户与虚拟数字人的互动是被动接受,现在用户可以真正参与进来,与它对话,实现双向交流,这是完全不一样的体验。
根据视觉效果的不同,虚拟数字人可分为2D数字人和3D数字人两种类型。洲明科技选择以3D互动数字人为主要发力方向。张林华解释道,“3D互动数字人与洲明的屏显技术融合,能发挥更好的沉浸体验和人机交互效果,基于多模态生成式AI技术带来的全新交互范式变化,正向设计满足物理世界情境感知能力的屏显载体,使AI具备人类同源信息感知能力,从而全面释放光显AI的庞大潜力。”
而对于2D数字人,洲明科技选择与腾讯智影等外部合作伙伴共创,开发互动数字人一体机解决方案,并面向市场推广,满足各行各业的需求。
目前,公司成功打造了“甪端”、“祁小蓦”、“萌猫大橘”等一系列洲明数字IP形象。其中,“祁小蓦”是国内首个裸眼3D虚拟数字人。经过AI大模型的加持,“祁小蓦”从形象到动作、表情、语言交互能力都极大进化,在语音交互过程中,能够以自然的动作、表情甚至对应的唇形与人对话交流。
在应用侧,洲明科技打造的数字人可应用在影视广电、文旅、教育、医疗等领域,满足表演、现场互动、直播等多样需求。采访中,张林华分享了一个别具新意的案例——全球首个王者荣耀IP电竞酒店。
洲明科技负责该项目的全流程创意设计方案,通过主题形象设计、IP互动装置以及NFC玩法的实施,实现了数字文化IP与线下空间的创意融合。在酒店的弧形LED屏幕互动区,住客们可以与虚拟数字人进行交互,了解酒店设施、王者荣耀以及KPL赛事等相关信息,让沉浸式电竞酒店达到了“Next Level”。
LuminGPT,虚拟人的大脑&光显界的“知乎”
从技术视角来看,虚拟数字人“好看的皮囊”涉及到形态、3D模型的逼真度等要素,它们决定了用户视觉上的吸引力和真实感。为了让虚拟数字人的表现更逼真自然,洲明科技自研动态捕捉UAction等系统,拥有包含数千种动作的动作库,可完成从角色设定、形象创作,到分镜设计、三维制作、渲染合成等全流程方案。
至于“有趣的灵魂和智慧的大脑”,则需要依赖AI大模型和多模态交互技术。洲明科技拥有自研垂直多模态大模型LuminGPT,支持图文、动作和空间感知的多模态实时互动。也正是如此,洲明科技的虚拟数字人才能实现复杂的交互。
背靠大量本土行业数据,LuminGPT拥有丰富的专业知识。张林华指出,LuminGPT就像是光显行业的“知乎”,相比GPT的闲聊模式,LuminGPT偏向专家模式,通过它,用户能够获得公司产品及光显领域专业的解答。如今,洲明科技开始将LuminGPT陆续应用到销售、运维、品牌传播等业务领域。
为了拓展AI应用能力,洲明科技构建了丰富的AI生态。不仅获得了微软、戴尔全球ISV通用认证和GPT-4官方接入许可,还与英特尔、英伟达等硬件厂商,以及OpenAI、腾讯、阿里、百度、科大讯飞、出门问问等大模型佼佼者广泛合作。在戴尔AIPC工作站上,通过洲明自研UniAvatar、UniStudio、LuminGPT等的各种对应性及适配性测试,保障工作站AIPC运行AI、XR等软件过程中的稳定性和流畅性。
“未来,洲明科技将利用在光显领域的优势,继续推进「LED+AI」主线,推出更多创新解决方案,给用户带来更好的人机交互体验,推动光显行业更加完善。”张林华说。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。