至顶网软件与服务频道消息:在上世纪70年代,工业界开始运用3D视觉技术测量和扫描物件,提高生产效率。最近10多年,家用游戏机厂商将3D体感外设带入大众视野,带来了新奇的体感游戏。近三年,越来越多的智能手机开始配备3D传感器,并在AI的加持下,开拓出了更多更具想象空间的应用场景。未来10年,AI+3D将无处不在,给我们的生活和工作带来深远影响。
赋予机器感知三维世界的“眼睛”
人类拥有与生俱来的3D环境感知和理解能力,这是因为我们用两只眼睛来捕捉图像,通过大脑处理形成立体视觉,从而辨认物体的形状方位、他人的动作,轻松自然地跟这个三维世界交互。
能否让机器也能感知三维世界呢?或许很多人会想到给机器添加一颗摄像头。但普通RGB摄像头拍摄的现实世界的影像,仅能采集场景中的色彩信息,无法采集物体和摄像头之间的距离和方位。也就是说,无论场景中的三维结构有多么丰富,对机器来说都是一个平面,一个二维世界。
3D视觉技术,就是赋予机器感知三维世界的信息和能力,并给我们带来颠覆性的价值。试想一下,将汽车立体模型通过增强现实(AR)技术投射出来,客户可360度观看,还能“开车门”,由此直观地提出意见,而不是一张张翻看照片;或者派无人机探索森林或洞穴,一边前行一边绘制周边场景的三维地形,而不是我们拿着一张平面地图亲自探险……
事实上,3D视觉技术目前已经在工业界取得成功,但在消费领域,受限于3D感知硬件的成本和体积、计算能力等困扰,很多场景并未激活。除了扫地机器人等个别终端外,我们的智能手机等移动设备,还处在二维世界里。但近几年,3D视觉技术终于开始走向个人终端,机器认知世界的新大门正在打开。
3D感知硬件小型化,ToF渐成主流
实现3D视觉能力,3D感知硬件的加持至关重要。目前主流的3D感知硬件技术包括双目视觉、结构光、ToF(飞行时间)以及激光雷达。
双目视觉系统是通过双摄像头同时进行成像,然后通过对比两个图像中每个像素点的相对位置差,来计算出该像素点在三维环境中的位置,类似于人双眼的工作原理。
结构光和ToF则能在RGB的基础上直接提供深度信息,属于RGB-D方案,在精度上比双目视觉更胜一筹。其中,结构光是通过投射大量光斑到物体上,然后根据光斑的形变量来判断其所处深度;ToF则是向物体发射连续的光脉冲信号,并接收返回的信号,通过计算信号发射和返回的时间来计算深度信息。相比之下,结构光在较短距离内拥有更高精度,而ToF支持的工作距离更长,适用于更加多元化的场景,且传感器模块少,体积小。
激光雷达的原理与ToF类似,但其感知距离更远,范围更大,精度也更高。很多自动驾驶汽车通过激光雷达来感知周围环境,不过缺点是成本过于高昂,只适用于特定场景。
在最近的三年,我们观察到的一个显著趋势是ToF和结构光的小型化,使得它成功地应用到了手机当中。而ToF以其体积更小、适用场景更广等优势,逐渐受到更多厂商青睐,很多最新的旗舰手机都将ToF作为一大卖点。据统计,2019年有约5000万台配备ToF的手机出货,业内预计2020年、2021年将分别达到1.5亿和5亿台,逐渐呈现出爆发态势,2020年全球智能手机3D感知硬件市场的规模也将到达99.25亿美元。
ToF在智能手机上的加速应用,有助于3D视觉技术的广泛普及化,成为接下来10年中非常重要的科技趋势。深入地触达消费市场,也激活了更多的应用创新可能。
AI技术,突破3D视觉技术的难点
3D感知硬件能够提供距离、深度等数据信息,但我们要的并不是单纯的数据,而是基于这些数据,通过不同的表达和理解方式,实现不同的应用。比如对三维场景进行数字化建模,或者绘制三维地图,从而让机器能够实时感知自己在所处空间中的位置,以便在运动时及时避开障碍物等。这需要根据深度信息生成深度图像,并与RGB图像,甚至是红外图像进行融合并完成大量计算。
但是,通过硬件感知的信息生成的深度图像,往往存在因硬件性能限制而产生的瑕疵,例如在细小或复杂交错的物体之间,出现深度信息估计错误等问题。此外,精准度、鲁棒性、实时性、效率等都是决定实际应用效果的关键。这都需要依靠额外的算法进行实时处理予以弥补和增强。
在工业场景中,由于应用相对单一,且3D感知硬件大多处于固定或平稳状态,很多难题可以通过编写特定算法加以解决。但在移动终端上,不规则的抖动、晃动等情况带来的难以预估的挑战,传统算法难以突破。
2012年,AI在计算机视觉领域取得突破,给3D视觉技术发展也带来了全新思路。AI可通过对大量实际数据进行学习,自行总结其中的规律和特征。这种方法可以在短时间内,完成传统算法需要多年才能突破的问题,有效弥补硬件能力的不足。
更为重要的是,AI不仅能感知场景中的三维结构,还能识别出场景中的三维物体是什么,在做什么。例如检测人、物体,识别人的姿态,跟踪物体的运行轨迹……这就进一步敞开了机器认知世界的新大门。
在我们看来,3D硬件的小型化,是3D视觉技术应用场景拓展和创新的硬件基础,而AI技术则是真正的动力引擎。两者密不可分,可以说,AI+3D视觉技术拐点已至。
AI+3D,紧密协作实现完美空间感知
目前,商汤科技已经将AI技术广泛地应用于3D感知的各个领域,开发了基于ToF等3D感知硬件的技术与产品,包括人脸与人体3D重建、物体重建、3D全身关键点跟踪、3D Avatar驱动工具、AR测量、AR场景互动、AR导航、3D人脸认证、3D摄影等等,均体现了AI+3D的显著优势。
首先,AI+3D可以进一步优化感知效果,提升用户体验。以动作捕捉为例,结合对深度信息的高效处理,能够整体提升肢体关键点的稳定性、准确性以及运动的稳定性和自然度,精准呈现人在三维空间中的动作姿态变化;
第二,AI+3D可以更加高效地应用和处理深度信息,理解环境中人物间的相互关系。例如为AR带来逼真的虚实融合和互动效果,在智能手机上完成高精度3D模型建模,或是为自动驾驶提供车外的人、车、物的识别和距离感知。
第三,AI+3D可以更加精准地分割图像中的主体和背景。特别是在主体和背景颜色比较相近的情况下,得益于对深度信息的快速处理,在分割效果上比2D感知技术有很大的提升,可提供不同人物之间的语义信息,亦可结合3D相机系统带来更逼近单反的摄影效果;
第四,深度信息与红外图像的结合,可以让3D感知适用于更多的场景,使之不受环境光线明暗的影响。
在提供算法的同时,商汤科技也与产业上下游合作伙伴紧密合作,提供软硬一体解决方案,推动AI+3D的发展和生态构建,推动应用场景的革新。
基于上述优势,我们认为,AI+3D会从人机交互、互动娱乐、内容创作、身份验证、拍照、电商等层面激发大量的创新应用场景,甚至改变很多传统行业的运作模式。
AI+3D,激活更多创新的应用场景
随着越来越多的智能手机配备3D感知硬件,AI算法的作用也越加凸显,只有两者的紧密协作,才能够将完美的影像体验带给最终用户,缺一不可。为此,商汤科技一直积极与合作伙伴携手共进,将AI+3D相关产品和技术充分应用于手机等智能终端当中。
比如,通过AI+3D进行“物品重建”。商汤科技的通用3D重建技术,让用户只需拿手机沿着物体360度环绕扫描,就能将其扫描成数字模型,并用于3D打印、3D/AR相册预览、短视频直播内容生成,或植入到游戏、电商商品展示等场景。特别是后者,它可让顾客通过翻转方式查看物品外观,告别翻看照片的麻烦。
除物品重建,还可以“人脸重建”。2018年,商汤科技助力合作伙伴推出了市面上第一款具备3D人脸重建功能的手机。用户不仅可以体验比2D美颜更加精美的3D美颜功能,还可足不出户轻松地进行虚拟试妆,甚至通过“3D微整形”来模拟整形效果。
AI+3D让手机就能成为体感设备。玩家可低成本地畅玩体感游戏,而内容创作者则借助商汤的Avatar技术打造自己的虚拟形象,例如虚拟主播、虚拟讲解员或者虚拟教师,通过表情、动作进行驱动,这会为互动娱乐、文旅乃至教育打造新的发展模式。
AI+3D也将在很大程度上推动移动AR朝向3D AR方向发展。基于RGBD SLAM可重建真实环境的3D结构,准确将虚拟元素植入到真实环境中,呈现真实的遮挡、碰撞、反弹等效果。
商汤还与浙江大学共建了“浙江大学-商汤三维视觉联合实验室”,在SLAM和三维重建等领域的前沿研究展开深入合作,并推出了高精定位与内容增强解决方案,实现高精度的AR导航等功能。
有了3D AR,手机还能摇身一变成为更强大的AR测量尺,实现远超基于2D方案的测量精度,场景覆盖率到初始化耗时,还可以自动检测并测量立体几何物体。
AI+3D也将让3D人脸识别成为更便捷、更安全的解锁或支付方式。商汤科技不仅在2018年助力合作伙伴推出了市面上首款基于结构光的3D人脸识别安卓手机,还于同年底推出了基于ToF的3D人脸识别方案。此外还推出了3D人脸识别智能门锁解决方案,推动智能门锁行业的创新。
媲美单反的大景深效果一直是手机人像拍照所追求的方向,3D视觉技术可以让人物等主体与背景的过渡效果更加自然、更加精准。而在电商行业,AI+3D可以让AR试妆、AR试衣、AR家居更加逼真,满足多角度充分预览,促成购买行为。
放眼汽车行业,AI+3D技术能够实现更加精准的车外人、车、物识别和距离感知,有力推动自动驾驶的发展。商汤科技也正以“摄像头为主、多传感器融合”的解决方案,研发L4级自动驾驶解决方案。而在泛工业领域,AI+3D可以为机械臂赋予3D感知能力,准确判断物体所处的位置、尺寸、形状等,从而进行精准的抓取,或是进行自动化的品质检测。
《Prediction Machines》一书中曾提到:“当某种基础产品价格大幅下降的时候,才是整个世界发生变化的基础”。3D视觉技术呈现出的也是这样一个趋势。放眼未来,3D视觉技术还有更多创新空间。首先硬件成本的下降使其更加普及,支持的工作距离更远,而AI技术随着表达能力将不断增强,算法模型的小型化等趋势,可让深度信息处理更高效,3D效果更逼真、更稳定,性能更快,同时硬件资源占用率更低。一方面不断优化现有应用的体验,另一方面进一步开拓更多应用可能。
新的10年, AI+3D将成为变革行业发展的全新引擎。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。