至顶网软件频道消息:企业已经开始认真试验如何在工作环境中应用虚拟现实,以简化产品设计等任务。现在,IBM正在寻求利用这一趋势。
IBM今天宣布与Unity Technologies Inc.建立合作伙伴关系,Unity Technologies Inc.是一家热门游戏引擎制造商,被称为业界应用最广泛的虚拟应用平台。该软件还适用于打造增强现实服务。IBM已经与Unity合作为该平台构建了一个开发工具包,让企业可以在他们的项目中使用基于云的Watson人工智能套件。
该产品带来了几项主要功能,第一个也可以说是功能最多的是,能够使用Watson Visual Recognition分析虚拟环境中的对象。
由IBM赞助的黑客马拉松期间创建的项目,可利用该服务让用户使用控制器绘制对象,然后将草图自动转换为3-D模型。例如,一个在建筑项目上合作的建筑师团队,可以使用这种功能来简化头脑风暴会。Watson Visual Recognition还可以标记关于对象的重要细节,执行面部识别和其他类似的任务。
这个图像分析功能还加入了处理语音的功能。据IBM介绍,企业客户可以利用Watson套件的语音识别和分类服务,让用户通过语音命令与VR环境进行交互,甚至有可能在必要时执行自动翻译。
IBM的加入有助于提升新兴企业对VR和AR潜在商业应用的兴趣,特别是在Unity平台上。但在短期内,IBM最大的收入机会可能是视频游戏开发者,这在Unity用户群体占到了绝大多数。
电子游戏产业是一个庞大的市场,去年仅在美国就创造了360亿美元的价值。此举也引起了IBM竞争对手的注意。例如,AWS提供了专门面向游戏开发者的多种云工具,还在去年底强化了产品线,发布名为Sumerian的服务用于设计VR环境。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。