ZD至顶网软件频道消息: IBM公司正在利用Watson的识别能力观看高尔夫大师赛视频,旨在从中找到最精彩的赛事片段。
二十年以来,IBM公司一直在高尔夫大师赛当中担当数字观察员一职。近年来,蓝色巨人不断通过技术贡献将这一赛事由网站转播升级为应用程序及其它数字化体验,而如今Watson也开始加入到这一项目中来。
作为在体育赛事领域的首次应用,IBM公司计划利用Watson的观察、聆听与学习能力通过人群声音、选手动作以及其它指标发现高尔夫大师赛中的那些精彩镜头,从而更加高效地完成赛事视频整理工作。
“今年,他们努力把大师赛的数字化项目提升至新的水平,因此我们开始考虑如何提供沉浸式视频体验,并让整个观看空间更令人印象深刻,”IBM公司全球体育与娱乐合作部门项目经理John Kent指出。“而这正是Watson发挥作用的好机会。”
这一最新功能背后的技术正是IBM公司刚刚发布的Cognitive Highlights应用,其利用Watson以自动化方式对实况视频流进行排序,并确定其中值得重播的关键性时刻。这套系统还能够收集诸如选手姓名以及当前洞号等信息,并将这些元数据与精彩镜头进行关联。
根据IBM公司的介绍,Cognitive Highlights应用已经成为一项功能基础,蓝色巨人能够借此构建起一套认知引擎,用于帮助内容生产者、媒体以及观众实现个性化体验。IBM公司亦可利用其帮助各类企业解决机器视觉与听觉解决方案当中出现的各类难题。
举例来说,在媒体与娱乐领域,这套系统能够帮助视频生产者以规模化方式进行制作,并由Watson担任顾问以提供基准性精彩内容片段。Kent同时解释称,这套系统类似于IBM公司于去年为科幻/惊悚电影《摩根》制作预告片时使用的Watson处理方案。
第一套WatsonHighlights仪表板将于本届高尔夫大师赛期间通过网站供观众查阅,不过IBM公司指出这些亮点镜头尚不会被列入今年的电视直播节目。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。