牛津大学研究发现,尽管大语言模型在医学考试中表现出色,但在实际应用中效果大打折扣。研究显示,LLM直接测试时能94.9%准确识别病症,但人类使用LLM诊断时准确率仅34.5%,甚至低于不使用AI的对照组。问题源于用户提供信息不完整、LLM理解偏差等人机交互问题。专家指出,仅凭非交互式基准测试评估LLM存在误导性,需要真实的人机交互测试才能准确评估AI系统的实际性能。
随着企业开始扩展AI服务并将其投入生产,构建可管理、可追踪、可审计的强健管道至关重要。专家指出,AI编排框架必须包含可审计性和可追溯性功能,让管理员能够追踪系统运行情况。企业需要在早期阶段就将稳健性和审计追踪内置到AI系统中,选择透明度高的开源平台如MLFlow、LangChain等,建立数据集版本控制,并确保系统符合合规要求。缺乏这些控制措施,组织可能无法察觉AI系统中发生的问题。
谷歌DeepMind推出实验性研究模型Gemini Diffusion,采用扩散方法生成文本,打破传统大语言模型依赖自回归逐词生成的模式。该技术从随机噪声开始,逐步细化为连贯输出,显著提升生成速度至每秒1000-2000个令牌,是Gemini 2.5 Flash的3-7倍。扩散模型支持并行处理、自我纠错和非因果推理,在编程和数学任务中表现出色。虽然在多语言和推理能力上仍有差距,但该技术为实时对话AI、代码辅助等低延迟应用带来巨大潜力,标志着语言模型架构的重要变革。
多模态AI使系统能够处理文本、图像、音频和视频等多种格式信息,更接近人类感知方式。它能统一孤立的数据源,在医疗、物流、零售等领域实现更精准诊断和个性化体验。然而,多模态AI面临数据整合复杂性、偏见放大、安全隐私等挑战。不同数据类型结合可能产生不可预测的偏见效应,同时对数据安全和隐私保护提出更高要求。企业需要在技术能力与责任治理之间找到平衡。
AMD宣布已超越其雄心勃勃的30x25能效目标,在AI和高性能计算系统中加速推进绿色倡议。该公司原计划在2020年至2025年期间将能效提升30倍,最终实现了38倍的显著改进,并提前完成目标。面对AI工作负载日益增长的需求,AMD的这一成就不仅展现了公司的技术实力,更体现了其在加速计算领域推动可持续解决方案的坚定承诺,为整个半导体行业树立了新的能效标准。
DeepSeek今年1月发布R1模型引发行业震动,其创新在于以极低成本实现与科技巨头相当的AI性能。面对美国芯片限制,DeepSeek通过优化现有资源、使用合成数据等策略,仅用OpenAI 1.2%的投入就达到更优基准测试结果。这种效率优先的方法迫使OpenAI等公司重新审视发展策略,推动行业向并行创新轨道发展,同时也引发了关于AI自主评估和数据治理的新思考。
前沿AI模型代表着当前最先进的人工智能系统,具备多模态处理、零样本学习和智能体行为等关键特征。以GPT-4o和Gemini 1.5为代表的前沿模型需要大量资源投入,面临成本与质量的平衡挑战。专家指出,基准测试既是推动发展的工具也存在被操控的风险。未来十年,这些模型将演变为无处不在的背景智能体,通过语音、凝视和情感识别与用户交互,彻底改变人机界面体验。
Ubuntu 25.10和Fedora 43的下一个版本将在GNOME变体中仅支持Wayland,这是因为GNOME 49将移除X11会话。此变化只影响GNOME版本,两个发行版仍提供其他桌面环境选项。GNOME项目还计划引入对systemd的更强依赖,这将使GNOME在非Linux系统上运行变得更困难。尽管存在用户阻力,但Red Hat作为主要赞助商推动了这一转变。
SAP 在 Sapphire 2025 大会上展示了企业智能化的新时代,重点发布了 SAP Business Data Cloud 的扩展功能,包括预构建的智能应用程序。大会强调了多云部署、合作伙伴生态系统扩展,以及 AI 驱动的实时业务洞察如何成为企业竞争优势的关键因素。
文章论述了开源 AI 推动网络安全变革的方法,探讨了通过治理、自动化、目的型工具贡献、总拥有成本管理及风险防控五大战略,实现安全合规与持续增长。
WordPress.com母公司Automattic继收购通讯应用Beeper和Texts.com后,又收购了关系管理应用Clay。Clay是一款智能通讯录应用,能从LinkedIn、Facebook等平台整合联系人信息,并配备AI助手Nexus。该应用于2021年推出,此前融资超900万美元。收购完成后,Clay将继续运营并与Automattic其他产品集成,长期计划是成为各种工具的身份层。
Warp成立于2021年,致力于通过技术赋能的物流网络优化企业供应链。该公司现计划使用机器人自动化其仓储网络,进一步提升供应链效率。公司在洛杉矶测试仓库安装摄像头,利用计算机视觉技术创建数字孪生环境进行实验。经过测试,Warp成功部署改装后的现成机器人处理货物装卸和存储。公司刚完成1000万美元A轮融资,计划今年开始在核心网络城市部署机器人技术。
Meta本周发布了名为V-JEPA 2的开源生成式AI模型,该模型能够帮助人工智能理解重力和物体永恒性等物理概念。与依赖标记数据或视频模拟现实的传统模型不同,V-JEPA 2强调物理世界的逻辑,包括物体如何移动和相互作用。该模型可应用于自动驾驶汽车和机器人等设备,无需针对每种可能情况进行训练,简化了流程并提高了现实应用的效率。
文章探讨了人类与人工智能协作的复杂关系。研究显示,面对"如何与AI竞争"这一问题,66%的受访者认为应该利用AI进行协作,而非对抗。以学生群体为例,调查发现一半青少年使用生成式AI进行搜索和头脑风暴,虽存在作弊现象,但更多体现了积极的学习应用。专家建议保持好奇心,采用"宏大梦想,小步迭代"的策略,通过深入理解技术来建立最佳协作关系。
随着摩尔定律接近极限和数据中心功耗问题日益突出,AMD制定了到2030年将芯片能效提升20倍的宏伟目标,并将机架级架构视为关键设计方向。AMD高级副总裁表示,设备规模越大效率越高,机架级计算能将整个机架的计算设备集成到单一封装中。AMD计划明年推出首个机架级计算平台MI400,未来五年内光学互连可能取代铜质连接。除硬件创新外,软硬件协同设计将是实现目标的关键因素。
Multiverse Computing宣布完成2.15亿美元B轮融资,用于加速部署其量子计算启发的AI模型压缩技术。该技术可将大语言模型体积缩小95%而不影响性能表现,大幅降低AI推理成本。公司的CompatifAI技术采用量子启发算法和先进张量网络,能识别并剔除AI模型中的冗余部分。压缩后的模型运行速度提升4-12倍,推理成本降低50%-80%,可在云端、本地数据中心甚至边缘设备上运行。
Databricks联合创始人兼CEO Ali Ghodsi在Data+AI Summit上宣布了多个新产品,如Agent Bricks和Lakebase,旨在简化企业AI应用开发、降低高成本及解决数据平台锁定问题。
苹果研究表明,模拟推理模型在高难度问题上多依赖模式匹配而非真正推理,这与 USAMO 最新发现不谋而合。
本文论述了AI代理协作的发展趋势。类似于早期REST和JSON推动API革命,A2A和MCP两项协议简化了不同代理间任务共享与信息交换,为企业级智能应用提供了坚实基础。
OpenAI将旗舰推理大语言模型o3输入和输出token的费用分别下调80%,助力开发者降低成本,并在竞争中抢占优势。