基于AI的智能体当下可谓风头正劲。最近几个月来,这个话题也已渗透到不少技术供应商的宣传和营销当中,包括Salesforce、Microsoft、ServiceNow、SAP、亚马逊云科技以及谷歌。从多方面来讲,人们对AI智能体的关注有其道理:智能体代表着生成式AI的下一个发展阶段,有望进一步提高AI的自主性水平。智能体不仅可以像聊天机器人那样回答问题,还能接受人类甚至是其他智能体委托给它们的任务。而且与AI领域的其他成果一样,智能体同样保持着迅猛的发展速度。
短短两个月前,关于智能体的新闻和产品公告还主要集中在应用程序内等传统场景之下。这类智能体的作用是在平台环境下实现个体的生产力与任务自动化。例如,可以设计一个定期扫描多份文档、总结其中信息并向最终用户推荐相应操作的个人生产力代理。以Salesforce为例,这可能意味着其产品会每季度扫描潜在客户渠道,观察是否存在新的数字营销机会并提供策略建议。这些个人生产力智能体将为希望快速完成更多工作的最终用户带来巨大助益。
虽然个人生产力智能体作用不小,但影响力或者说想象空间却相当有限。首先需要承认,这些部署在应用平台内的个人生产力智能体其实很强,能够提升现有技术投资来展示智能体的整体潜力,而且会随着时间推移而加深用户与平台之间的联系。然而,真正的业务影响力应当让企业看到明确的投资回报并为此加大资源投入,而不只是带来种种“锦上添花”的效果。遗憾的是,我认为个人生产力智能体无法达到这样的地位,具体原因有三。
同样的,个人生产力智能体虽也具有实用性,但生成式AI的生态系统仍需要提供更可量化的商业价值来证明战略投资的合理性。最近一段时间,已经出现了相关的积极势头。UiPath就通过开发企业智能体来匹配其机器人流程自动化解决方案,从而实现更为高效的业务流程。通过采用不同的治理和智能体开发方法,UiPath在构建跨企业智能体应用方面获得了更大的施展空间。
再来看其他案例。IBM等咨询公司也在重新调整其交付企业系统集成项目的方式,运用自己的企业内智能体开发体系来缩短交付周期并提高项目质量。在研究这些公司及其他致力于企业AI智能体厂商时,我们发现尽管具体技术形式不同,但其实施仍然依赖于过去40年发展而成的完善IT实践。其中的核心原则包括:
再闪重申,我并不是要贬低当前这波个人生产力智能体。它们确实效果不错,而且老实说,它们也是让决策者们适应和了解AI的合理形式。然而,当领导团队决定押注新技术时,我认为门槛还应该再高一些。
好消息是,如今越来越多的云服务商、企业和初创技术供应商都在为此积极努力,此类新型AI智能体也在各种实践场景下得到应用和发挥。总之,面对大好的形势,请各位戒骄戒躁、保持谨慎,毕竟以往因盲目冒进而折戟沉沙的企业级技术已然难计其数。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。