如果你不是年轻一代,或者不熟悉最新的互联网流行语和梗,你可能会认为这是一个拼写错误。但是,使用所谓的 smolagents 来模块化人工智能工作流程实际上源于 DoggoLingo——这种新方言被创造出来,为可爱的小狗们赋予了声音。
如果你对 DoggoLingo 有所了解,你可能熟悉类似"I am smol, do me a protec"或"Am smol potat"这样的句子。
如果是这样,那么这种新的自动化代码设计过程的名称对你来说就会更加熟悉了。
让我们来谈谈这些 smolagents 是什么,以及它们能做什么。
AI 影响力的评估标准
首先,你要了解 AI 代理的一般概念。代理是一个主动而非被动行动的 AI 实体。有一种观点认为,通过 AI 代理,我们将把权力交给我们的大语言模型兄弟。
但 Hugging Face 对 smolagents 的调查也给出了一个清晰的代理"等级表",向你展示了它是如何运作的。
共有五个代理等级,它们对大语言模型工作流的影响程度逐步升高。
在第一级,大语言模型输出对程序流程没有影响。
在第二级,大语言模型输出可以决定控制流程的基本元素。
在第三级,大语言模型输出可以决定函数结果。
在第四级,大语言模型可以"控制迭代和程序继续运行"。
第五级是最重要的一级,一个代理工作流可以触发另一个代理工作流,换句话说,两个代理可以协同工作。
这就是你开始设想那些由许多资深专家预测的情景:最终,我们将拥有完全由 AI 代理而非人类组成的公司和组织。那么,大问题就是:一个由人类工人和领导者组成的公司能否与一个完全非人类的公司有效竞争?AI 能否比人类更好地销售小商品、提供 IT 咨询或制造汽车?
为了探讨这个问题,smolagents 的支持者建议我们使用它们来实现简单性,并展示组件如何协同工作。
作者还这样描述了 smolagent 模型的互操作性:
"它支持在 Hub 上托管的模型,可以通过其 transformers 版本或我们的推理 API 加载,但也通过我们的 LiteLLM 集成支持来自 OpenAI、Anthropic 和许多其他公司的模型。"
你可以看到一些例子,比如基于距离迭代计算的旅行规划器。所有这些都体现了将这些想法付诸实践。
Smolagents 和代码民主化
可以推测,最终结果是人们将能够更好地理解代码。
在某些方面,这种努力已经持续一段时间了。去年初,Hackernoon 的作者 Gilad David Maayan 这样描述"代码解释器":
"代码解释器是旨在使代码更易理解的工具,"Maayan 写道。"它们通过将复杂的代码行分解成更简单、易懂的片段来工作。它们可以突出显示每个代码块背后的逻辑,并描述整个程序中数据的流动。解释代码的能力对于软件开发团队理解代码功能、进行调试和有效协作至关重要。自动化代码解释器更进一步。自动化代码解释器是使用各种技术(包括 AI 和机器学习)自动解释和说明代码的高级工具。它们不仅解释代码,还提出改进建议并检测潜在错误。这种自动化可以改变并扩大代码审查过程。"
无论如何,使用 smolagents,我们可以获得类似的透明度。观察者将看到所有这些小代理协同工作,他们将能够可视化正在发生的事情的流程图。
更有帮助的是,他们还将通过流行文化参考和与普通互联网用户已经熟悉的术语来接触这些技术。如果你说类似"I can haz codeprocess?"这样的话,或者在你的自动化文件上放一只微笑的柴犬,你就是在将这种晦涩的创新带给大众。
这绝对不是一件小事。
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。