如果你不是年轻一代,或者不熟悉最新的互联网流行语和梗,你可能会认为这是一个拼写错误。但是,使用所谓的 smolagents 来模块化人工智能工作流程实际上源于 DoggoLingo——这种新方言被创造出来,为可爱的小狗们赋予了声音。
如果你对 DoggoLingo 有所了解,你可能熟悉类似"I am smol, do me a protec"或"Am smol potat"这样的句子。
如果是这样,那么这种新的自动化代码设计过程的名称对你来说就会更加熟悉了。
让我们来谈谈这些 smolagents 是什么,以及它们能做什么。
AI 影响力的评估标准
首先,你要了解 AI 代理的一般概念。代理是一个主动而非被动行动的 AI 实体。有一种观点认为,通过 AI 代理,我们将把权力交给我们的大语言模型兄弟。
但 Hugging Face 对 smolagents 的调查也给出了一个清晰的代理"等级表",向你展示了它是如何运作的。
共有五个代理等级,它们对大语言模型工作流的影响程度逐步升高。
在第一级,大语言模型输出对程序流程没有影响。
在第二级,大语言模型输出可以决定控制流程的基本元素。
在第三级,大语言模型输出可以决定函数结果。
在第四级,大语言模型可以"控制迭代和程序继续运行"。
第五级是最重要的一级,一个代理工作流可以触发另一个代理工作流,换句话说,两个代理可以协同工作。
这就是你开始设想那些由许多资深专家预测的情景:最终,我们将拥有完全由 AI 代理而非人类组成的公司和组织。那么,大问题就是:一个由人类工人和领导者组成的公司能否与一个完全非人类的公司有效竞争?AI 能否比人类更好地销售小商品、提供 IT 咨询或制造汽车?
为了探讨这个问题,smolagents 的支持者建议我们使用它们来实现简单性,并展示组件如何协同工作。
作者还这样描述了 smolagent 模型的互操作性:
"它支持在 Hub 上托管的模型,可以通过其 transformers 版本或我们的推理 API 加载,但也通过我们的 LiteLLM 集成支持来自 OpenAI、Anthropic 和许多其他公司的模型。"
你可以看到一些例子,比如基于距离迭代计算的旅行规划器。所有这些都体现了将这些想法付诸实践。
Smolagents 和代码民主化
可以推测,最终结果是人们将能够更好地理解代码。
在某些方面,这种努力已经持续一段时间了。去年初,Hackernoon 的作者 Gilad David Maayan 这样描述"代码解释器":
"代码解释器是旨在使代码更易理解的工具,"Maayan 写道。"它们通过将复杂的代码行分解成更简单、易懂的片段来工作。它们可以突出显示每个代码块背后的逻辑,并描述整个程序中数据的流动。解释代码的能力对于软件开发团队理解代码功能、进行调试和有效协作至关重要。自动化代码解释器更进一步。自动化代码解释器是使用各种技术(包括 AI 和机器学习)自动解释和说明代码的高级工具。它们不仅解释代码,还提出改进建议并检测潜在错误。这种自动化可以改变并扩大代码审查过程。"
无论如何,使用 smolagents,我们可以获得类似的透明度。观察者将看到所有这些小代理协同工作,他们将能够可视化正在发生的事情的流程图。
更有帮助的是,他们还将通过流行文化参考和与普通互联网用户已经熟悉的术语来接触这些技术。如果你说类似"I can haz codeprocess?"这样的话,或者在你的自动化文件上放一只微笑的柴犬,你就是在将这种晦涩的创新带给大众。
这绝对不是一件小事。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。