如果你不是年轻一代,或者不熟悉最新的互联网流行语和梗,你可能会认为这是一个拼写错误。但是,使用所谓的 smolagents 来模块化人工智能工作流程实际上源于 DoggoLingo——这种新方言被创造出来,为可爱的小狗们赋予了声音。
如果你对 DoggoLingo 有所了解,你可能熟悉类似"I am smol, do me a protec"或"Am smol potat"这样的句子。
如果是这样,那么这种新的自动化代码设计过程的名称对你来说就会更加熟悉了。
让我们来谈谈这些 smolagents 是什么,以及它们能做什么。
AI 影响力的评估标准
首先,你要了解 AI 代理的一般概念。代理是一个主动而非被动行动的 AI 实体。有一种观点认为,通过 AI 代理,我们将把权力交给我们的大语言模型兄弟。
但 Hugging Face 对 smolagents 的调查也给出了一个清晰的代理"等级表",向你展示了它是如何运作的。
共有五个代理等级,它们对大语言模型工作流的影响程度逐步升高。
在第一级,大语言模型输出对程序流程没有影响。
在第二级,大语言模型输出可以决定控制流程的基本元素。
在第三级,大语言模型输出可以决定函数结果。
在第四级,大语言模型可以"控制迭代和程序继续运行"。
第五级是最重要的一级,一个代理工作流可以触发另一个代理工作流,换句话说,两个代理可以协同工作。
这就是你开始设想那些由许多资深专家预测的情景:最终,我们将拥有完全由 AI 代理而非人类组成的公司和组织。那么,大问题就是:一个由人类工人和领导者组成的公司能否与一个完全非人类的公司有效竞争?AI 能否比人类更好地销售小商品、提供 IT 咨询或制造汽车?
为了探讨这个问题,smolagents 的支持者建议我们使用它们来实现简单性,并展示组件如何协同工作。
作者还这样描述了 smolagent 模型的互操作性:
"它支持在 Hub 上托管的模型,可以通过其 transformers 版本或我们的推理 API 加载,但也通过我们的 LiteLLM 集成支持来自 OpenAI、Anthropic 和许多其他公司的模型。"
你可以看到一些例子,比如基于距离迭代计算的旅行规划器。所有这些都体现了将这些想法付诸实践。
Smolagents 和代码民主化
可以推测,最终结果是人们将能够更好地理解代码。
在某些方面,这种努力已经持续一段时间了。去年初,Hackernoon 的作者 Gilad David Maayan 这样描述"代码解释器":
"代码解释器是旨在使代码更易理解的工具,"Maayan 写道。"它们通过将复杂的代码行分解成更简单、易懂的片段来工作。它们可以突出显示每个代码块背后的逻辑,并描述整个程序中数据的流动。解释代码的能力对于软件开发团队理解代码功能、进行调试和有效协作至关重要。自动化代码解释器更进一步。自动化代码解释器是使用各种技术(包括 AI 和机器学习)自动解释和说明代码的高级工具。它们不仅解释代码,还提出改进建议并检测潜在错误。这种自动化可以改变并扩大代码审查过程。"
无论如何,使用 smolagents,我们可以获得类似的透明度。观察者将看到所有这些小代理协同工作,他们将能够可视化正在发生的事情的流程图。
更有帮助的是,他们还将通过流行文化参考和与普通互联网用户已经熟悉的术语来接触这些技术。如果你说类似"I can haz codeprocess?"这样的话,或者在你的自动化文件上放一只微笑的柴犬,你就是在将这种晦涩的创新带给大众。
这绝对不是一件小事。
好文章,需要你的鼓励
Songscription公司发布AI音乐转录工具,可在几分钟内将音频文件转换为乐谱。该产品采用免费增值模式,面向专业和业余音乐家。目前主要支持钢琴转录,未来计划增加吉他谱等功能。用户可上传音频文件或直接从YouTube链接进行转录,系统还能生成钢琴卷帘谱。公司定位为增强型音乐记谱软件,帮助用户加速转录过程。该初创公司已获得Reach Capital的预种子轮融资。
沙特TachyHealth团队开发的32亿参数医疗AI模型Gazal-R1,通过创新的双阶段训练方法在医疗推理任务上超越了12倍大的模型,在MedQA等测试中取得87.1%的优异成绩,展现了精巧训练策略胜过规模扩张的重要启示,为资源有限的医疗AI研究提供了新路径。
甲骨文宣布签约一位神秘大客户,预计从2028财年开始每年将贡献超过300亿美元收入,这将使其云业务规模翻倍以上。CEO萨弗拉·卡茨透露,公司多云数据库收入持续以超过100%的速度增长。甲骨文2025财年总收入574亿美元,其中云收入244亿美元。公司采用独特的云策略,在竞争对手的数据中心部署自己的基础设施,主要运行甲骨文数据库以提供低延迟访问。
奥地利维也纳医科大学研究团队开发了RetFiner技术,通过让眼科AI模型同时学习OCT图像和医疗文字描述,显著提升了诊断准确率。该方法采用四种训练任务让AI模型建立图像与文字的深层联系,在三个主流眼科AI模型上实现了2-6个百分点的性能提升,为医学AI发展开辟了新方向。