11月11日,火山引擎正式发布豆包编程模型(Doubao-Seed-Code)。该模型专为 Agentic 编程任务深度优化,在多项权威基准测试中达到国内领先水平。同时,豆包编程模型采用分层定价模式与全量透明 Cache 能力,综合使用成本比行业平均水平降低 62.7%。
以创建一个交互式英语学习网站为例,相同tokens使用量下(0-32k输入区间),Claude Sonnet 4.5的使用成本约4.05元,GLM-4.6约为0.77元,而豆包编程模型的使用成本仅需0.34元。
据火山引擎官方介绍,豆包编程模型是国内首个支持视觉理解能力的编程模型,可参照UI设计稿、截图或手绘草图生成代码,或对生成页面进行视觉比对,自主完成样式修复和BUG修复,大幅提升前端开发效率。同时,该模型支持256K长上下文,可以轻松处理长代码文件、多模块依赖等复杂场景,更好地支持端到端自主编程。
豆包编程模型通过大规模Agent强化学习训练,在真实编程场景中效果出色,且展现出良好的泛化能力。与TRAE开发环境深度结合后,豆包编程模型在SWE-Bench Verified榜单中以78.8%的得分达到业界最佳水平,充分验证了模型与工具深度适配后的协同效应。

图:豆包编程模型在多项权威基准测试中达到国内领先水平
目前,豆包编程模型已通过火山方舟平台开放 API,并已接入TRAE 中国版。正值双十一购物季,火山引擎为个人开发者量身打造了“Coding Plan”优惠套餐,首月最低9.9元。该套餐支持 Claude Code,以及veCLI、Cursor、Cline、Codex CLI等主流工具环境,更借助火山方舟超大资源池,为开发者提供稳定畅快的编程体验,加速推动大模型普惠和AI应用创新。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。