12月1日,豆包手机开启小批量发售,出乎意料的是,市场热度远超预期。
尽管尚未打通各类App的API,但豆包手机助手确实可以说完成了一次突破,通过AI模拟用户的点击、滑动等真实操作,直接理解屏幕内容并跨应用执行指令,在一定程度上打破了APP间的“信息孤岛”。
17天后,在FORCE原动力大会上,火山引擎发布了豆包大模型1.8版本,而且还有配备了Agent的各种能力。还有一个消息是万亿Token俱乐部成员突破100家,这一数字已超过某头部云服务商。
在火山引擎总裁谭待看来,模型之间最重要的并不是竞争,而是如何把市场做大。他谈到,火山引擎最早提出模型的重要性,最早推动模型降价,通过技术大幅降低成本,同时还能保持毛利。当时很多人不信,现在更多厂商也在跟进降价策略。
唯有共同做大市场,AI在行业的落地速度就会越快,带来的价值与贡献也将持续放大。
火山引擎总裁谭待
日均50万亿 Token、超百家企业客户:企业级AI正在快速规模化
谭待在现场首先展示了一组数据:截至今年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍,自发布以来增长了417倍。目前已有超过100家企业客户累计token使用量超过一万亿。
豆包大模型 1.8 拥有更强的Agent能力,提升了多模态理解,支持更灵活的上下文管理。
在设计之初便围绕多模态Agent场景进行定向优化,在智能体相关能力上实现系统性增强,比如多轮交互能力、复杂指令遵循能力以及OS Agent的实际操作能力均有显著提升。
在多模态理解层面,豆包大模型1.8对视觉能力进行了底层升级,不仅能够以低帧率理解超长视频,还在视频语义解析、复杂空间关系理解以及文档结构化处理等方面取得明显进步。
而且豆包大模型1.8原生支持智能上下文管理机制,用户可通过策略配置,在模型执行超长、多步骤任务时自动清理历史信息,确保任务持续、稳定完成。
今年春季FORCE原动力大会,火山引擎首次发布视频模型Seedance 1.0。到冬季,Seedance升级至1.5 Pro版本。其采用创新的原生音视频联合生成架构,支持环境音、背景音乐、人声等多种元素,实现了毫秒级的音画同步输出。
Seedance 1.5 pro还支持多人跨语对话,可基于画面中说话角色的数量与景深信息,实现精准的口型匹配,从而有效解决“张口不发声”或口型错位等常见问题。
可以看到,市面上不少模型虽然实现了音画同步,但在口型匹配与语义一致性上仍存在明显不足。Seedance 1.5 Pro 在这两项关键能力上实现了显著提升,并原生支持多语言及多种中文方言,包括四川话、粤语、上海话等,进一步拓展了视频内容创作的实用边界。
在模型定价上,火山引擎推出业内首个“AI节省计划”,覆盖火山引擎上所有按量后付的大模型产品,包括豆包大模型家族及各类第三方开源模型,最高可节省47%的使用成本。
企业有了Agent的实践路径,稳定、可控、可规模化
随着大模型智能水平的不断提升,Agent正逐渐进入企业的核心业务,预见未来两三年内,Agent将带来巨大的生产力革命。
但是企业面临的更加直观的问题是,Agent构建好后,如何创造大规模业务价值。为此,火山引擎推出推理代工服务,支持极致弹性伸缩、全栈推理优化以及分布式缓存。就像一台已调校完成的顶级赛车,用户只需将模型“插入发动机”,即可开启运行。
今年7月,亚马逊云科技发布了Amazon Bedrock AgentCore,将AI竞争推向全新高度。Agent也成为兵家必争之地。
身份与权限管理、Agent黑盒、存量系统智能化、原型到生产都是企业构建Agent会出现的问题。围绕Agent开发、部署、运维、调优、管控,火山引擎今天也发布了自己的技术体系,AI Agent平台 AgentKit+HiAgent。
AgentKit构建了一套让Agent真正走向生产规模化落地的基础设施底座,具备了身份认证、运行时、云沙箱、网关、记忆库、可观测、评测、安全围栏。
回顾传统Agent开发,开发者需要手动调用模型、解析结果,并处理各种状态与异常。前端逻辑通常需要七八百行代码,后端接口及云资源调用也需相同量级,总计至少1500至2000行,而且出错风险较高。
AgentKit能够将这些复杂控制逻辑通过SDK或服务开箱即用。只需少量集成,前端Agent 仅需约50行代码,后端十几行就可完成简单串联,整套实现控制在61行以内,相比传统方式代码量减少约96%。更重要的是,依托预置云端服务,Agent 的开发与运行稳定性大幅提升,使团队能够更快构建、迭代,将Agent推向生产环境。
2024年火山引擎就发布了为企业提供更全面的AI应用开发与运营解决方案HiAgent。期间也在不断迭代,今年HiAgent推出了“1+N+X”体系,即一个统一AI任务调度入口、N个企业通用智能体、X个业务定制智能体应用,帮助企业加速Agent规模化落地。
火山引擎正在让AI从技术潜力,真正转化为行业生产力。
好文章,需要你的鼓励
还在为渲染一个3D模型等上几小时吗?还在纠结移动办公就得牺牲性能吗?当AI遇上专业工作站,传统设计流程的游戏规则正在被改写。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。
据报道,OpenAI正与亚马逊洽谈至少100亿美元的融资。亚马逊此前已是Anthropic的最大投资者,并为其建设了110亿美元的数据中心园区。若融资达成,OpenAI将采用AWS的Trainium系列AI芯片。Trainium3采用三纳米工艺,配备八核心和32MB SRAM内存。AWS可将数千台服务器连接成拥有百万芯片的集群。报道未透露具体估值,但OpenAI最近一次二次出售估值已达5000亿美元。
这项由伊利诺伊大学香槟分校等四所院校联合完成的研究,提出了名为DaSH的层次化数据选择方法。该方法突破了传统数据选择只关注单个样本的局限,通过建模数据的天然层次结构,实现了更智能高效的数据集选择。在两个公开基准测试中,DaSH相比现有方法提升了高达26.2%的准确率,同时大幅减少了所需的探索步数。