微软今天宣布开源Trill——一个每秒分析数十亿事件的数据处理引擎。
该项目用于微软Azure云平台中,是微软开源的众多内部技术之一。微软开源的技术组合包括多个人工智能工具,包括一个同样用于Azure中的Infer.NET系统,以及流行的.NET开发工具包。
Trill是一个特别重要的补充,该引擎具有足够的通用性,可以处理实时数据和历史数据,目前只有少数开源工具可以做到。Trill将支持多模态分析与微软称无法完全与其他系统匹配的功能结合到一起。
Trill最突出的是它的性能。Trill可以接收事件(例如来自土壤传感器的温度变化日志),速度达到每秒数十亿个。在执行高级操作(例如从一批传感器日志中提取最高温度读数)时,它的速度略慢一些但仍然令人印象深刻,每秒达到1000万到1亿个事件。
微软Azure首席研究工程师James Terwilliger在一篇博客文章中这样写道:“Trill在实时数据和离线数据集方面的表现同样出色,在整个范围内实现了最佳性能,这让它成为那些只需要一款工具就能进行所有分析的用户的首选引擎。”
Trill与其他工具与众不同之处在于它的可定制性。Trill引擎可以更改传入数据处理的间隔,让用户能够粒度地管理延迟。此外企业还可以通过定制的分析功能扩展原生查询语言。
微软将Trill用于各种应用,例如支持Azure Stream Analytics服务和Bing Ads业务,并帮助视频游戏开发部门分析玩家数据。
Trill在微软内部的广泛使用,对于潜在企业采用者来说可能是一个重要卖点,这说明Trill引擎具有足够的动力,可以在生产环境中使用。
Azure数据工程经理Zhong Chen在公布该项目的博客文章中表示,企业不一定要自己部署Trill才能利用该功能。
Chen说:“通过使用Trill作为节点上的处理引擎,微软在10月个内就从Azure Stream Analytics的第一行代码走向了公开预览。在不久的将来,我们考虑通过用户定义的运营商模型展示Trill的编程模型,以便让所有客户都能利用Trill出色的功能。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。