微软今天宣布开源Trill——一个每秒分析数十亿事件的数据处理引擎。
该项目用于微软Azure云平台中,是微软开源的众多内部技术之一。微软开源的技术组合包括多个人工智能工具,包括一个同样用于Azure中的Infer.NET系统,以及流行的.NET开发工具包。
Trill是一个特别重要的补充,该引擎具有足够的通用性,可以处理实时数据和历史数据,目前只有少数开源工具可以做到。Trill将支持多模态分析与微软称无法完全与其他系统匹配的功能结合到一起。
Trill最突出的是它的性能。Trill可以接收事件(例如来自土壤传感器的温度变化日志),速度达到每秒数十亿个。在执行高级操作(例如从一批传感器日志中提取最高温度读数)时,它的速度略慢一些但仍然令人印象深刻,每秒达到1000万到1亿个事件。
微软Azure首席研究工程师James Terwilliger在一篇博客文章中这样写道:“Trill在实时数据和离线数据集方面的表现同样出色,在整个范围内实现了最佳性能,这让它成为那些只需要一款工具就能进行所有分析的用户的首选引擎。”
Trill与其他工具与众不同之处在于它的可定制性。Trill引擎可以更改传入数据处理的间隔,让用户能够粒度地管理延迟。此外企业还可以通过定制的分析功能扩展原生查询语言。
微软将Trill用于各种应用,例如支持Azure Stream Analytics服务和Bing Ads业务,并帮助视频游戏开发部门分析玩家数据。
Trill在微软内部的广泛使用,对于潜在企业采用者来说可能是一个重要卖点,这说明Trill引擎具有足够的动力,可以在生产环境中使用。
Azure数据工程经理Zhong Chen在公布该项目的博客文章中表示,企业不一定要自己部署Trill才能利用该功能。
Chen说:“通过使用Trill作为节点上的处理引擎,微软在10月个内就从Azure Stream Analytics的第一行代码走向了公开预览。在不久的将来,我们考虑通过用户定义的运营商模型展示Trill的编程模型,以便让所有客户都能利用Trill出色的功能。”
好文章,需要你的鼓励
在AI智能体的发展中,记忆能力成为区分不同类型的关键因素。专家将AI智能体分为七类:简单反射、基于模型反射、目标导向、效用导向、学习型、多智能体系统和层次化智能体。有状态的智能体具备数据记忆能力,能提供持续上下文,而无状态系统每次都重新开始。未来AI需要实现实时记忆访问,将存储与计算集成在同一位置,从而创造出具备人类般记忆能力的数字孪生系统。
中国人民大学和字节跳动联合提出Pass@k训练方法,通过给AI模型多次答题机会来平衡探索与利用。该方法不仅提升了模型的多样性表现,还意外改善了单次答题准确率。实验显示,经过训练的7B参数模型在某些任务上超越了GPT-4o等大型商业模型,为AI训练方法论贡献了重要洞察。
OpenAI首席执行官阿尔特曼表示,公司计划在不久的将来投入数万亿美元用于AI基础设施建设,包括数据中心建设等。他正在设计新型金融工具来筹集资金。阿尔特曼认为当前AI投资存在过度兴奋现象,类似于90年代互联网泡沫,但AI技术本身是真实且重要的。他承认GPT-5发布存在问题,并表示OpenAI未来可能会上市。
南加州大学等机构研究团队开发出突破性的"N-gram覆盖攻击"方法,仅通过分析AI模型生成的文本内容就能检测其是否记住了训练数据,无需访问模型内部信息。该方法在多个数据集上超越传统方法,效率提升2.6倍。研究还发现新一代AI模型如GPT-4o展现出更强隐私保护能力,为AI隐私审计和版权保护提供了实用工具。