亚马逊网络服务公司(Amazon Web Services Inc.)近日宣布,计划通过旗下Amazon Bedrock服务提供来自知名机器学习初创公司Mistral AI的两个人工智能模型。
Bedrock于去年4月推出,通过应用程序编程接口提供对托管基础模型的访问。开发人员可以使用API来测试可用的神经网络中有哪一个最适合给定项目,然后将其集成到自己的软件之中。
总部位于巴黎的Mistral获得了超过5亿美元的资金支持。它通过Bedrock提供的两种AI算法——Mistral 7B和Mixtral 8x7B,两者都是开源的大型语言模型。它们针对的是相似的用例,但设计和功能却大相径庭。
Mixtral 8x7B是Mistral最先进的LLM,于12月首次亮相,不久后该公司宣布了最新一轮4.15亿美元的融资。它可以支持聊天机器人,总结文档并生成代码。在内部比对期间,该模型在所评估的大多数基准测试中都优于OpenAI的ChatGPT 3.5。
Mixtral 8x7B采用了被称为专家混合架构的LLM设计。该模型由八个不同的神经网络或“专家”组成,每个神经网络都针对一组不同的任务进行了优化。当Mixtral 8x7B收到用户提问时,它会识别出最适合生成答案的两个神经网络并激活它们。
基于混合专家设计的LLM运行需要的硬件数量相对有限。由于Mixtral 8x7B在回答用户提问时仅激活其八个神经网络中的两个,因此其余六个神经网络不使用任何处理能力。其结果是与传统的LLM相比,降低了基础设施成本,后者在处理提问时激活了所有软件组件。
Mixtral 8x7B的八个神经网络具有467亿个参数。Mistral 7B是该公司通过Bedrock向AWS客户提供的第二个LLM,其设计更简单,只有70亿个参数。它面向特别强调硬件效率的应用程序。
AWS的首席开发人员倡导者Donnie Prakoso在一篇博客文章中详细介绍道,“Mistral 7B是Mistral AI 的第一个基础模型,自然编码功能支持英文文本生成任务。”“它针对低延迟进行了优化,内存要求低,吞吐量高。”
Mistral的两个开源LLM加入了Bedrock已经上架的至少六个基础模型的行列,已经上市。这些已经上架的模型有部分是AWS开发的——即Amazon Titan系列。Bedrock还提供了Meta Platforms Inc.、Anthropic PBC 和其他市场主流玩家托管的神经网络。
好文章,需要你的鼓励
"当我看到梵高的每一笔中都有他的痛苦时,才明白我们看的不是作品,而是作者的人生。AI正以惊人的速度接近人类水平通用智能,让Google从'伦敦那帮疯子在搞AGI'转变为全公司共识。DeepMind让AI'合理地幻觉'来创造突破,就像Astra技术让用户第一次惊呼'AI能做到比想象更多'——这不仅是技术革命,更是重新定义创造力的开始。"
英伟达2025Q1营收440亿美元创纪录,数据中心业务暴涨73%至390亿美元。黄仁勋直言:"中国是全球最大AI市场,出口管制只会让美国失去平台领导权。Blackwell架构推动推理性能提升30倍,微软已部署数万块GPU,AI工厂正成为各国数字基础设施核心。"
来自耶路撒冷希伯来大学的研究团队开发了WHISTRESS,一种创新的无需对齐的句子重音检测方法,能够识别说话者在语音中强调的关键词语。研究者基于Whisper模型增加了重音检测组件,并创建了TINYSTRESS-15K合成数据集用于训练。实验表明,WHISTRESS在多个基准测试中表现优异,甚至展示了强大的零样本泛化能力。这项技术使语音识别系统不仅能理解"说了什么",还能捕捉"如何说"的细微差别,为人机交互带来更自然的体验。
这项研究提出了"力量提示"方法,使视频生成模型能够响应物理力控制信号。研究团队来自布朗大学和谷歌DeepMind,他们通过设计两种力提示——局部点力和全局风力,让模型生成符合物理规律的视频。惊人的是,尽管仅使用约15,000个合成训练样本,模型展现出卓越的泛化能力,能够处理不同材质、几何形状和环境下的力学交互。研究还发现模型具有初步的质量理解能力,相同力量对不同质量物体产生不同影响。这一突破为交互式视频生成和直观世界模型提供了新方向。