微软Azure和研究院团队正在合作开发一项新的AI基础设施服务,代号为“Singularity”。根据微软发布的部分招聘内容来看,Singularity团队正在努力构建微软所谓“全新的人工智能平台服务,将成为微软内部和外部人工智能的主要驱动力”。
该项目的成员发表了一篇题为“Singularity: Planet-Scale, Preemptible and Elastic Scheduling of AI Workloads”的论文,其中提供了关于Singularity项目的技术细节。Singularity服务旨在为数据科学家和AI从业者提供了一种方法,让他们可以在微软专为AI打造的分布式基础设施服务上构建、扩展、试验和迭代他们的模型。
这篇最近发布的发表论文,作者名单中包括Azure首席技术官Mark Russinovich;合作伙伴架构师Rimma Nehme,曾在Azure Cosmos DB工作,直到2019年转到Azure从事AI和深度学习方面的工作;以及技术研究员Dharma Shukla。根据这篇论文:
“Singularity的核心是一个新颖的、工作负载感知的调度程序,可以透明地提前抢占和弹性扩展深度学习工作负载,在不影响正确性或者性能水平的情况下,在全局加速器(例如GPU、FPGA)中提高利用率。”
微软方面此前曾讨论过将FPGA作为服务提供给客户的计划。2018年微软公开了代号“Project Brainwave”的项目,该项目旨在通过Azure提供快速AI处理能力。当时,微软预览了一个由Brainwave支持的Azure Machine Learning Hardware Accelerated Models,这也是微软在为客户提供用于AI工作负载的FPGA处理能力方面迈出的第一步。
我猜测,Singularity是微软把Brainwave转化为商业服务迈出的下一步,我已经向微软方面提出询问对此发表评论。我还询问过微软计划何时以及如何将Singularity转化为商业服务。
2019年,微软宣布在OpenAI上投资10亿美元,一年后微软宣布,已经与OpenAI合作并专门为OpenAI打造了全球第五大超级计算机。
虽然这款AI超级计算机是微软专为OpenAI打造的,但微软一直表示,将会通过Azure AI服务和GitHub提供微软大型AI模型和训练优化工具。此外微软还通过Azure AI为那些不需要专用超级计算机的客户提供各种加速器和服务。2021年11月,微软宣布将在Azure 中采用80GB NVIDIA A100 GPU扩展他们的AI超级计算机阵容。
大家可能还记得,此前微软曾把Singularity用作另一个研究项目的代号,当时这是一个微内核操作系统以及一组完全以托管代码开发的相关工具和库。这个Singularity并非基于Windows,而是作为概念验证从零开始编写的。Singularity最终催生以及/或者影响了微软其他几个操作系统研究项目,包括Barrelfish、Helios、Midori和Drawbridge。
另外值得注意的是,微软并不是唯一一家试图在自己内部和客户之间提供人工智能超级计算功能的科技公司。Meta也在做同样的事情,并且已经将其作为解锁元宇宙的一把钥匙。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。