Marvell公司日前宣布,计划将电子设计自动化(EDA)工作流程由本地迁移至亚马逊云科技(AWS)。Marvell同时强调,他们是AWS的“电光材料、网络、安全、存储及定制设计等解决方案”供应商。这项新消息相信对两家公司都有积极的推进意义。
EDA是工程师日常使用的IP块、芯片与SoC设计/模拟/调试/验证软件工具,主要由Cadence和Synopsis提供。过去十年以来,这类工具已经整合了AI技术,能够自动处理特定程序以改善产品上市时间。Cadence最近还推出了其Verisium平台,据称能够将调试生产率提升10倍。
凭借愈发强大的EDA工具,工程师们能够利用种种资源加快工作流程。但从另一个角度看,这也意味着EDA本身需要大量计算和存储资源作为支持。要想快速获取提示和答案,丰富的算力和内存必不可少。相较于本地设施,以AWS为代表的公有云显然特别适合这类工作负载。
Marvell公司产品和技术总裁Raghib Hussain也对公有云赞许有加,表示“将EDA工作负载迁往云端,将改变半导体的整个开发方式。通过在AWS云服务中运行EDA,Marvell将得以优化我们的芯片开发项目,加快我们的产品上市时间。”
Marvell并未具体说明其使用的AWS EC2实例、存储、内存、工具或文件系统,但我们可以在AWS网站上找到关于Marvell的信息(https://aws.amazon.com/solutions/semiconductor-electronics/electronic-design-automation/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=desc&marketplace-ppa-and-quickstart.sort-by=item.additionalFields.sortDate&marketplace-ppa-and-quickstart.sort-order=desc&solutions-whitepapers.sort-by=item.additionalFields.sortDate&solutions-whitepapers.sort-order=desc)。
Marvell还公开透露,他们本身也是AWS的重要半导体供应商。这也很正常,毕竟Marvell在云存储、电学材料、DPU(数据处理单元)、网络和HSM(硬件安全模块)等领域均处于市场领先地位。

Marvell的“灵活研发模型”
Marvell公司拥有先进的技术、IP、封装与互连储备。在芯片制造端,Marvell已经能够匹配台积电的最新3纳米顶级制程,掌握多种加速器,具备高速混合信号专家,也是多芯片模块(MCM)、共封装光学元件和封装内内存设计的领导者。Marvell的最终产品对应灵活的交付方式,客户可以直接购买、以伙伴身份参与合作(自定义IP)、通过自定义ASIC构建,或者与复杂的SoC集成。这些能力贯穿超大规模数据中心的计算、安全和存储等层面,并通过交换机连接各机架、通过光纤互连对接各处数据中心。尽管AWS没有阐明,但我个人相信Marvell应该是使用了AWS的Nitro SSD。身为云服务领域的绝对领导者,AWS也有必要积极采用Marvell的硬件安全模块。
AWS Amazon EC2副总裁David Brown在评论Marvell芯片能力的新闻稿中提到,“我们的客户通过与Marvell的合作而受益,他们将芯片创新推向了广泛而深入的云服务体系。”David Brown亲自发言,无疑是对Marvell的支持和肯定。
那么,两家运营良好的公司突然“互诉衷肠”,到底是想干什么?
虽然AWS拥有多种原研芯片(包括Nitro System、Graviton Compute、Inferentia Inference,以及即将推出的机器学习训练专用Trainium),但这类重大课题显然不是单一厂商就能解决的,所以也需要商业芯片供应商的扶持。Marvell的意义正在于此。我很期待AWS是否以及如何使用Marvell提出的所谓“灵活研发模型”中的自定义功能。对于AWS,这代表其云EDA服务已经取得重大胜利——40年来,第一次将这类负载从本地设施推上云端。同时,Marvell方面也能借此为客户提供更多新功能,为迎接半导体产业的未来做好准备。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。