至顶网软件频道消息: 5月18日,金山云正式推出基于NVIDIA Tesla P40平台的GPU云服务器,目前已在金山云官网上线。据悉,金山云还即将推出基于P40平台的系列产品GPU物理服务器,两款服务器将分别针对深度学习的两个步骤线下训练和线上推理,提供细分支持。
GPU云服务器和物理服务器定位高端,拥有强大的运算能力,在实际应用中,相比于目前市面上友商普遍采用的前一代M40平台,Tesla P40可实现1.4倍到1.7倍的加速比,在推理应用中,相比于CPU,可降低30倍以上的延迟,相比于M40推理吞吐提升4倍以上。同时,P40系列GPU服务器也伴随金山云IAAS服务,在计算、网络、存储、专属云四个方面实现全面提升,具有强劲的竞争力,可帮助客户打造顶级深度学习平台,笑傲新兴的人工智能(AI)江湖。
定位高端,专治客户痛点
人工智能被看作是继蒸汽机、电力、计算机之后的第四次工业革命。有预测认为,到2018年,广义的中国人工智能市场规模将达上千亿元人民币。目前包括谷歌、微软、亚马逊、Facebook、BAT、小米在内的国内外知名科技企业,均已将人工智能作为核心战略。人工智能创业公司如雨后春笋一般出现。对于人工智能领域的公司来说,其对于GPU资源的需求是巨大的,但面临着种种应用上的困境。
具体来说,不光是人工智能领域的创业公司,很多互联网公司和传统软件公司也遇到了这样的难题:互联网公司的人工智能业务需要轻资产和大规模计算能力;传统软件公司希望借助人工智能提升软件竞争能力,但对GPU服务器这种IAAS资源了解不多,更不会维护;创业公司抢占人工智能风口,需要最新的技术和硬件支持,但不想使用过多的资金购买GPU硬件,又缺乏系统运维资源。
针对这些需求和痛点,金山云提供了解决之道:即GPU服务器加上顶级人工智能 IAAS平台。此次推出的P40系列GPU服务器,分为物理服务器和云服务器两种,分别对应的是人工智能的核心驱动力,即深度学习的两个步骤——线下训练和线上推理,为其提供细分支持。
金山云GPU物理服务器专门针对线下训练而生,其配备8颗NVIDIA Tesla P40,192GB显存和256GB内存,总计提供30720个并行计算核心和最高96TFlops的单精度浮点计算能力。Tesla P40在训练AlexnetOWT、GoogLenet、VGG-D、Incep v3、RetNet-50等流行网络时,相比于目前市面上友商普遍采用的前一代的M40,可实现1.4倍到1.7倍的加速比。
GPU云服务器则针对线上推理而生,其可提供1/2/4颗NVIDIA Tesla P40,满足客户在深度学习上的推理、基于GPU的大数据分析、图形渲染等服务器端GPU计算工作负载。尤其是在推理应用中,相比于CPU,可降低30倍以上的延迟,相比于M40推理吞吐提升4倍以上。
四重特性为客户打造顶级AI IAAS平台
P40系列GPU服务器在计算、网络、存储、专属云四个方面,具有强劲的竞争力,为客户打造顶级的AI IAAS平台。
在计算方面,P40系列有着P3E PRO GPU加速实例,单机8颗NVIDIA Tesla P40 GPU能够达到96Tera FLOPS的单精度浮点计算能力,再加上两颗2690V4至强处理器,总计可以达到97.16TeralFLOPS的单精度浮点计算能力;P3E PRO GPU加速实例,单机提供192GB的显存和346GB/s的显存带宽,可充分发挥P40在训练场景下的计算能力。
在网络配置方面,首先,P40系列GPU服务器有着灵活的VPC网络,P3E PRO GPU加速实例,可以和其他金山云云主机实例一样灵活使用金山云VPC网络,客户可以通过VPC提供的VPN、DC或者Peering通道,与自己的其他IAAS资源对接,无论这些资源是在金山云的其它地区,还是客户自己的IDC机房或办公室。
第二,面对多机多卡的需求,P40系列GPU服务器支持100Gb RDMA网络,网络基于RoCE协议,支持P3E/P3E PRO GPU服务器点到点的100Gb连接。
第三,对于大规模计算加速任务,最大支持256个GPU服务器组成的100Gb无损无收敛集群,总计可以支持2048片GPU卡协同工作,为客户打造顶级超算平台。
在存储方面,首先,P40系列GPU服务器配备本地SSD固态硬盘,单机8片SSD总计提供1400MB/s写入带宽,同时提供1-3ms的低延迟IO,适合大量文件的随机读写。
第二,P40系列GPU服务器可以使用金山云集群文件系统,可以和其它金山云云服务器实例一样,通过业务网络接入KS3存储资源,同时还提供KS3的文件系统接口和容器仓库接口,可以提供2000MB/s的读写带宽。
在专属云方面,金山云提供专属云服务,在专属云中自定义创建任意配置的GPU云服务器和普通云服务器来应对业务挑战。专属云为客户提供如下特性:
第一,专属的IAAS资源。这些资源在使用期间,归客户专属,不会调度其他客户的云服务器上来。
第二,自定义虚拟化比例。不再受到线上套餐及虚拟比例限制,客户可以根据业务情况,自定义虚拟比例以高效利用资源。
第三,动态增减集群节点。客户可以根据业务情况增加或者减少专属集群的节点数量。
第四,时间维度的灵活性。可以在任意时间创建/销毁VM实例。
人工智能大潮已经来临,在国内,各行各业都在争相布局,以占得先机。在云计算和深度学习方面有庞大需求的客户,努力抓住人工智能时代的新机遇,获得更加快速、高效建设人工智能业务的能力,以实现业务和产品上的创新,基于此,Tesla P40系列GPU服务器将成为客户的理想选择。
好文章,需要你的鼓励
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
上海AI实验室联合多家顶尖机构开发出全球首个科学推理大模型SciReasoner,该模型在2060亿科学数据上训练,支持103个科学任务,能够像科学家一样进行逻辑推理并展示思考过程。它实现了化学、生物学、材料科学等多领域知识整合,在分子设计、性质预测、文献分析等方面表现出色,为科学研究提供了强大的AI助手工具。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
南洋理工大学研究团队开发出SHINE方法,这是一种无需额外训练就能实现高质量图像合成的新技术。该方法通过巧妙引导现有AI模型的潜能,能够在复杂光影条件下完美合成图像,包括准确的阴影生成和水面倒影效果。研究团队还创建了ComplexCompo基准测试集,验证了SHINE在各种挑战性场景中的卓越性能,为图像编辑技术的发展开辟了新方向。