阿里云全面升级GPU云服务，AI大模型推理性能可提升100%

本文作者： nebula

2024-07-19 16:35

导语：7月19日，阿里云推出全面升级的GPU云服务，通过全新优化GPU套件，多GPU推理服务性能可最大提升100%。

7月19日，阿里云推出全面升级的GPU云服务，通过全新优化GPU套件，多GPU推理服务性能可最大提升100%。针对调用GPU算力最常用的容器技术，阿里云推出ACK云原生AI套件，帮助开发者及企业更高效地开发和部署AI应用，加速大模型应用落地。

随着AI大模型的体量变大、应用变广，单GPU已难以承载推理应用的全部需求，多GPU推理时代已经到来。如何在GPU资源紧缺的当下，实现GPU高效互联，是提升多GPU推理性能的关键。阿里云通过进一步优化底层的AI通信加速库DeepNCCL，让GPU云服务在推理场景下有更好的性能表现：在同等硬件环境下，Token输出吞吐至少提升14%，首Token时延降低15%。通过深度优化，推理加速性能也提升显著，Token处理能力提升100%，相同的资源可以支持2倍的业务需求。

用Kubernetes容器集群技术调用GPU算力，已成为运行AI大模型任务的主流选择。ACK容器服务可提供自动化编排及GPU高效管理和调度的能力，让模型部署、扩展变得更简单。为进一步提升AI应用运维效率，阿里云推出 ACK云原生AI套件，可实现 Kubernetes 在 GPU 调度和细粒度共享、AI 任务调度、训练数据加载以及大模型推理服务启动等关键领域的能力增强和加速，相较开源均有大幅能力提升。比如，针对AI任务频繁加载远程存储数据的需求，ACK云原生AI套件可提升训练数据读取性能30%以上，降低大模型推理服务冷启动时延70%以上。

在全球累计超过1000万活跃用户的国产AI绘画工具海艺AI，就是通过ACK调用阿里云GPU云服务的先行者。此前，用户通过海艺AI生成一张图片平均耗时20秒，遇到队列等待延迟可上升至分钟级；采用阿里云GPU云算力及ACK容器服务后，海艺AI的模型切换完全无感，推理耗时降低至3.95秒，整体性能提升至少50%以上。

在最新的Forrester 全球AI基础设施解决方案研究报告中，阿里云综合产品能力指标位居全球第二，已成为中国AI大模型的公共底座。零一万物、百川智能、智谱AI、昆仑万维、vivo、复旦大学、巨人网络等大批企业和机构在阿里云上训练大模型，并通过阿里云对外提供服务；小鹏汽车、联想、德勤、微博、完美世界、喜马拉雅等已接入阿里云通义大模型，在阿里云上为消费者和客户提供丰富的AI应用服务。

雷峰网(公众号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

0人收藏

nebula

运营

发私信

当月热门文章