2017 中国 AI 服务器市占率超 57%，看浪潮如何编织 AI 生态大网

本文作者：汪思颖

编辑：郭奕欣

2018-05-31 14:18

导语：浪潮目前在 AI 硬件上有十余项创新性产品，已与百度、科大讯飞等多家企业建立合作，在人脸识别、语音识别等多个场景下都有应用。

浪潮集团

AI影响因子

活动

企业：浪潮集团

操作：专访

事项：专访

随着深度学习带来 AI 的第三次浪潮，对 AI 的相关讨论层出不穷，算法是大家关注的重点。

算法固然重要，但想做好 AI，还需要强大的底层支撑。谷歌在训练 AlphaGo Zero 时，用到 2000 块 TPU，仅仅花费三天就完成训练。目前，企业 AI 化的需求不断加深，需要有非常强大的计算平台来有力支撑线上推理和线下训练。

AI 计算平台涉及到 GPU、CPU、TPU、FPGA 等硬件，每类硬件背后都有代表企业。英伟达 GPU 以卓越的性能，在 AI 计算中占据了相当大的市场；英特尔在 CPU 上有得天独厚的优势，并擅长布局生态，譬如将 CPU 与 FPGA 相结合；谷歌瞄准深度学习场景，发布专用 TPU 加速器。

在 4 月的浪潮云数据中心合作伙伴大会（IPF2018）上，浪潮首发面向 AI 云设计的弹性 GPU 服务器 NF5468M5，可灵活支持 AI 模型的线下训练和线上推理。（目前，浪潮在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中得分为 8 。）

2017 中国 AI 服务器市占率超 57%，看浪潮如何编织 AI 生态大网

图：浪潮弹性 GPU 服务器 NF5468M5

这一服务器具备以下功能：

面向线下训练对性能的需求，可支持 8 颗最高性能的 Tesla Volta GPU 以 PCI-E 或 NVLink 的高速互联。
面向在线推理对高能效比的需求，可支持 16 颗高能效比的 Tesla P4 GPU，适用于语音、图片、视频场景。
在智能视频分析场景下，可同时处理 300 路以上 1080p 高清视频结构化。
在数据存储和通信性能方面，支持 288TB 大容量存储或 32TB 固态存储，能实现高达 400Gbps 的通信带宽和 1us 的超低延迟。

据浪潮介绍，AI 云对基础架构的设计带来了新的挑战，要求 AI 服务器具备适合于不同 AI 训练场景的 GPU 灵活拓扑、AI 线上推理的高并发低延迟与高能效比、大规模 AI 数据的存储与通信能力。基于此，结合英伟达 GPU 芯片的良好性能以及稳健生态，浪潮做出一系列创新，推出 NF5468M5。

除了最新发布的 GPU 服务器 NF5468M5，浪潮的服务器还涉及 CPU、FPGA。浪潮通过实测数据，分析不同场景下人工智能计算对服务器的性能要求，合理搭配以 CPU、GPU 和 FPGA 为核心的 AI 计算服务器。以下是两个典型案例。

适用于多个应用场景的 FPGA 加速设备 F10A

F10A 是一款 FPGA 加速设备。基于 FPGA 具有可编程专用性，高性能及低功耗的特点，浪潮 F10A AI 线上推理加速方案针对 CNN 卷积神经网络的相关算法进行优化和固化，可加速 ResNet 等神经网络，能够应用于图片分类、对象检测和人脸识别等应用场景。

这一服务器的单芯片峰值运算能力为 1.5 TFlops，每瓦特性能达到 42 GFlops。同时，F10A 具有灵活的板卡内存配置，最大支持 32G 双通道内存，能够寄存更多的并行任务数据。

最大支持 64 块 GPU 的 SR-AI

SR-AI 单机可实现支持 16 个 GPU 的超大扩展性节点，该方案最大支持 64 块 GPU，峰值处理能力为 512 TFlop，可支持千亿样本、万亿参数级别的模型训练。该服务器打破了传统服务器的 GPU/CPU 紧耦合架构，通过 PCI-e Switch 节点连接上行的 CPU 计算/调度节点和下行的 GPU Box，实现 CPU/GPU 的独立扩容，避免传统架构升级带来的部件过度冗余，使得 GPU 扩展无需同步配置高成本的 IT 资源，可将成本优化 5% 以上，随着规模上升，成本优势更加明显。

浪潮表示，在计算平台的选择上，企业可以在适合线下训练的计算加速节点采用浪潮领先业界设计的浮点运算能力强、高扩展的 GPU 服务器，或 KNM 计算加速器，而用于线上识别的计算加速节点采用浪潮低功耗、高能效比的 GPU 服务器，或者低功耗定制优化推理程序的 FPGA 加速器。

2017 中国 AI 服务器市占率超 57%，看浪潮如何编织 AI 生态大网

图：浪潮 GPU 服务器产品家族

2017 年，浪潮 AI 服务器在中国 AI 市场占有率超过 57%，阿里巴巴、腾讯和百度三家运营商 90% 以上的 AI 服务器都来自浪潮。

对于浪潮在 AI 服务器上的成功，浪潮 AI&HPC 总经理刘军将其归功于三个方面，一是对 GPU 的布局早，二是对行业客户的把握——把互联网作为主航道，三是产品创新的能力和效果有保证。

日前，浪潮也公开了企业 AI 策略。

2018 年 4 月 26 日，在浪潮云数据中心合作伙伴大会 IPF2018 上，浪潮发布全新 AI 品牌 TensorServer，明确传递浪潮对 AI 业务的决心与愿景。浪潮集团副总裁彭震对 TensorServer 品牌予以了诠释：「Tensor 是算法的基础元素，Server 是计算力的基础架构。AI 基础架构对于 AI 产业持续快速健康发展至关重要。TensorServer 意在成为 AI 的承载者与赋能者，整合创新 AI 基础架构系统，以计算开启可进化的智慧世界。」

这里的 AI 基础架构系统涵盖平台、管理、框架、应用多个方面。

在 AI 管理上，浪潮部署 AIStation 人工智能深度学习集群管理软件。AIStation 主要面向深度学习计算集群，提供数据处理、模型开发、模型训练、推理服务全流程服务，支持多种深度学习框架，能够快速部署深度学习训练环境，全面管理深度学习训练任务，为深度学习用户提供高效易用的平台。此外，这一软件可以对计算集群的 CPU 及 GPU 资源进行统一的管理、调度及监控，有效的提高计算资源的利用率和生产率。

2017 中国 AI 服务器市占率超 57%，看浪潮如何编织 AI 生态大网

图：AIStation 系统架构图

作为补充，浪潮还自研 Teye 应用特征分析系统。Teye 主要用于分析 AI 应用程序在 GPU 集群上运行时对硬件及系统资源占用的情况，反映出应用程序的运行特征、热点及瓶颈，从而帮助用户最大限度的在现有平台挖掘应用的计算潜力，进而为应用程序的优化以及应用算法的调整改进提供科学的指引方向。

而在框架上，浪潮早在 2015 年就发布 Caffe-MPI 深度学习计算框架，他们在 Caffe 架构的基础上，针对并行扩展性做出一系列创新。

据雷锋网了解，最新版本 Caffe-MPI 在 4 节点 16 块 GPU 卡集群系统上训练性能较单卡提升 13 倍，其每秒处理图片数量是同配置集群运行的 TensorFlow 1.0 的近 2 倍。

Caffe-MPI 设计了两层通信模式：节点内的 GPU 卡间通信及节点间的 RDMA 全局通信，这极大降低了网络通信的压力，并克服了传统通信模式中 PCIE 与网络之间带宽不均衡的影响，同时 Caffe-MPI 还设计实现了计算和通信的重叠。此外，新版本 Caffe-MPI 提供了更好的 cuDNN 兼容性，用户可以无缝调用最新的 cuDNN 版本实现更大的性能提升。

除了自研深度学习框架，浪潮将深度学习框架及其依赖的库统一进行资源封装成一个镜像，之后便可以在任何支持资源封装的浪潮平台上随时加载镜像，用户可以立刻开始工作，其工作环境与原始环境完全一致，这可以有效提升生产力。目前，浪潮可封装的框架资源基本涵盖了主流的深度学习框架，包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet 以及 PaddlePaddle 等。

在应用加速上，雷锋网了解到浪潮的解决方案如下：