腾讯云：把GPU分开卖是黑科技吗？

本文作者：张路

2019-12-12 18:31

导语：腾讯云基于NVIDIA最新GPU虚拟化技术做了一个产品创新，用户可以在云上买到规格更小的GPU计算产品。

雷锋网AI开发者按，1999年，NVIDIA 公司发明了GPU（Graphics Processing Unit，图形处理器），优异的图形处理表现让它艳惊四座。

近年来，GPU在大规模并行运算上的巨大优势，让其成为大数据、AI以及图形图像处理等场景下不可或缺的计算引擎。

然而，一直以来，囿于GPU切分难度较高，用户不论是购买GPU硬件，还是购买GPU云服务，都只能整块购买。这样有两个结果：

1. 使用门槛较高。GPU相对CPU价格较贵，一块超级计算类GPU价格更是高达好几万，个人开发者使用门槛较高。

2. 资源浪费。在算力需求较小的时候，一整块GPU卡无法满负荷运行，造成算力浪费。

今天，这种局面看起来被打破了，腾讯云正式对外发布基于 NVIDIA T4 的虚拟GPU（vGPU）计算产品GN7实例，可以为任意AI工作负载提供支持。

因此，用户可以在云上买到规格更小的GPU计算产品，可以降低用户使用GPU的成本并增加灵活度，对一些小规模算力场景的人工智能研发有非常大的帮助。

广泛适用不同AI场景

凭借强大的计算能力和弹性能力，GN7实例在海量数据处理和人工智能领域都具有广阔的应用价值。它既可以满足诸如搜索、大数据分析等需要对海量数据进行处理的业务场景，也可以作为深度学习训练和推理的系统平台。

GN7实例的虚拟化特性，也十分适合互联网业务中人工智能业务的批量部署以及云游戏，AR/VR在云端的应用。

目前，GN7实例已经在腾讯云自有的智能钛弹性模型服务（TI-EMS）上实现了应用。该平台通过使用vGPU做小模型推理，帮助用户解决复杂模型部署和GPU利用成本效益等问题。

基于多精度支持，NVIDIA T4拥有可加速深度学习训练和推理、机器学习以及数据科学工作负载的 Tensor Core，以及丰富的平台堆栈，包括用于深度学习的cuDNN、用于数据分析和机器学习的NVIDIA RAPIDS、用于云工作站图形的NVIDIA Quadro虚拟工作站和用于云游戏的NVIDIA游戏软件。结合用于GPU虚拟化的 vComputeServer软件，腾讯云客户可以灵活选择在虚拟环境中运行GPU加速的工作负载，从而在提高安全性和利用率的同时降低成本。

进一步降低成本

GN7实例降低了GPU加速的初始投资成本，NVIDIA vComputeServer软件通过对NVIDIA T4进行虚拟化，使多台虚拟机（VM）可以同时访问GPU或者使一台虚拟机可以访问多颗 GPU，从而实现性能的最大化。因此，腾讯云用户可以根据工作负载的需求灵活选择对应的GPU加速量。

比如在进行简单模型推理这一类低算力需求的应用时，用户无须再像以往必须使用单颗物理GPU，而是可以根据自身业务具体类型对GPU算力的需求，灵活选择匹配的vGPU资源，提升了计算资源的利用率，从而有效降低用户的使用成本，避免因配置不足或配置过度而产生成本。比如，通过使用1/2 vGPU实例规格，成本相对单卡实例降低了50%。

相比过往进程级别的虚拟化GPU，GN7的升级点在于其提供的设备级虚拟化vGPU是完全模拟出来一个GPU设备，在支持GPU硬件的绝大多数特性的同时，还能够做到操作系统级别的隔离，而且不同的用户使用也不用担心资源争抢的问题。

不过，关于虚拟化GPU的技术，AI开发者也采访了一位业内资深技术人士，该人士表示，这个vGPU技术其实并不难，华为、阿里也都有类似的。当然，腾讯云和NVIDIA的深度合作还是有一定卖点。

AI开发者获悉，下周在苏州举办的GTC大会上，腾讯云将会演示NVIDIA GPU加速的云服务，并介绍如何从云端部署AI工作负载。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

张路

编辑

张路，微信号：zhanglu

发私信

当月热门文章