1
雷锋网消息,2019 年 7 月 11 日,Google 宣布旗下的 Google Cloud Platform(GCP)在最新一轮的 MLPerf 基准竞赛中创造了三个新的表现记录,这三个记录都是基于 Cloud TPU v3 Pod 实现的。
Google 表示,利用 Cloud TPU Pod 的强大速度,这三个记录用了不到两分钟的计算时间就得以完成。
MLPerf 是 2018 年 5 月由 Google、百度、Intel、AMD、哈佛大学和斯坦福大学等企业和学术机构联合发布的一款基准测试工具,它的用处是用来测量机器学习软件和硬件的执行速度,获得了吴恩达和 Google 机器学习负责人 Jeff Dean 的强烈推荐。
针对 MLPerf 的发布,吴恩达声明称:
AI 正在给各个行业带来改变,但为了充分这项技术的真正潜力,我们仍然需要更快的硬件与软件……我们当然希望获得更强大的资源平台,而基准测试方案的标准化进程将帮助 AI 技术开发人员创造出此类产品,从而帮助采用者更明智地选择适合需求的 AI 选项。
Jeff Dean 也在 Twitter 上表示,Google 很高兴与众多大学和企业一起,成为致力于将 MLPerf 作为衡量机器学习性能的通用标准的组织之一。
MLPerf 项目的主要目标包括:
通过公平且实用的衡量标准加快机器学习发展进程。对各竞争系统进行公平比较,同时鼓励创新以改善业界领先的机器学习技术。保持基准测试的成本合理性,允许所有人参与其中。为商业及研究社区提供服务。提供可重复且可靠的测试结果。
在具体的测试项目上,MLPerf 覆盖了视觉、语言、商业和通用四大领域,包含七项基准测试方案。每个 MLPerf 训练基准测试的度量标准是:在特定数据集上训练一个模型使其达到特定性能的总体时间。众所周知,机器学习任务的训练时间有很大差异,因此,MLPerf 的最终训练结果是由指定次数的基准测试时间平均得出的,其中会去掉最低和最高的数字。
MLPerf 的结果根据专区和给定的产品或平台进行分类,目前有两种专区,即封闭专区(Closed Division)和开放专区(Open Division)。其中封闭专区会指定使用的模型,并限制批量大小或学习率等超参数的值,它对于对比硬件和软件系统非常公平。
2018 年 12 月 12 日,支持 MLPerf 的研究者和工程师们公布了第一个回合的竞赛结果,其中测量了多种机器学习任务在主流机器学习硬件平台上的训练时间,包括 Google 的 TPU、英特尔的 CPU 和英伟达的 GPU。其测试基准如下:
通过这次竞赛,MLPerf 产生了封闭专区 V0.5 版本,其结果如下:
从结果来看,英伟达在其提交的六个 MLPerf 基准测试结果中取得了最佳性能,其中包括图像分类、目标实例分割、目标检测、非循环翻译、循环翻译和推荐系统——从而成为最大赢家。
2019 年 7 月 10 日,MLPerf 第二回合的竞赛结果公布,其测试标准如下:
基于这轮竞赛结果的封闭专区 V0.6 版本如下:
可以看到,根据 MLPerf 封闭专区 0.6 版本所呈现的结果,在基于 Transformer 和 SSD 模型的基准测试项目中,Google Cloud TPU 比英伟达预置 GPU 的最佳表现高出了超过 84%。另外,基于 ResNet-50 模型,Google Cloud TPU 也比英伟达预置 GPU 略微胜出。
在本次竞赛中,帮助 Google 胜出的,是 Cloud TPU v3 Pod。
Cloud TPU v3 Pod 是 Google 推出的第三代可扩展云端超级计算机,其核心特征就是内置了 Google 自主打造的 TPU 处理器。2019 年 5 月,Google 在 I/O 开发者大会上宣布了它的测试版并进行了公开预览。
据雷锋网了解,每一个 Cloud TPU 最高可包含 1024 个单独的 TPU 芯片,这些芯片通过二维环形网状网络连接,TPU 软件堆栈使用该网络通过各种高级 API 将多个机架作为一台机器进行编程;用户还可以利用 Cloud TPU Pod 的一小部分,称为“切片”。
Google 方面表示,最新一代 Cloud TPU v3 Pod 采用了液冷式设计,可实现最佳性能;每一个都提供超过 100 petaFLOP 的计算能力;Google 也号称,就每秒原始数学运算而言 Cloud TPU v3 Pod 与全球五大超级计算机相当,尽管它的数值精度较低。
借着这次在 MLPerf 第二次结果中出风头的机会,Google 也不忘在官网推介一下 Cloud TPU v3 Pod 的最新进展。比如说,Recursion Pharmaceuticals 是一家运用计算机视觉技术来处理细胞图像,通过分析细胞特征来评估疾病细胞药后反应结果的公司;以往该公司在通过本地 GPU 训练模型时需要 24 小时,但利用 Cloud TPU Pod,只需要 15 分钟就可以完成。
当然,在雷锋网看来,作为一个典型的技术派,Google 之所以如此着力推进 Cloud TPU 的进展,当然也是希望有更多的开发者参与其中——毕竟云计算是当前 Google 最为重视的业务之一。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。