王恩东院士：释放多元算力价值，计算系统创新是关键

本文作者：我在思考中

2021-10-27 14:31

导语：多元化、巨量化、生态化给整个计算产业带来的挑战是空前的

人工智能从5、6年前的 “黑科技”变成了今天的“热科技”，背后离不开算力支撑能力的巨大飞跃。2020年以GPU为代表的AI加速芯片所交付的计算力总和已经超过了通用CPU，预计到2025年，加速芯片所提供的计算力可能超过80%。可以说，人工智能的规模化发展，算力已经成为决定性的力量，智慧计算是智慧时代的核心生产力。

“人工智能带来指数级增长的算力需求，计算产业正面临着多元化、巨量化、生态离散化交织的趋势与挑战。一方面多样化的智能场景需要多元化的算力，巨量化的模型、数据和应用规模需要巨量的算力，算力已经成为人工智能继续发展的重中之重；另一方面从芯片到算力的转化依然存在巨大鸿沟，多元算力价值并未得到充分释放。如何快速完成多元芯片到计算系统的创新，已经成为推动人工智能产业发展的关键环节。”在10月16日举行的2021人工智能计算大会（AICC2021）上，中国工程院院士、浪潮首席科学家王恩东阐释了计算系统创新在计算到智算转变的产业新格局下的重大意义。

多元芯片到算力转化，计算系统创新是关键

随着人工智能在算法领域的不断突破，不同数值精度带来了跨度更大的计算类型，对计算芯片指令集、架构的要求更加细分。图灵奖获得者 John Hennessy和 David Patterson共同发表的《计算机架构的新黄金时代》中提出：当摩尔定律不再适用，一种更加以硬件为中心的DSA（Domain Specific Architecture）架构设计会成为主导，这种设计的核心在于针对特定问题或特定领域来定义计算架构。基于DSA思想设计的AI芯片，在特定AI工作负载上表现出远超通用芯片的处理能力，大大推动了AI芯片的多元化发展。

芯片的多元化为产业AI化的加速提供了重要的产业基础和更加丰富的选择。但是，芯片从造出来到大规模用起来，还隔着一个巨大的产业鸿沟。一方面，算力的供给需要构建算力平台，需要解决架构设计、核心部件、高速互联、散热设计等一系列问题。以一台AI服务器研制为例，整个系统需要经过30 多个开发流程，使用150 多种加工制造工艺，对280多个关键过程控制点的质量进行严格把控，并且还要实现与算法框架和AI应用的优化和适配等问题；另一方面，面对大规模AI算力部署，AI算力平台建设又面临高功耗、高电流密度、高总线速率、高系统复杂度的新问题。

“我们能造出性能强大的火箭发动机，但要想造出安全、高性能的运载火箭，还要在循环、控制、结构等很多领域做大量的工作。芯片到计算系统同样如此，需要完成体系结构、信号完整性、散热、可靠性等大量系统性设计工作。”王恩东院士用生动形象的比喻，诠释了芯片到算力转化过程中计算系统创新的价值所在。

以巨量模型为代表的巨量化是AI发展的重大趋势

“人工智能如何发展出像人类具备逻辑、意识和推理的认知能力，是人工智能研究一直在探索的方向。目前来看，通过大规模数据训练超大参数量的巨量模型，被认为是非常有希望实现通用人工智能的一个重要方向。”王恩东院士认为，随着巨量模型的兴起，巨量化已成为未来人工智能发展非常重要的一个趋势。

目前，全球知名的AI领先公司在巨量模型上都予以重兵投入，谷歌、微软、英伟达、浪潮、智源研究院、百度、阿里等公司相继推出了各自的巨量模型。

巨量化的一个核心特征就是模型参数多、训练数据量大。以浪潮人工智能研究院开发的全球最大规模的中文AI巨量模型“源1.0”为例，其参数量高达2457亿，训练数据集规模达到5000GB。相比GPT3模型的1750亿参数量和570GB训练数据集，“源1.0”的参数规模增加了40%，训练数据集规模增加近10倍。

此外，巨量化也表现在模型应用规模大。互联网头部公司的AI开放平台已经吸引了超百万的AI开发者，这些AI开放平台每天承载着数万亿次的调用量，数百万小时的语音识别，超过百亿张图像识别，超过万亿句自然语言理解等等。如此巨量的调用对算力中心的应用支撑能力带来了极大的挑战。

生态离散化制约AI上水平、上规模、上台阶

“很多人会有这样的困惑，人工智能那么好，但是怎么跟我的业务、应用场景结合，想通过AI技术做智能化转型，但是发现没人懂算法，懂模型，也缺少好用的AI开发平台。同时，算法模型那么多，如何找到不同算法在应用中的最优组合？懂这些的人，往往都集中在科研机构或者头部公司。这些地方集中了最优秀的AI人才，但缺少对传统行业的需求场景、业务规律的深入理解。”王恩东院士对当前AI从技术到应用面临的困局做了形象的概括。

来自埃森哲的一份调研报告显示，70%以上有技术的研究机构、科技公司缺需求场景、缺领域知识和数据，70%以上的行业用户缺技术人才、缺AI平台和实践能力。

与此同时，生态离散化也与AI芯片多元化的发展趋势关系密切。目前，AI芯片架构五花八门，指令集不同，无法兼容，而面向芯片的编程库又跟芯片绑定，灵活性差。小公司只做了其中一个环节，这造成生态的纵向不通；大公司希望构建封闭的系统，这造成了生态的横向不通。

王恩东院士认为，目前人工智能的技术链条、产业链条是脱节的，生态离散化已成为制约人工智能技术上水平、应用上规模、产业上台阶的瓶颈所在。

多元化、巨量化、生态化给整个计算产业带来的挑战是空前的。“要想释放多元算力价值、促进人工智能创新，一是要重视智算系统的创新，加大人工智能新型基础设施建设，把从技术到应用的链条设计好，从体系结构、芯片设计、系统设计、系统软件、开发环境等各个领域形成既分工明确又协同创新的局面；二是要加快推动开放标准建设，通过统一的、规范的标准，将多元化算力转变为可调度的资源，让算力好用、易用。”王恩东院士强调说。

雷锋网

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

0人收藏

我在思考中

运营

发私信

当月热门文章