Infra大咖齐聚一堂，一场关于大模型基建的百家争鸣| GAIR 2023

本文作者：代聪飞

2023-08-23 10:39

导语：降低成本和门槛，让新科技革命发生。

编者按：2023年 8 月 14 日，由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办的第七届GAIR全球人工智能与机器人大会，在新加坡乌节大酒店拉开帷幕。过去一段时间，ChatGPT将人工智能推向热潮。据统计，目前国内已经有100余家大模型，这也成为本次大会探讨的主要议题之一。

根据大会安排，峰会首日进行到下午16时，以“大模型时代的超级基建”为主题的圆桌论坛，在云启资本合伙人陈昱主持下正式开启。

参与本次圆桌论坛的嘉宾有：

尤洋：新加坡国立大学校长青年教授，潞晨科技创始人

季昕华：UCloud董事长

星爵：Ziliz 创始人兼 CEO

围绕大模型基础设施建设面临的挑战、如何降低大模型训练成本等话题，参会嘉宾进行了热烈讨论。

关于挑战，尤洋认为，通信基础设施非常重要。过去，挖矿等一些非AI需求的GPU就没有很好的高速互联。季昕华认为主要大模型的训练主要面临资金、算力、工程等方面的挑战。星爵则强调了数据方面的问题。

对业内非常关心的成本问题，尤洋表示，大模型训练的一个巨大负担是训练计算量太大。同时，他也给出了相应的解决方式；季昕华详细解释了优刻得如何通过降低电费、化购买为租用等五个方面帮助客户降本增效；星爵则从数据层面给出了相应得方案。

圆桌结尾，电脑报创始人陈宗周发表了总结感言，他对各位嘉宾的演讲和工作成果都给予了盛赞。陈老师还特别提到，很多讲者已经把事业做得非常庞大，但依然非常谦逊，中间更是有不少人是年轻一代的榜样。

Infra大咖齐聚一堂，一场关于大模型基建的百家争鸣| GAIR 2023

最后，在大家的掌声中，大模型时代的超级基建圆桌论坛环节正式结束，大会首日活动也由此画上圆满句号。

以下是圆桌讨论部分内容，雷峰网根据现场速记做了不改原意的缩写。

陈昱：谢谢雷峰网(公众号：雷峰网)举办这么好的一个活动。大家都知道，今年AI是一个最热的话题，但是AI的应用离不开底层基础设施支撑。所以，我们今天有幸邀请了三位大咖，来讨论一下基础大模型的一些相关问题。首先，第一个问题是，在当前的技术水平下面，大模型的基础设施建设会有什么挑战？

尤洋：我个人觉得，首先，通信的基础设施非常重要。比如说，我们把大模型划分到了很多GPU服务器，把它划分成很多块，本质上其实我们最终都是要汇总的。划分多少次，最终至少需要汇总多少次。这种情况下，我们也看到，在GPT3出现以前，英伟达在2019年就收购了Mellanox。当然我相信英伟达应该还是有很好的前瞻性。收购Mellanox的目的就是为了打造高速网络。这也引申出了另外一个问题，之前很多非AI的GPU 之所以很难用来训练大模型的，往往就是因为没有很好的高速互联。

季昕华：在国内，我们服务了五六十家做大模型的公司。主要有哪些挑战呢？一是资金门槛，需要大量的资金投入做大模型；二是算力门槛，现在大部分公司都没有足够的卡来做支撑；三是工程问题，就是整个卡之间的网络链接、数据存储性能问题，以及整个训练过程掉卡问题。这些问题都会使得整个训练周期会变得非常长。另外，安全问题也是蛮突出的，这些问题都会影响到大模型的训练以及未来应用。

星爵：我们一般会说 AI有三个技术支柱，就是算法、算力和数据。我们现在已经到了一个时代，新一代的算法对算力和数据都有更高要求。刚才两位都提到了芯片、算力这方面的基础设施，我想强调下数据层面的问题。世界上有 80%以上的数据都这种非结构化的数据：不管是文本、图片、视频，还是人的对话和行为都属于非结构化的数据。而在过去十多年，非结构化数据的管理能力主要由谷歌、微软等大公司掌握。新AI时代对数据管理的要求也会变得更大，如何更好地做好智能的数据基建是一个很大的挑战。

陈昱：数据的确是一个非常重要的话题，那下面这两个问题其实是和数据相关的。第一个问题是怎么看待数据的安全和隐私问题。我知道季总以前也是黑客出身，应该也非常 SQL injection ，那大模型时代很容易延展到 prompt injection。季总怎么看这方面问题。

季昕华：我们认为整个大模型有四个方面的安全挑战。

第一，大模型是把数据和程序结合在一起的，而在传统的计算机里面，程序和数据是分开的。但是在大模型里面，数据有可能是程序的一个执行命令，这方面，目前也没有太多人研究。我们最近在分析这件事，比如，让一个 agent 去执行一个命令的时候，这个命令本身可能是一段文字。所以，文字和程序之间可以被套用，存在很大的风险。特别是，如果大模型未来操纵整个人类的世界，风险可能会更大。

第二，是数据劫持问题，通过 promote 进行劫持，这方面不少人都在做研究。这里，对于场景的劫持会更严重一些。第三，大模型的输出目前是童言无忌的，没有做权限的隔离，这里的风险是非常大的。

第四，是所有的输入数据都有可能会被它所记录，造成隐私的泄露。

陈昱：星爵有什么观点吗？我不知道数据和隐私会不会在向量数据库里面做管理？还是这是应用层的一个问题。

星爵：从我们现在看到的应用来讲，向量数据其实已经做了一层类似的数据加密。可以把整个的这个神经网络看作一个encode。比如说，在数据进入我们向量数据库以前，会有一个 transformation 的过程，把图片、视频、文本等向量化，向量化本身的话会用一个大模型的方式去提取一个embedding。这个过程基本上是不太可逆的，否则计算量太大。从这个层面来讲，向量数据库已经实现了一定程度的数据脱敏。

陈昱：接下来，这个问题是跟钱相关的。大家都知道大模型就是无论是训练还是使用，其实都是非常费钱。无论底层的云，尤教授的软件，还是向量数据库，都有很大的成本优化空间。这里，我就想请各位谈一下怎么去帮大家省钱的。

尤洋：站在我们角度看，主要是训练计算量太大，解决的有效方式主要有三个角度：一是不改变硬件条件下试试能否加速收敛；二是，针对下层软件，在不改变模型结果前提下，能否提供更好的基础设施；三是能否进行模型优化。所以，我们主要还是在软件层面上看能不能使它的训练的更高效、更快，从而去降低成本。

季昕华：我们现在主要通过五个方面帮助客户降本增效。一是降低电费。不论做训练还是推理，电费大约占总成本的15%左右，优刻得乌兰察布数据中心能够把电费单价从1块钱/度降低到3毛钱/度；二是化购买为租用。由于训练一般分阶段，因此公司可以选择租用模式。比起购买，租用会极大降低使用者的成本；三是通过网络带宽和存储带宽来提高使用者的训练效率；四是通过压缩模型等手段，来降低推理成本。毕竟，未来推理成本可能会远大于训练成本；五是通过一体机的模式，即私有部署的模式推进私有化大模型。

星爵：就降低成本而言，从向量数据库角度，非结构化数据管理方面来看，主要包括三方面：第一，要有更好的算法，这意味着能更好地发发挥硬件效果；第二，要更聪明地利用个体存储；第三，要比以往有更强的有效利用硬件的能力。

陈昱：感谢各位嘉宾的时间，谢谢大家。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

代聪飞

主笔

个人微信：Congc_a，欢迎添加交流。

发私信

当月热门文章