端侧大模型会带来颠覆性变化吗？

本文作者：包永刚

2024-07-10 16:13

导语：汽车、手机、PC都将是端侧大模型最先落地的场景。

端侧大模型会带来颠覆性变化吗？

生成式AI预训练大模型的能力越来越强大，吸引了更多人探索大模型在端侧的落地应用。

不过在生成式AI火爆之前，CNN已经让端侧拥有了AI能力，所以让人更关心的问题是，端侧大模型会带来革命性的变化吗？

2024世界人工智能大会期间，爱芯元智创始人、董事长仇肖莘对雷峰网表示，“目前端侧大模型的应用还是探索阶段，还不好判断是否会带来颠覆。”

端侧大模型会带来颠覆性变化吗？

爱芯元智创始人、董事长仇肖莘

在世界人工智能大会期间，爱芯元智主办的“芯领未来丨智能芯片及多模态大模型论坛”上，智慧物联和人工智能创新融合专家殷俊分享，“不应该让用户放弃原有的技术投资，而是要通过大小模型协同和模型小型化，实现最优算力配置，来加快大模型行业落地。”

这是一个值得进一步探讨的话题，端侧大模型落地到底面临哪些挑战？会在哪些场景先落地？又会带来怎样的变化？

端侧大模型到底是不是一场革命？

包括智能手机、城市中随处可见的摄像头几年前已经经历过一轮AI浪潮，借助CNN、RNN等AI算法，手机能够AI拍照、美颜，摄像头也能识别车牌，统计人流等，虽然不够完美，但已经广泛应用。

端侧大模型要带来革命性的变革不仅要效果更好，而且可能要比传统AI方案成本更低，目前业界都还处于探索阶段，技术的变革并非一夜之间发生。

“我们做AI-ISP已经很多年，今年突然成为了爆款。”仇肖莘说，“传统的ISP降噪、防抖功能是通过硬件模块实现，AI-ISP用算法取代了这些模块，但AI算法也只是将传统ISP通路中20多个模块中的几个换成了AI算法。”

同样的道理，端侧大模型是否能带来颠覆，以及何时会带来颠覆，也还值得探讨。

在谈颠覆之前，端侧大模型首先应该解决的是落地的问题。

殷俊认为，大模型在文本、语音等领域快速发展，但在视觉领域的落地却面临可靠性、稳定性、理解不够全面等挑战，真实准确描述客观世界是视觉大模型落地的关键。

算力、内存和带宽都是端侧大模型落地最底层的挑战。

“大模型在端侧的落地，内存大小、带宽的限制超过了算力限制。”仇肖莘进一步表示，“算力可以很大，但数据会成为瓶颈，芯片一定要和算法做联合优化。”

业界也正在积极探索端侧大模型落地内存和带宽限制的问题，比如探索DDR用Wafer to Wafer的形式，实现1024个通道，解决带宽和延迟的问题。又或者开发出能够在端侧使用的HBM，解决数据墙问题。

技术向前演进的同时应用的探索也在加速，仇肖莘认为汽车、手机、PC都将是率先落地端侧大模型的场景。

这些场景无疑需要原生支持Transformer架构的处理器。

押中生成式AI，原生支持Transformer有10倍性能优势

爱芯元智在世界人工智能大会2024上正式发布了爱芯通元AI处理器，在高中低三档算力中已完成布局，已经在智慧城市和辅助驾驶两个领域实现了规模化量产，并且可以支持以文搜图、通用检测、以图生文、AI Agent等通用大模型应用。

这是一个有趣的话题，爱芯通元混合精度NPU早在2021年就已经立项，2022年年中回片，并在年底向客户销售，三年前设计的芯片为什么能原生支持Transformer？

爱芯元智联合创始人、副总裁刘建伟介绍，爱芯元智NPU设计是AI处理器的设计思路，从一开始就考虑各种模型结构包括Transformer等模型的算子支持，爱芯通元AI处理器的核心是算子指令集和数据流微架构。底层采用可编程数据流的微架构提高能效和算力密度。同时，爱芯通元的灵活性也保证了算子指令集的完备性，支撑各种AI的应用。

还有爱芯通元成熟的软件工具链可以让开发者快速上手，也能够快速实现对端侧大模型的适配。

今年四月，爱芯元智就基于AX650N平台完成了Llama 3 8B和Phi-3-mini模型的适配。

爱芯通元V4(AX630C)也已经适配了通义千问0.5B、TinyLlama-1.1 1.1B模型的适配，Token速度也不错。

端侧大模型会带来颠覆性变化吗？