1
“如果再买不到海思芯片,我们这个月至少亏掉600万!”
前不久,雷锋网AI掘金志撰文《海思「缺货」,安防「缺芯」》提到:在9月15日多家供应商断供华为之前,安防市场已芯荒意乱。
有人痛骂囤货涨价无理,也有人感慨后继无人凄怆。
文章发布后,不少媒体相继跟进,大多谈到了安防市场缺芯现状及可能的替代方案。
今天,我们沿着该话题进一步聊聊:
安防为何缺芯?毕竟这并非一个高门槛应用行业,无需苛刻的芯片工艺选择。
海思缺货之前,AI安防芯片混战常被提及,弯道超车之论屡被谈起。
如今,身临海思难产之际,市场缘何又顿入无芯可选之境?制约AI安防芯片规模化应用的核心技术问题究竟是什么?
作为计算机视觉落地较快的领域之一,安防赛道有一个基本封印的现实需要承认:
海思之外,尚无一款足够优秀且合适的安防前端通用芯片,也尚无一款足够适用安防后端的AI芯片出现。
那么,做一款比肩海思产品线的芯片难在哪儿?换句话说,一款「成功」安防芯片的自我修养是什么?
首先,从应用角度出发看看这个问题。
眼下,不同玩家们大多都会基于自身资源及优势,选取业务、性能、生态等方向作为突破点。
但,造芯之难,除了考察纸面理论、战略打法外,还需解决一道又一道的实际挑战。
一、安防市场极度碎片化,且做到500万片以上的出货数量才有成本优势;
二、前端、存储、产品开发、组织建设,都需要相应时间做充足积累。
一款好的芯片,一定需在实际场景中打磨迭代而出,缺乏经年累月的正向打磨,很难沉淀AI工程化交付能力。
衡量一款芯片是否达到AI工程化交付能力,考察最明显的算力之外,还需从端侧、云侧分开验证几个重要指标。
诚然,算力实为衡量AI芯片指标的重要因素之一。
时间拨回2014年,人工智能落地刚刚兴起,端侧AI芯片算力仅有0.2Tops,云侧AI芯片算力仅有5Tops;如今端侧AI芯片算力已经达到4Tops以上,云侧AI芯片算力也已达到256Tops以上。
但仅看算力指数显然远远不够。于端侧,安防芯片考察本身竞争力、集成方式、开发工具成熟度与易用性、功耗与价格等。
一是安防芯片本身竞争力。
安防端侧一直用得是安防专用芯片,并不存在通用芯片。即使AI时代,端侧芯片首先需要的是有竞争力的安防芯片,其次才是在这基础上叠加AI算力。
譬如,OS、安防SDK、ISP、编码皆重要非常,这对芯片厂商提出的综合要求明显提高,需要具备完整能力的芯片。
端侧芯片,虽然体积小、价格低,但系统复杂度、技术难度丝毫也不低。
二是AI芯片与安防芯片的集成方式。
前些年,AI落地端侧,采用的是在主芯片边上加一颗AI协处理器,即两颗芯片的方式。
如今,合二为一的方案已是主流,在系统复杂度、成本、功耗上都更有竞争力,实现过程也更加复杂。
三是开发工具成熟度与易用性。
芯片的软件开发工具非常重要。譬如,是否支持Caffe、Tensorflow、Pytorch等主流深度学习框架,相关工具是不是易用、稳定,对于AI应用开发者来说都非常重要。
如果开发工具不成熟或不易用,很容易就会被开发者抛弃。
四是功耗与价格。
端侧设备,对功耗和价格都非常敏感。
云侧芯片则对解码能力、大数据并发效率、开发工具成熟度与易用性、功耗以及价格要求较高。
一是解码能力。
云侧芯片处理的是经过编码的图片或视频,需要持续解码。
在芯片设计上,需要内嵌专门的硬解码模块,不占用AI算力;另外,解码能力上必须不能低于AI处理能力,不然解码就会成为瓶颈。
二是大数据并发效率。
现在云侧芯片的AI处理能力非常强,所以大数据并发交互的效率非常重要,大数据并发效率决定了AI算力实际能发挥多少。
三是功耗与价格。
云侧芯片在这方面虽然没有端侧芯片那么敏感,但低功耗与低价格永远都是用户的诉求。
其次,从技术角度看看这个问题。
安防领域存有大量的算法需要前置,而目前的算法训练基本还是基于后端的深度学习模型。
此外,安防行业还需实时处理大量连续图像数据流,数据处理在于两大维度:一、每秒处理帧率要越来越高;二、图像分辨率要越来越高。
两大维度之下,安防对于端侧芯片提出了一些要求。
针对已经入场的大小玩家,分析他们的产品形态,大致可以分为两种:一是针对特定应用的SoC;二是通用加速器做独立芯片。
应用安防市场,SoC面向专用市场,在芯片中深度学习加速计算事实上只是一部分,而其他大部分芯片面积则交给了主控处理器、视频解码等模块。
终端通用深度学习加速器芯片市场的应用则刚起步,大多公司的市场布局主要在试错的同时,培养开发者生态。
同时,从业者们也逐渐发现,芯片中最为关键的其实并不是单纯提升算力,如果不进行存储优化,那么芯片实际提供的计算力会大大降低。
若想突破AI芯片的瓶颈,并不能只是简单的增加计算算力,而是一定要把数据存储管理做好。对于存储问题的解决,仍是一个探索中的新方向。
AI芯片对于传统芯片带来的挑战,并不只是计算架构上的,更多是在存储架构间的。
传统芯片采用的是冯·诺依曼架构,其核心架构中计算模块和存储单元是分离的。CPU和内存条并不集成在一起,只在CPU中设置了容量极小的高速缓存。
也就是说,CPU在执行命令时必须先从存储单元中读取数据。每一项任务,如果有十个步骤,那么CPU会依次进行十次读取,执行,再读取,再执行…
这就造成了延时,以及大量功耗花费在数据读取上,这一问题也被称为传统芯片的内存墙问题。
而在AI应用中,冯·诺伊曼瓶颈问题显得愈发严重。
AI依赖的算法是一个庞大和复杂的网络,包含很多参数需要存储,也需要完成大量的计算,这些计算中又会产生大量数据。
在完成大量计算的过程中,一般芯片的设计思路是大量增加并行的运算单元,例如上千个卷积单元,需要调用的存储资源也在增大。
不夸张地说,AI初创芯片公司虽然采用不同的路径打造芯片,但事实上都在努力对这一问题予以解决。大部分针对 AI,尤其是加速神经网络处理而提出的硬件架构创新,都是在与这个问题做斗争。
如何解决这一问题呢?目前解决方法有以下几种:
较为常见的方法是加大存储带宽,采用高带宽的外部存储;二是从算法入手,设计低比特权重的神经网络。
除此之外,存算一体化也被看做是未来的发展方向,在实现上也分为不同的路径。
其一是SSD中植入计算芯片或者逻辑计算单元,可以被叫做存内处理或者近数据计算,这其实是深度学习的一种应用场景,并非是AI芯片架构的创新。
另一种就是存储和计算完全结合在一起,使用存储的器件单元直接完成计算,比较适合神经网络推理类应用。
也有人不太认同存算一体的处理方式,探境CEO鲁勇认为,这样做的成本太高,并不符合市场需求。
“存算一体的处理方式,其实违反了芯片中的成本结构。芯片中,之所以设计和区分片上的缓存SRAM,及片外的DRAM,就是因为如果所有存储都放入芯片内部,成本就大幅上升,会上升几十倍到上百倍。”
就此,他们提出了SFA(Storage First Architecture,简称SFA),即存储优先架构。
与通常计算的先有计算指令然后提供数据相反,SFA架构考虑数据在搬移过程中做计算,也就是由数据带动计算而非由算子带动数据。
这一点与AI大神Lecun所宣称的所有的神经网络都是图计算问题不谋而合。那么打破传统冯·诺依曼架构,自研存算一体架构的依据是什么?
这可以谈到人类大脑的存储和计算方式。从生物角度讲,大脑存储大量的知识,能够快速提取并访问,而大脑的内存和计算并不是分开的,更多的是存在一定的相容性。
因此,未来的计算机可能不是基于计算的存储,而是基于存储的计算,更多做到融合。不过,因为当前芯片领域对于AI算法的关注还较多,针对AI的结构改进尝试还偏少。
过去几年,不少企业针对安防领域纷纷宣布流片之喜,但似乎还未出现强势的对传统芯片的替代或继任者。
从大环境来看,国内虽有不少公司关注对AI芯片的底层架构的研发,但更多只追求有、不追求好,用拼凑的方式做芯片。
甚至于,不少玩家为了顺应市场形势,将自己包装成一个AI芯片公司,给市场徒增泡沫。
同时,国内AI芯片企业,眼下普遍缺乏后端设计人才,后端设计相对于前端逻辑设计,更多涉及到芯片的工艺,也相对更需要丰富的经验。
由此,很多厂商会通过外包的方式做后端服务,来完成生产。这对芯片厂商来说,其实是一个很大的竞争劣势。
针对安防缺芯之话题,此前AI掘金志也采访了多家有着不同创新路径的芯片企业,他们或从优化芯片的计算、存储架构入手,或选择做软硬一体,或着眼于摄像头中的ISP、编解码芯片。
对于AI安防芯片要解决的主要问题和创新路径,企业家们有着共识,也有各自不同的选择和看法。
触景无限副总裁陈勇:做芯,软硬件耦合是关键
做一款AI安防芯片要从全栈解决方案出发,不仅仅只有芯片,还要有比较完善的软件生态来耦合这个芯片,这样用户才比较容易、也能动态部署符合他们需求的方案。
另一个点是芯片的算力能效,芯片不能只单单提供算力,还要在满足应用算力要求的前提下消耗最少能量。
我觉得,这两个方面对于AI安防芯片来说最重要。
触景无限做芯片就是为了让自己的算法和工程经验找到一个更好耦合的练兵场,达成软硬件的协同优化,更好地实现前端感知。
以前,我们发现AI加速只是前端落地应用需求的一个点,打磨很长时间的AI加速芯片产品,用在前端的效果还是不够好。
就像一条公路,AI芯片的集成像是铺上了柏油,但车辆通行时除了对于路面的高要求,还有对于路牌、路标、服务区的需求,而这些在实际过程中,都没法得到很好的满足。
在芯片具体研究中,我认为,对AI 安防芯片来说,由于多层神经网络的应用,如何做到各种神经层中间的高效数据传输是一个难点。
另外,我们认为虽然在摄像头内,主控芯片很强势。但AI协处理器有它独有的灵活性和高效性,并不能简单地被主控芯片集成。这种通用性和专用性的取舍会一直存在,而这也是AI协处理器存在的机会。
探境科技CEO鲁勇:芯片的数据存储管理要做好
安防领域的数据特点,其实主要在于需要实时的处理大量连续的图像数据流。
第一是每秒处理帧率要越来越高,第二是图像分辨率上要高。在这两个维度上,安防对边缘芯片提出了要求。
原先很多安防厂商采用Movidius的芯片实现前端智能,但我们认为它并不是非常适用于安防前端。不过Movidius的火爆,恰好说明了市场对边缘端芯片的强大需求。
我的看法是,要突破AI安防芯片的瓶颈,并不能只是简单的增加计算算力,而是一定要把数据存储管理做好。
传统芯片中,采用的是冯·诺伊曼架构,计算模块和存储单元是分开的,“内存墙”问题很严重。而AI依赖的算法是一个庞大和复杂的网络,有很多参数要存储,也需要完成大量的计算,需要巨大存储容量,高带宽、低延时的访存能力。很多AI初创芯片公司,实际上都在努力解决这个问题。
而我们的思考是,不能采取通常的先有计算指令然后提供数据的方式,应该从存储子系统的优化入手,让数据在存储之间的搬移过程之中完成计算。
这也可以叫做“基于memory的计算”,而不是“基于计算的memory”。
当前芯片领域对于AI算法的关注还较多,针对AI的结构改进尝试还比较少。之后,memory与computing结合的尝试,我相信会是一个好的方向。
华夏芯CEO李科奕:提升AI芯片的易用性
现在的安防市场上,已经出现了很多前端的AI加速器,但实际它们在应用上,还存在一些问题。
第一是价格太高。第二是可编程性不足。原先的通用芯片CPU很容易能实现编程,但AI加速模块中并没有指令集,无法编程,需要手工去调整。
在安防领域也是一样,厂商普遍反映的,不是AI芯片的性能,而是无论AI初创企业,还是传统大厂设计的加速器都很复杂,AI加速器很难被用起来。
一般来说,通用芯片难以负荷对计算的高要求,AI专用芯片则在可编程性、灵活性上有所欠缺。目前应用较多的集成度高的Soc,将不同计算架构芯片集成在一起,需要多套编程程序,运行就容易带来问题。这也是安防芯片厂商们,尤其是在安防前端应用上面临的难题。
而业内目前看好的一种方式,就是将不同的芯片架构结合在一起,这就是“异构计算”。
异构计算的长处在于,能实现比较好的适应性和灵活性,在通用性和专用性上达成一个折衷。既能高效的处理数据,又能相对保证算法的及时更新和迭代。这也是我们在探索的一个方向。
现在在安防、自动驾驶等这些边缘端的市场,对芯片的综合要求非常高。芯片需要处理的数据量很大,同时对于性能、性价比、性能功耗比要求也很高。
但我们看好这些新兴市场,因为边缘端的需求量很大,而且相对于手机、云计算、PC端等这些已经很成熟的市场,给了芯片厂商更多创新,和在新市场中占据位置的机会。
欣博电子CEO梁敏学:很多AI安防芯片是同质化的
对于AI安防芯片来说,我认为“芯片+算法”的整合是最重要的。而对于具体一款芯片,最主要的指标应该是价格和稳定性。
芯片是“硬”的,算法是“软”的,如何能将两者更好的结合起来,这就需要加强芯片对底层运算加速算法的适应性。
现有芯片的问题,从技术角度来说,对前端的AI芯片算力的要求,对存储问题的解决,都很重要,都需要靠算法和芯片架构一起来改善,比如说现在的算法就还比较耗带宽。
再具体应用上,我认为AI安防芯片在安防摄像头中作为协处理器,目前已经被主控芯片集成了,所以单纯提供AI加速器并不占优势。
而我们所做的,是开发编解码能力、加密及AI能力三合一的芯片,为摄像头提供安全加密。这也是我们相对于其他芯片厂商不同的一点。
从行业角度来说,现有AI芯片在安防行业应用落地上的主要问题,其实是同质化。
很多AI芯片厂商产出的芯片并没有太大差别,一方面很多芯片达不到现有安防行业对前端AI芯片的要求,一方面又容易陷入芯片同质化竞争。
现在的安防芯片格局下,其实已经存在垄断的生态,有大的行业玩家存在,那么做AI安防芯片如何找到自己的价值点,并做到差异化还是最难的。
人人智能CEO王海增:芯片行业很残酷,遵循二元法则
AI芯片前两年很热,“热”的同时,也让市场很浮躁,去年一年,业内就推出了十几款AI芯片。
但在安防和芯片领域摸爬滚打多年,我们的看法是不去做纯碎的单一芯片,而是做融合芯片、算法和系统的FaceOS视觉中间件,用在人证比对等。
在我看来,市场上可能只需要一款主流产品。芯片行业是很残酷的,有个二元法则,就是老大吃肉,老二喝汤。老三、老四可能找不到名字。
综合来说,我还是比较看好华为海思。在安防视频芯片的领域,有华为海思这样的对手存在,做视觉智能芯片几乎没有太多机会,这一事实很难改变。
之前,我们对比过这些芯片,发现芯片从高端到低端系列,海思的芯片布局很完整,渠道健全,而且功能几乎比现有的几个AI芯片厂商都更加领先,优势很明显。两三年前,我们能看到这个市场很大,但不知道谁能跑出来,现在回过头来再看,我们依然觉得海思跑的更靠前了。
另外,AI芯片领域虽然一直在谈创新,但实际上,真正的创新还尚未到来。
算法的底层架构,如TensorFlow、Caffee等方面几乎都是采用国外的架构。
底层的算法上面,国内几乎还处于空白。这涉及很多基础数学的问题。就像谷歌谈张量计算芯片,是发觉了卷积使用的张量计算的模型和传统模型不同,所以需要设计芯片设备,适应它的模型,这是算法型的创新。而且谷歌还发明了TensorFlow这样的主要架构。
这些在国内还都是空白。雷锋网雷锋网雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。