0
由于人工智能加速器、图形处理器和高性能计算应用程序需求量持续激增,高带宽内存(HBM)的销量正在飙升。
人工智能浪潮引发的资本市场对于大语言模型生态的投入使HBM常常处于断货状态,因为HBM是创建大模型所需数据的首选储存器。并且,为了提升性能而打造的多层高密度构造以及SRAM(静态随机存取存储器)面临的限制都将市场对HBM的需求推到了更高的维度。
Rambus高级副总裁兼硅IP总经理Matt Jones表示:“随着人工智能训练模型的不断扩大,对于硬件层面的性能要求也在不断提高,这就要求内存的创新解决方案,为了确保人工智能的持续增长和进步,业界必须继续克服内存带宽和容量方面的障碍。”
这种势头很大程度上由先进封装推动,在许多情况下,先进封装可以提供比系统级芯片SoC更高效的数据路径。日月光半导体(ASE)投资者关系主管Ken Hsiang在最近的财报电话会议上表示:“前沿封装正处于爆发的前夜,无论是人工智能、网络还是其他正在研发的产品,对先进的互连技术的需求非常强烈。”
HBM与先进封装高度契合。三星半导体副总裁兼DRAM产品规划主管Indong Kim在最近的一次演讲中表示:“HBM定制将迎来一波大浪潮,人工智能基础设施的发展需要极高的效率和扩展能力,我们与主要客户一致认为,适用于人工智能产品的定制化HBM将是关键的一步。功率,性能和面积(power, performance and area,简称PPA)是人工智能解决方案的关键,定制将在PPA方面提供重要价值。”
过去,经济效益严重地限制了HBM被广泛采用。 硅中介层(协助上下层节点进行信息交换)价格昂贵,而在前道工序(FEOL)的存储单元之间处理大量硅通孔 (TSV,穿透硅晶圆或芯片的垂直互连技术) 同样成本高昂。日月光半导体的工程和技术营销高级总监曹立宏表示:“随着高性能计算、人工智能和机器学习带来的需求增加,中介层的尺寸也显著增加,高成本是其面临的主要缺点。”
虽然这限制了它在大众市场的吸引力,但对成本不太敏感的应用(如数据中心)仍表现出强劲的市场需求。HBM的带宽是任何其他存储技术无法比拟的,硅中介层的2.5D集成已经成为事实上的标准。
但客户是贪婪的,他们永远在追求更好的性能,这就是为什么HBM制造商在不断改进凸块材料和成型材料,实现从8层到12层及16层DRAM的飞跃,从而能够以闪电般的速度处理数据。HBM4的数据处理速度将在HBM3E的基础上有很大的提升,而实现这一目标的主要策略是将数据线的数量从HBM3的1024条增加到2048条。
在全球市场中,有三家主要的公司生产HBM内存模块,即美光、三星和SK海力士。虽然他们都使用TSV和微凸点技术(在集成电路封装过程中用于实现芯片间互连的微型连接点),将DRAM堆栈和配套设备集成到先进的封装中,但每家公司采用的方法略有不同。三星和美光在每个凸块层都加入了非导电薄膜(NCF,该薄膜是一种聚合物材料,用于使芯片彼此绝缘并保护连接点免受撞击)及热压键合(TCB,焊接工艺,将芯片与基板固定在一起)技术。而SK海力士则继续采用倒装芯片大规模回流工艺的模塑底部填充(MR-MUF)方案,该工艺可以将堆栈密封在高导电性成型材料中。
HBM的垂直连接是使用铜TSV和堆叠DRAM芯片之间的缩放微凸块来实现的,下部缓冲器及逻辑芯片为每个DRAM提供数据路径。产品的可靠性问题很大程度上取决于回流、粘接和模具反磨过程中的热机械应力,而识别潜在问题需要测试高温工作寿命(HTOL)、温度湿度偏差(THB)和温度循环,可以通过采用预处理、无偏湿度和压力测试(uHAST)来确定各层之间的粘附水平。此外,还需要进行其他测试,以确保长期使用中不会出现微凸块短路、金属桥接或芯片和微凸点之间的接口分层等问题。混合键合是替代HBM4代产品微凸块的一种选择,但前提是满足产量目标。
另一项正在研发的技术是3D DRAM,其参考3D NAND闪存技术,将存储单元进行翻转。三星的Kim表示:“3D DRAM堆叠将大大降低功耗和占用的面积,同时消除来自中介层的性能障碍,内存控制器从SoC移到基础裸片(晶圆经过切割测试后没有经过封装的芯片)将为人工智能提供更多的逻辑空间。我们坚信定制HBM将实现性能和效率双双提升,紧密集成的内存和代工能力将为大规模部署提供更快上市及更优质的产品。
这里的总体趋势是将逻辑组件移动到更靠近内存的地方,以便在内存中或内存附近执行更多的处理,而不是将数据移动到一个或多个处理元素。但从系统设计的角度来看,要实现技术的落地还面临很多困难。
Lam Research高级封装技术总监cheping Lee表示:“这是一个激动人心的时刻,人工智能如此火热,HBM可以储存一切,各家存储器制造商都在争分夺秒地率先生产下一代HBM。”
关于下一代产品HBM4, JEDEC(固态技术协会)正忙于制定这些模块的标准。同时,JEDEC将HBM3E标准的最大内存模块厚度从720mm扩展到775mm,这仍然适用于40μm厚的芯片。HBM标准确定了每针传输速率、每个堆栈的最大芯片数量、最大封装容量(单位为GB)和带宽等参数。标准的设置使得设计和流程得以简化,从而帮助HBM产品以更快的速度进入市场,现阶段为每两年进行一次产品的迭代。即将推出的HBM4标准将定义24Gb和32Gb层,以及4层、8层、12层和16层高TSV堆栈。
HBM的进化史:对工艺和带宽的极致追求
高带宽内存的发展可以追溯到2008年,最初的研发愿景是通过这款产品解决计算内存面临的功耗和占用面积增加的问题。
三星电子的Sungmock Ha及其同事表示:“当时,作为最高频段DRAM的GDDR5,其带宽被限制在28GB/s(7Gbps/引脚 x 32个输入/输出端口)。”而HBM Gen2的出现使技术实现重大的提升,通过将输入/输出端口的数量增至1024个,在不降低频率的情况下,成功实现了307.2GB/s的带宽突破。
从HBM2E开始,厂商通过采用17nm高K金属栅工艺( 利用高K介质材料代替常规栅,可以有效解决多晶栅极耗尽问题),达到每引脚3.6Gbps,带宽460.8GB/s。而目前HBM3新推出了每引脚6.4Gbps的传输速率,实现8到12个芯片堆叠,与上一代相比带宽提高了约2倍。
这只是故事的一部分,HBM还一直在向处理技术靠拢,以提高性能。
大规模回流焊是最成熟和最便宜的焊接方案。Amkor的工程和技术营销副总裁Curtis Zwenger表示:“大多数情况下,都会采用大规模回流焊技术,因为设备安装的资本支出很大,但后续的生产成本相对较低。这项技术为将芯片与高端模块连接到封装基板上提供了一种经济实惠且高效的方式。不过,随着对性能的需求不断提升,以及异构集成(指将多个不同工艺节点单独制造的芯片封装到一个封装内部,以增强功能性和提高性能)模块和高级基板解决方案空间的日益扩大,其导致的后果是异构集成和基板的翘曲程度加剧。而热压技术和R-LAB(反向激光辅助键合)作为传统大规模回流焊的工艺升级,可以更好地处理翘曲问题。”
微凸块金属化工艺通过优化后,可以提高可靠性。如果微凸块与焊盘之间的连接采用传统的回流工艺,并且其中含有助焊剂和底部填充材料,则填充的空隙和剩余的助焊剂残留可能导致凸块之间夹带的形成。为了解决这些问题,预涂非导电薄膜(NFC)被广泛采用,其可以在一步键合工艺中取代助焊剂、填充材料和键合步骤,并且不会产生夹带。
三星每一代产品都会增加NCF材料的厚度,NCF本质上是一种环氧树脂,含有固化剂和其他添加剂。这项技术带来很多好处,特别是在更高的叠层上,因为业界正在努力减轻芯片裸片变薄带来的芯片裸片翘曲问题,而其优化的点在于完全填充凸点周围的底部填充区(为凸点提供缓冲),使焊料流动,避免空隙产生。
SK海力士从HBM2E产品开始,就将大规模回流模塑底部填充技术改为NCF-TCB。其导电模具材料是与材料供应商合作开发的,可能使用专有的注射工艺,这一技术使得SK海力士实现出色的晶体管结温控制。
HBM中的DRAM堆栈被放置在缓冲芯片上,由于各家公司都在努力将更多的逻辑应用到这一基础芯片上以降低功耗,同时还将每个DRAM内核与处理器连接起来,使缓冲芯片的功能在不断增加。每个芯片都被挑拣出来并放置在载体晶圆上,然后回流焊,最后堆叠成型,经过背面研磨、清洁和切割等工序打造出产品。台积电和SK海力士宣布,晶圆代工厂今后将向内存制造商提供基础芯片。
新思科技研发总监Sutirtha Kabir表示:“逻辑存储器始终是市场关注的焦点,尽管这个领域在此前就已经被研究过。但每一种解决方案都将在电力和热能方面面临挑战,这两者是密切相关的。直接影响是热应力(由于温度变化引起材料内部或外部产生的应力),这不仅局限于组装层级,对整个系统都会产生影响。由于可能会使用混合键合或者细间距键合技术,热问题对机械应力的影响更值得探究。”
此外,基础逻辑产生的热量也会在逻辑芯片和DRAM芯片之间的接口处产生热机械应力。由于HBM模块的位置靠近处理器,来自逻辑芯片的热量不可避免地传导到存储器内。SK海力士的高级技术经理Younsoo Kim表示:“我们的数据显示,主机芯片温度每升高2℃,HBM的温度至少会升高5-10℃。”
NCF-TCB工艺同样面临挑战。在高温高压下发生的热压键合会导致2.5D组装出现问题,例如凸起与底层镍垫之间的金属桥接或界面分层。另外,TCB本身的产量也相对较低。
对于任何多芯片堆叠而言,翘曲问题与表面材料的膨胀系数(TCE)不匹配有关,在加工和使用过程中,这会导致温度循环产生应力。应力通常集中在一些关键部位,比如在基础裸片和第一个内存芯片之间,以及微凸块层级。产品的仿真模型可以帮助解决这些问题,但也有部分问题只有在实际产品应用中才能充分体现其带来的影响。
人工智能应用的运行依赖于对DRAM芯片、TSV、集成基本逻辑功能的芯片和多达100个去耦电容器的成功组装和封装。与图形处理器、CPU或其他类型处理器的结合是一个精密设计的组装工程,需要所有组件实现有机契合,以形成高产且可靠的系统。
随着行业从HBM3过渡到HBM4,制造高性能DRAM堆栈的工艺只会变得更加复杂。不过,供应商和芯片制造商也在关注更低成本的替代品,以进一步提高这些高速和不可或缺的内存芯片堆栈的被市场采用。
本文由雷峰网(公众号:雷峰网)编译自:https://semiengineering.com/hbm-options-increase-as-ai-demand-soars/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。