0
记录与存储,是人类文明永恒的话题。
从远古时代世界各地的人类不约而同在石壁作画后,信息的存储与传播开始刻进人类基因,并经历了万年的进化。
从结绳记事、甲骨文,到竹简、纸张,再到打孔纸、软盘、硬盘,到磁带、磁盘、光盘,一直演化到SSD/闪存,存储经历了脱胎换骨的变化。
几乎每一次数据存储的变革,都伴随着人类社会和经济发展的飞跃。
过去,在各类高科技、热门赛道中一直是计算站在聚光灯下,存储常被忽视。
但外界的忽视并不妨碍其“黄金配角”的地位,无论曾经的元宇宙,还是AIGC,亦或是“当红炸子鸡”大模型,在任何一个时期最热赛道的底层,都能找到存储。
阿里云,也开始了存储领域底层技术的攻池略地。
在云计算时代,算力、网力、存力,共同构筑了云计算的基础。随着云上业务的迅猛发展,通用算力和AI算力以指数级迅速增加,网络从25G、100G、200G、400G快速演进,并将进入800G时代。而以SSD为代表的存力,同样面临了新的挑战和诉求。
以大模型训练为例,数据规模大、训练时间长,DL网络层多、连接多,每层都需要存储权重、偏置阐述,激活函数、输入输出数据、模型结构等都需要存储,这就对存储带宽和I/O性能提出了更高要求。
训练大模型的几个难点,本质上都是围绕如何利用好数据这一核心命题展开。台前,是热火朝天的大模型“百模大战”,台后,是算力和存力的底座在嗡嗡作响。
算力是生产力,存力亦是。
市场对于存储的技术创新需求呼之欲出,存储产业需要软硬件全方位的技术升级。
计算机有三大核心存储部件:闪存芯片(数据的最终存储地)、内存芯片(用于暂存SSD内的众多管理表项、数据缓存)、SSD主控芯片。
而SSD主控芯片是SSD的大脑,负责主机交互、协议解析与执行、数据读写、数据纠错、数据管理、后台任务、带外管理。换句话说,SSD的功能、性能与可靠性均由其实现。
作为一颗为云计算场景定制的芯片,镇岳510在性能、时延、能效和可靠性等关键指标方面,均达到业界第一梯队水平。其每秒可处理高达340万笔IO,这一数字意味着一颗镇岳510的性能,相当于1万块高性能HDD的性能总和。在时延方面,镇岳实现了业界领先的超低的时延(4μs),比业界SSD降低30%以上;在可靠性方面,平头哥同样注入了创新技术,其自研的高性能LDPC纠错算法,让编码效率逼近香农极限,直接把数据恢复的可靠性再优化了一个数量级,每读取百亿亿笔数据,才可能有一笔数据纠错失败。
这样的纸面实力不仅仅是这颗芯片进入SSD主控芯片市场的敲门砖,在新旧技术更迭之际,更有望成为数据中心存储芯片领域的新选择。正如平头哥产品总监周冠锋所说,这是镇岳510入局的最佳时机。
阿里云盘古是伴随阿里云飞操作系统诞生的,过去十几年经历了多次技术演进,并经历了十多年双11的淬炼,是阿里巴巴的数据存储底座,同时也支撑了阿里云各类存储服务产品。
而这一阶段的盘古在存储架构、分布式数据冗余算法、运维管控等技术上一是成果斐然,但在底层硬件上更多的是采用行业标品。
阿里云资深技术专家吴忠杰告诉雷峰网(公众号:雷峰网),之前用通用硬件做云计算、云存储,定义的硬件不是围绕云计算使用的方式去,效率不是最佳。
以SSD为例,设计之初,需要兼容传统HDD盘的使用模式和各种软件的使用习惯,SDD提供的接口也需要与HHD盘保持一致。
为此,平头哥需要在SSD内部做一个极其复杂的FTL,以维护映射表,模拟快设备的接口给上层的分布式系统。
但传统存储往往是单一应用,而云计算平台,单个节点所承受的IO规模比传统的更大。
如果再采用传统的网卡、硬件以及TCP/IP协议栈来去做阿里云的存储系统,CPU将处于不停处理中断、解包、TCP/IP协议栈的状态,效率只会越来越低。
传统的方式下,IO是一个瓶颈点。
此外,行业标品的合作流程,是阿里云提交一些需求清单,但厂商能不能满足这些需求,是未知数。
开发环节,双方配合并不深入,这些需求未来可能会出现在发布的产品里,也可能不知道在哪个环节,因此,产品交付到云团队后会暴露大量问题。但那时候所有的设计已经落地,无法返工,只能在下一阶段进行迭代和修复,如此,整个周期拉得非常长。
随着云计算承载的业务规模越来越大,行业通用标品已经难以全满足云计算数据中心场景下对超大规模、需求多样、高性价比、安全可靠以及软硬件一体化等方面的要求。
换句话说,云计算已经在定义硬件。
海量数据、业务多样背景下,云计算对于软硬件一体化的系统实际上提出了更高的要求。
在云存储领域,需要从芯片层面就进行深度的定制化,以此来解决各种复杂场景下的兼容性问题。
镇岳510,正是云定义硬件的产物,也是一款为云而生的存储主控芯片。
云定义硬件之所以能破除IO瓶颈,是因为它基于垂直、端到端的视角,根据上层软件的工作,结合硬件接口、使用方式等硬件的特性去设计,如此,无论是功耗还是IO效率,亦或是NAND Flash的插储和性能,端到端的整体效率能能达最优,减少了大量无用功。
阿里云与平头哥之间,无论从早期的需求阶段还是开发过程,双方最大程度进行了协同。“怎么样结合上层的存储系统去定义底层芯片的行为,有什么功能是需要卸载到盘内部的,又有哪些功能是我们在系统可以为SSD做减负的,我们在需求定义阶段为此花费了很长时间。”吴忠杰表示。
这种端到端的协同设计,以云定义硬件的模式,极大地提升了芯片开发整个环节的效率。
镇岳510的诞生则意味着,其打破了这一结界,用软件定义全新的硬件,让底层硬件向前迈进了一步。
阿里云并非为了硬件而做硬件,而是从全栈角度考虑,重新定义硬件与软件之间的边界,边界之间如何进行相互协调,让整体的效能达到最优。
这也是阿里云和传统分离的数据中心、分离的数据机房所更具有价值的核心点。
镇岳510作为平头哥旗下第一颗SSD主控芯片,云开始与底层芯片全方位融合联合设计,强大的技术积累下,极致的性能,复杂负载下的稳定时延,更优的TCO,更高的存储密度,更先进的接口,给用户提供更好的体验。
软有盘古,作为自主研发的中国首个分布式云存储系统,让存储更加稳定可靠、拥有更大的容量和更高的性能。
硬有镇岳510,更强存力、更高可靠等特点,还通过为云定制,带来更优秀的存储体验,阿里云的存储系统也实现了硬件能力的跃迁。
面对数字经济对海量存储和快速存储的需求,阿里云的存储后备军软硬综合实力一流,在存力竞争上已经领先一个身位。
如果说数据是核心生产要素,负责为数字经济的各种场景应用提供源源不断的“生产资料”的存力,就是数字经济的底座。
高并发互联网应用、万亿参数的大模型井喷和爆发的时代,云计算被公认为最核心的基础设施。而未来十年,决定云计算实力的不仅仅是规模,软硬件一体化的自研计算体系才是云服务商的立身之本,只有在计算、存储、网络等核心技术和产品的研发上持续创新才能抢占定义权。雷峰网雷峰网雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。