0
雷锋网按:“愿意被挑战”——这句话印在百度阳泉云计算中心控制中心的大屏上,彼时百度没想到一场“核弹”级别的大考就要到来,也不确信自己是否能拿到一份满分答卷,春晚对百度提出了或许是成立以来最严苛的考验。
百度阳泉云计算控制中心
抱着一探百度春晚背后硬核技术的心思,4月8日,雷锋网二度探访百度首个自建超大规模数据中心。
与去年9月相比,阳泉数据中心的基础设施变化并不大,对数据中心本身更关注的读者可以关注此前文章,不同的是,在这期间百度经历了春晚,在全球观众规模最大的节目发红包,春晚红包挑战者阿里和腾讯过去的春晚答卷也不甚圆满,没想到的是,百度顶住了这种级别的数据流量狂潮。
数据不会说谎,2018年春晚全球观众互动次数达到208亿次,春晚数据流量为每秒峰值5000万次,每分钟峰值10亿次,什么水平?大概是百度APP日常流量的成百上千倍,每位用户在百度APP上的每次点击,最终都会具现在某个数据中心服务器上的指令运行,数据中心就是数字化基础设施。
位于李彦宏老家的山西阳泉,百度建起了自家的首个超大规模数据中心,园区占地约360亩地,总建筑面积约12万平方米。如果要给百度阳泉云计算数据中心下一个准确定义,雷锋网会用“百度的AI基础设施试验场”来描述,百度最大的GPU计算集群就坐落于此。
百度AI计算集群
从2011年9月选址到2018年9月整体交付,历时7年,百度在这片试验田上线了不少相对激进的数据中心技术,某种程度上可以说比阿里和腾讯更甚。有句话叫“百度的技术,阿里的运营,腾讯的产品”,通过最近几年的变化,阿里和腾讯加大了技术宣传,百度以往重技术的对外印象并没有得到很好地体现,不过这并不代表百度技术的倒退。
起码在阳泉数据中心层面,雷锋网就看到了在其他数据中心很多不敢尝试的新技术,以往在第三方IDC不能实施,或者受限于厂房建筑条件,或者不能保证实施效果等等因素,百度较为先进的技术和设想并不能得到实际的应用。
百度阳泉数据中心鸟瞰图
是故百度就关起门来在自家的数据中心先“尝鲜”,熊掌造型的数据中心共分八个模组,分四批次进场实践,按照24、13、78、56的顺序,百度颇为大胆的创造了不少“首个”,比如世界首例采用市电+HVDC离线电气架构模式,首个将液冷技术应用到高功耗AI计算系统中的实例,首个应用光伏发电的模组等等。
在此前一文中,雷锋网也写道,百度阳泉数据中心突出在电气架构和空调末端的改变非常大,电气架构采用了市电+UPS、市电+HVDC在线、市电+UPS ECO、市电+HVDC离线四种模式,空调末端采用了水冷精密空调(CRAH)、AHU(Air Handle Unit,风墙冷却技术)、OCU(Overhead Cooling Unit,百度自研的置顶冷却单元,)和IDEC(Indirect Direct Evaporative Cooling,间接直接蒸发冷却)四种形式。
有道是实践出真知,在测试了一系列技术后,电源效率高达99.5%的市电+HVDC离线形式,与OCU制冷模式是目前阳泉数据中心的主流,加之高温服务器和运营调优等措施,阳泉数据中心一步迈进了百度AI时代。
系统前端的运营人员感知不到实体数据中心的变化,但是改变,实实在在发生在百度阳泉数据中心,百度阳泉云计算中心单模组年均PUE(电力使用效率,即数据中心总能耗与IT能耗之比。PUE值越接近于1,表示电力利用率越高)突破了1.10,达到1.09,这意味着该数据中心能源效率国内第一,比全国数据中心平均1.73的数据提升了88%,与国际领先的Facebook和谷歌相比也不逞多让。
另外,在环保和节能方面,阳泉数据中心每年可节电量可达2.5亿度,相当于13万户居民一年的用电量,百度在其中一个模组屋顶安装了太阳能电池板,光伏发电即发即用,还采购了大量风电清洁能源;污水回收再利用技术也是环保节能的一个体现,8个模组均有污水回收再利用系统,百度将排污进行收集,应用超滤和反渗透技术,除去水中的氯钠钙镁等离子,回收效率能达到50%,每年回收48万吨水量,相当于四千户家庭一年的用水量。
百度系统部总监张炳华
百度系统部总监张炳华表示,百度在云计算、大数据及人工智能领域拥有行业领先的技术优势,百度拥有的多个超大规模的数据中心、数十万台服务器、超大规模GPU集群,通过网络高速互联构成了强大的算力平台,定义了AI时代的基础设施标准,并为百度AI技术多年积累和业务实践的集大成——百度大脑提供了强大的算力平台。而算力平台之上的百度大脑,则为百度的AI业务提供了强有力的算法和数据支持。
在雷锋网看来,百度之所以能将春晚打造成一个标杆案例,是因为其一直处在“春晚”的进行时。从基础设施层的角度,百度要保证所有数据中心一起抗住高并发流量,有足够的算力冗余支撑且不出现故障。与百度云和百度AI,以及百度自身的业务的需求何其相似,百度在此前一直遵循高标准打造健壮的基础设施,区别就在于规模的大小不同。
1月6日,百度阳泉数据中心从内网知晓百度成为春晚红包的供应商,次日即收到重点春晚红包保障红包任务。时间紧,今年的春晚红包招标比往年晚了一个多月,留给百度的时间也只剩不到一个月的时间,具体到确定增加服务器环节,是从任务开始的第二周和第三周;任务重,阿里和腾讯这个量级的巨头都曾遭遇宕机,春晚红包“玩”好了是故事,“玩”不好就是事故。
阳泉云计算中心立刻启动预案,组织了多天的运维大检查,排除哪怕是一丝一毫的隐患,涉及到重保服务器的部分更是细致入微。经过计算,阳泉数据中心必须增加服务器才能完成既定任务,“2周内增加数千台服务器,上万台服务器运行方案的调整,重保机柜的供电......”
百度阳泉数据中心大规模部署的天蝎整机柜服务器
即便阳泉数据中心几乎全采用整机柜服务器,不用在数据中心现场拼装,省时省力,但是两周内数千台服务器仍然是高难度任务。好在2012年开始规划设计时,百度就决定取消架空地板的设计,全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计,在服务器厂家出厂的时候,服务器机柜里已经安装部署满了服务器节点,直接把整个机柜推进去就可以进行测试上线。
对于AI,我们经常关注上层炫目的操作,基础设施的重要性往往被低估了,AI时代,越来越多的企业将会智能化升级,更多的复杂的生产环节需要数字化,这对于云计算中心则提出了更高的要求,需要更强的计算能力,以及能够提供针对性的定制化解决方案。
百度阳泉云计算中心可以为百度智能云、百度App、百度地图、智能城市、小度、Apollo等百度内外部的产品和厂商提供强劲的计算能力。2018年1月该中心第10万台服务器上线,阳泉数据中心也成为国内首个单体规模突破10万台的数据中心,目前已上线服务器超过15万台。
业内技术领先的天蝎整机柜服务器、“冰山”冷存储服务器(主要应用是百度网盘)、X-MAN超级AI计算平台等多种百度自研计算系统,都在此上线,其中2017年上线的X-MAN 2.0,是国内首个采用液体冷却技术的GPU解决方案,实现了超高的散热效率,规模应用后,可以全面去除制冷机组,全面实现无冷机运行。
雷锋网还了解到,百度阳泉云计算中心使用百度自主研发高性能交换机,提供超大规模的网络吞吐,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms,从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms。
百度智能云产业智能化业务负责人李硕
百度智能云产业智能化业务负责人李硕介绍,在超强算力的支持下,作为百度决胜AI时代重要组成部分的百度智能云,一方面为百度自身业务提供了强大的智能云计算服务,承载了多款用户量过亿的产品、服务和解决方案,如搜索、信息流、视频流、百度地图和智慧城市、小度、Apollo等。
同时,百度智能云也正在向各行业伙伴提供全栈ABC+IoT产品与解决方案。目前,百度实现了在金融,互联网,媒体,娱乐,教育,公共安全,交通,能源,运营商等多个重要产业的智能化立体布局,为社会各行业提供最领先的云计算,最开放和安全的大数据和最落地的人工智能解决方案。
百度春晚红包项目涉及数十个产品和平台,110+种场景,280+个预案,百余团队参与,上千人协同,平均每天新增需求和任务千余个,自动化测试上万次。
百度内心OS:没想到吧,我才是扛住春晚流量的第一家互联网公司。
相关文章:
不吹不黑!年均PUE 1.1的百度首个自建超大型数据中心是什么水平?
雷峰网原创文章,未经授权禁止转载。详情见转载须知。