0
本文作者: 李诗 | 2018-09-20 15:40 |
数据是人工智能(以下简称AI)技术的燃料,也被比喻为数据经济中的石油。在AI时代,数据的采集、存储、传输和处理需要强大的基础设施作为支撑。数据中心和数万台服务器成为互联网巨头的标配。
8月22日,今日头条与英特尔举办主题为“数据赋能,AI正当时”的战略合作发布会,会上,今日头条介绍与英特尔合作的超10万台服务器的大规模数据中心,同时双方宣布成立技术创新实验室,在大数据和AI方面进行更长远战略合作。
这两年,头条系产品用户量增长迅猛,要处理的数据也是呈指数级增长。
近日头条技术副总裁杨震原介绍,目前,今日头条每日数据处理量超过50PB、存储数据超过1500PB、评论系统每天的评论数大概有1亿条,需要大量的服务器来处理这些内容。
2013年3月字节跳动的服务器数量只有几十台,到年底增至一千台,此后便是上万台的增长。在2017年年初的时候,公司大概有2-3万台服务器,现在大概有17万台服务器。
今日头条对大型数据中心的需求是急迫的。杨震原介绍道,字节跳动花费了不到九个月的时间在怀来创建起了超大规模的数据中心。数据中心投入运营创立了国内多个第一,包括国内首个大平层预制数据中心,首个整体电源模块预制数据中心,首个大规模分布式数据中心,首个间接蒸发冷却模块数据中心。
雷锋网曾报道,今日头条在怀来的数据中心是第三方厂商秦淮数据定制的,投资60亿元,主要承载数据存储、挖掘分析、应用等数据交易生态体系和云服务生态体系,定位为国家级新媒体企业提供高可靠性的云计算服务。
字节跳动2016年初开始有新建数据中心的计划,怀来的基础设施相对不完善,但是潜力巨大。2017年12月字节跳动开始在怀来数据中心放置服务器,目前一期园区约5万台服务器已经投入使用,正在紧邻一期园区建设二期,规模增加一半但预计工期相同,大概能容纳9万台服务器。
今日头条的服务器100%采用最新的英特尔至强可扩展处理器(Purley)平台,基于Purley平台去架构的大数据分析、精准广告的推放、个人用户行为的分析,在今日头条和抖音很多应用当中都已经有出色的使用。
数据中心是互联网巨头的标配,但是也不是一劳永逸的方法。杨震原谈到,“怀来数据中心已经满载运行了,下一步我们还要建设更大规模的数据中心。但是,更大规模的数据中心实际上只是解决扩展性的问题,我们有资源的情况下可以迅速的扩充资源,支撑我们的业务发展。但未来的挑战也非常大,我们也不可能完全靠堆资源的方式解决我们的问题。
举一些我们未来的挑战,比如全球化运营,字节跳动在欧洲、北美、南美、东南亚都有很多产品和用户。全球化运营过程中我们会面临海外IDC的建设还有长距离传输的挑战,尤其是我们的推荐系统是一个非常紧耦合的结构,这个对我们的挑战非常大。再比如,数据规模会进一步的扩大,会带来一些计算模式的演进,还有算法沉淀、商业模式带来的一些问题。
另外,新硬件的变化,手机移动端和5G网络这些新的变化可能会带来未来计算模式到底是什么样的变化,是不是有更多的计算offload在外面,我们的传输是不是有新的模式去运作,这些问题对我们都有很大的挑战,而且我们不能都仅仅通过加资源去解决,这就是我们为什么去跟英特尔更加紧密的合作,我们希望不仅仅在资源的累积上,而是做更多的创新,更多的算法,我们能够给英特尔提出更多的问题,我们一起去合作,这些东西是为了解决我们的挑战,而且我希望这些东西能够输出给行业,能够带动市场的发展,所以这是共赢一个事情。”
这几年,AI风口正盛,而今日头条正是依靠算法、AI技术快速崛起的新锐AI公司代表。在2016年,今日头条创办人工智能实验室,旨在推动人工智能前沿技术研究,让机器深入理解文字、图片、视频、环境场景和用户兴趣,从而促进人类信息与知识交流的效率和深度。主要研究机器学习、图像识别、自然语言处理、语音识别等AI技术。
据今日头条算法架构师曹欢欢介绍,今日头条在目前在多方面运用AI技术:第一方面是做内容推荐的算法,目前头条、抖音、火山、西瓜都在大量地使用这方面的技术;第二是自然语言处理,主要用来分析文章内容、用户评论等,对内容推荐是很重要的支撑。此外,我们也在用NLP技术做写稿机器人“Xiaomingbot”;另外是计算机视觉,我们在抖音、火山、FaceU激萌等短视频App上用到了很多的CV技术,例如人脸特效、背景分割、“尬舞机”、内容审核、封面选择、AI剪辑等;最后是语音识别,这个方面应用还不多,目前是用在抖音、火山、西瓜里的内容审方面,将视频的语音内容识别成文字,然后利用NLP技术去发现不良内容、恶意营销等。
雷锋网了解到,今日头条这些AI技术研发和落地应用都需要底层力量支持,英特尔为今日头条提供基础架构平台支撑,包括CDN、智能运维数据系统、计算、存储。在计算方面,今日头条现在已经全面使用新一代至强可扩展平台,网络传输方面采用英特尔新一代高速网卡,存储方面也大量用到SSD,在底层的开源软件上也有合作。
随着企业级的计算市场在不断的发展,云计算、大数据、人工智能、机器学习技术也在不断的创新,英特尔正在从以个人电脑为中心变成以数据为中心的公司。
英特尔公司市场营销集团行业解决方案部中国区总经理梁雅莉介绍到,英特尔是业界现在唯一一家能够提供从数据中心、从云到端的端到端解决方案的公司,英特尔既能够通过最新的至强可扩展处理器以及开发当中的神经网络处理器来满足数据中心当中海量的数据处理,也可以在汽车、无人机等对能耗以及对运行环境特别有严苛要求的到端的场合提供Movidius这种低功耗、高性能的人工智能处理芯片,当然我们还会通过创新的划时代的存储技术和连接技术、通讯技术来赋能各行各业数字化的创新和转型。
据雷锋网了解,在硬件方案之上,英特尔也在积极推动人工智能领域高性能软件工具的开源,目前所有的主流人工智能软件的框架TensorFlow、Caffe,已经在英特尔的至强平台、英特尔的Nervana神经网络平台上得到非常好的性能的优化,而且英特尔也将把优化所有这些框架使用的工具,MKL-DNN都开源开放给所有的开发者,能够推动更多、更好的人工智能的软件充分发挥英特尔Nervana平台的性能。
今日头条是英特尔助力企业级计算的一个例子。从2013年起,今日头条就与英特尔展开了合作。2018年,双方在年初签订了创新基金,然后共同成立了创新实验室,今天一起签订战略合作备忘录,利用双方的资源优势来引领行业技术发展的趋势。
英特尔与今日头条的战略合作涵盖数据中心和底层基础架构的硬件和软件优化、市场合作以及成功案例推广等,包括大数据分析、人工智能等领域。合作内容具体包括以英特尔至强可扩展处理器的计算、基于英特尔3D XPoint技术的存储产品和网络,为今日头条构建和优化数据中心基础设施;并通过AVX2/AVX-512等指令集与软件层的优化,为今日头条的数据分析及人工智能应用赋能,打造全方位的解决方案。
技术创新合作实验室主要是围绕平台架构、技术架构、应用业务架构和技术趋势等方面进行深度合作,希望能够引领行业应用趋势,树立行业技术的典范,希望通过技术实验室将平台架构与技术架构灵活结合起来,并转化为生产力,更好的支撑和应用到整个业务架构当中,将最前沿的技术落地,落地到具体的项目和业务当中。
相关文章:
雷峰网原创文章,未经授权禁止转载。详情见转载须知。