0
“2022年,会是FinOps爆发元年。”
FinOps(云财务管理/云成本优化),这个名词看似陌生,今年却已经被腾讯、阿里等互联网大厂提及多次。
用一句大白话来说,FinOps的目的,是上云上得更加划算,让IT、财务、业务等部门不至于为了上云这笔糊涂账打起来。
“确保从云计算中花费的投入获得最大价值,实现系统、最佳实践和文化的结合——以提高组织理解云成本和进行业务权衡的能力。正如DevOps通过打破烟囱和提高敏捷性、实现了开发的巨大改进一样,FinOps期望通过将技术、业务和财务人员与一套新的流程结合在一起,提高云的业务价值。”
——FinOps的官方定义
在《企业上云的最大「迷信」:降本增效》一文中,雷峰网就曾提到,不少企业陷入某种误区,在上云为业务提速的同时,误以为上云必然也带来成本的降低。但事实上,上云超支、资源闲置浪费的情况比比皆是,与降本增效的初心南辕北辙。FinOps的出现,则被认为是上云超支的一剂灵药。
不过,一个新概念的流传,必然会伴随众多质疑与争论。雷峰网在采访调研的过程中,听到最多的回答是“没听说过”“没有必要”。
有从业者直言,国内企业还没来得及完全消化“云原生”“数字化转型”等概念,FinOps只是云厂商对外推销的又一套新话术。
但也有多位大厂高管向我们强调,工具和技术确实已经长成,但不能提供保障:这就好比一支钢笔出水再怎么顺滑,也不能保证你能写出一手漂亮的字。
在他们眼中,这并不是一个平地而起的概念;相反,不少企业的发展过程中,FinOps的理念已经自然萌芽,只不过是现在找到了更贴切、成体系的表达。
“它不只是某个特定的技术、工具或者解决方案,更是一种上升到组织架构和管理文化层面的实践。”一位研究FinOps的云计算从业者如是说。
究竟FinOps是什么,又为什么非做不可?企业怎样才能——或者说,才应该进入到FinOps的世界中?
Gartner此前的一项研究数据,引起了不少厂商的关注:45%的企业由于缺乏优化措施,在直接迁移上云的过程中会超买 55%的资源,并且在上云初期的18个月内多花费70%。
一家房企的IT负责人就告诉雷峰网,“云服务的‘浪费’,从技术上来说是,无法避免,不可能是‘用多少买多少’,万一买少了影响业务运行呢?”
这样的想法不在少数,也更符合人们的一贯思路,就好比提前囤积物资,以备不时之需。可事实上,把这种旧想法原封不动地带进“云时代”,正是造成云成本超支的“元凶”之一。
前广发证券首席架构师、凡泰极客CEO梁启鸿曾向雷峰网强调,在过去,为了对系统负载的波动提供足够的支持,IT系统总是要按冗余、支持峰值业务来进行capacity planning(容量规划),是一个CAPEX(Capital Expenditure,资本性支出)问题。
而采用云服务,在理想情况下,正是希望将CAPEX变成OPEX(Operating Expense,企业管理支出),实现“效用计算”:“让计算效能就像电、水、天然气一样随需随用,按用度收费。”
云资源某种程度上就像是“房子”:如今搭建新房的速度确实越来越快,但已建成的新房常常堆满杂物,或是入住人数总是远低于估计值。为了保证总有可用的房间,大量新建确实是个办法,但新建同样也要再花费一笔,为什么不同时回头清理一下那些旧房间?
FinOps的意义,正是让每一间房发挥自己的最大价值。
但也有多位IT从业者向雷峰网提出质疑:FinOps这个说法并不特别,甚至可能会“为了省钱而花钱”。
“上云的收益之一,本就是用户不再需要持有固定资产进行维护和折旧,相应的成本结构能够优化。上云成本按量付费,可以根据业务增长按比例扩大投入,不需要过度超前,过剩的资源也能快速释放。”
“云原生架构的目的,和FinOps离得不远,还有必要单独包装这么一个新概念吗?”
在腾讯云FinOps产品负责人孟凡杰看来,云原生技术栈确实提供了一系列提高资源利用率的能力,如对资源更细粒度的管控和分配、自动伸缩能力等,也更靠近随需随用、灵活运用的目标。
“理论上来说,业务迁移到云原生平台以后,利用率应该大大提升才对。但企业对云原生的技术认知往往还停留在以前的阶段,在虚拟机上怎么用资源,到了云原生平台照旧,并没有意识到可以在保证业务稳定的前提下,采用成本更优化的手段。”
就以Kubernetes为例,其提供的原生能力在一些用户手里并没有完全释放。
“比如你是一个平台侧运维人员,你背负着提升平台资源利用率的 KPI。集群内运行着众多负载规律波动的应用,你惊喜地发现,Kubernetes 提供了自动扩容能力,你很想试试看。
“但真正使用了HPA,从负载上升触发阈值,到弹性控制器开始扩容,到应用启动完成,可能有数分钟甚至数十分钟的滞后,在弹性起作用之前,应用已经被压垮。于是你抛弃自动弹性能力,继续回归到锁定超量资源的老路上来。”孟凡杰感慨道。
利器在手却难有重用,这只是云资源浪费的冰山一角。Kubernetes集群的CPU利用率偏低,过时不用的研发项目占用资源,没有规模测算能力,超配采购……种种情况都导致了云资源未能得到充分利用。
火山引擎副总经理张鑫则向雷峰网表示,二者其实是完全不同的层级,FinOps应当是更宏大完整的体系。
“一般是公司的财务、采购对成本有直接的关注和要求,甚至是他们KPI的一部分,但研发、产品团队通常不背成本指标,‘如何用尽量少的资源达到业务目标’不是他们优先关注的部分。
FinOps最重要的一点,是如何让财务、采购部门与企业产品、研发部门对齐目标,共同为成本负责,落到管理流程和机制上,这并非云原生或某一技术和工具能形成闭环的。”
那么,是眼下所有的企业都应该进入到FinOps的实践中吗?
“国内大多数企业的上云开支,还用不到一套完整的策略和工具,来执行如此具体的降本目标。开支已经非常大的时候,企业才会关注到这一块。”一位独立云厂商的中层如是说。
企业对上云的关注点确实是循序渐进的,张鑫表示,第一阶段企业关注的,更多是隐私、稳定,以及行业监管政策;第二阶段则是云与业务、研发、管理等体系的适配,关注效率的提升;第三阶段,才会来到成本优化的层次。
孟凡杰则认为,不少国内企业还处在业务迁上云原生的时期,当企业面对业务压力时,成本管控的优先级自然会先“放一放”;当业务趋于稳定,应用的容器化、架构的现代化接近完成,也就是时候将关注点转到成本优化上来。
但现状如此,并不代表这就是理想的状态。孟凡杰也直言,云成本优化应该从上云的第一天就开始规划,并且不断优化。
“我们从现有数据发现,有部分的业务开发人员对业务的增长过于自信,申请的云资源超过其真实用量的情况,用户在为闲置资源买单。很多组织认为忽视了成本对利润的影响,在上云的过程中,只是把过去的经验简单粗暴的套用在新技术栈上。也有众多团队武断地认为成本优化和业务稳定性是相背离的,二者只能取其一。”
在国内乃至整个亚太区,FinOps还是相对新鲜的概念,但在欧美,FinOps已形成了一定的讨论规模。孟凡杰透露,除了Linux基金会已经下设FinOps基金会外,欧美一些FinOps主题的峰会也已经达到近千人规模。
张鑫指出,国外的企业对云成本的重视程度,之所以更高一些,与国内外的公有云渗透率、云服务的价格体系有着莫大关系。
“尤其是价格和采购模式上,国外的体系更加实时、动态和复杂。例如云服务连续使用多久之后自动有梯度价格,或者产生折扣,但在国内,买卖双方往往是预先谈好采购的框架,成本优化的空间并不那么大。”
尽管FinOps在国内提及不多,早在2020年12月,信通院就牵头成立了FinOps产业推进方阵,推进规模化实践。
“很多企业其实没有意识到自己已经在涉足FinOps,但他们会用成本的视角来审视每个部门的花费,设资源利用率的红黑榜,给业务侧做一些施压。那一步已经迈出去了,只不过暂时还没有和方法论结合到一起。”孟凡杰说。
也是在2020年,有关上云超支的Gartner报告引起了腾讯云和火山引擎的注意。
在那些率先拥抱云原生的互联网大厂内部,云成本优化的种子其实早就生根萌芽、形成最佳实践的方法论。FinOps的出现,让大厂们的优化经验得到了更体系化的表达。
以字节跳动为例,他们内部已有相关实践,例如云账单分析,多云架构下对不同厂商定价策略的审视,推荐、广告、搜索的在离线任务混合部署等。目前,字节跳动在云成本优化上的最佳实践,将通过火山引擎对外提供服务。
阿里集团也搭建了自己的混合云资源管理平台(HCRM),推进自身成本数字化从无到有的建设,重新疏通集团内部的云资源计费和结算链路。
腾讯则走得更快一些。孟凡杰向雷峰网透露,在腾讯内部,云业务成本中心承担着FinOps团队的职责,需要背上资源优化的考核指标,从平台侧、业务侧着手,甚至可以向上汇报,通过GM的层级去推动。
团队也制定了云原生成熟度评估模型,考评集群的利用率等指标,结合弹性、混部等云原生技术对业务进行改造,成熟度的“分数”会层层细化下发,具体到每一个运行在Kubernetes集群上的作业。
对外,腾讯云推出了云原生成本管理产品“成本大师”,从成本洞察、成本优化、成本运营三个层面来协助企业降本。
2021年11月底,腾讯云宣布加入FinOps基金会,成为国内首家FinOps基金会的顶级成员。这一动作,也让FinOps走进更多企业的视野。
腾讯开源联盟主席单致豪告诉雷峰网(公众号:雷峰网),FinOps基金会在2020年8月成立后,他们就一直保持关注,直到开源思路和目的明确、了解清楚Linux基金会在FinOps上的发展方向后,他们与FinOps基金会执行董事 J.R. Storment 和技术咨询委员会(TAC)主席 Mike Fuller 等一起经过好几次深度的线上讨论会,同步腾讯云的加入目的、发展战略,最终达成合作。
此后,腾讯云将参与到围绕云财务管理最佳实践的标准制定。单致豪将结合公司整体的开源战略推进FinOps,孟凡杰则作为腾讯云FinOps产品负责人,从技术层面参与到基金会日常的工作中去。
腾讯也推出了基于云原生技术的成本优化开源项目 Crane,将自身内部云资源优化流程方法和工具做系统性输出。“Crane致力于推荐资源和智能弹性配置,业务人员无需再为业务需要多少资源,自动扩缩容应该如何配置等问题而烦恼,Crane会基于业务的时序变动数据给出最优解。”孟凡杰介绍。
除此以外,雷峰网也了解到,某手机厂商已经开始了与FinOps相关的实践;作业帮、小红书等企业也与腾讯云开启了围绕FinOps的合作。
在调研的过程中,受访者们不约而同地达成了一个共识:技术也好,工具也罢,FinOps更应该是一种管理基因,被注入到企业当中去。
在张鑫眼中,跨团队的目标对齐、设置类似敏捷教练的FinOps教练角色、设置统一的资源监控看板,都是技术之外无比重要的步骤。
孟凡杰则指出,企业要适应这种新的节奏,组织架构上就应当有所调整,FinOps团队得到来自高层的授权和支持,才能真正推动成本优化目标的执行。
DevOps和敏捷文化的盛行,曾经狠狠打破不少企业内部的部门墙,如今“新生”的FinOps概念,能够成功复制DevOps的辉煌,打破企业转型的下一道桎梏吗?
雷峰网原创文章,未经授权禁止转载。详情见转载须知。