0
当AIOps与云计算相容,Azure还是那个Azure?
2022年1月13日,微软亚洲研究院在“智能运维”媒体沟通会上分享了智能运维的应用场景、面临的挑战及未来发展方向,并详解微软亚洲研究院智能运维为Azure所提供的智能原动力。
随着越来越多的企业拥抱云计算,企业上云成为共识,企业在享用云计算带来快捷服务的同时也要面对传统运维带来的挑战。
那么如何对云服务进行规划与设计?如何让运维体系更加适应云的变化?如何快速部署、监控云资源?“AIOps”应运而生。
结合了大数据和人工智能的AIOps,可以实现智能化操作,快速地分析和处理大量数据,得出有效的运维决策,可以有效地开展大规模系统软件的运维。
如今微软亚洲研究院与微软云产品团队深度合作,目前有哪些成果?有了AIOps的微软云有什么变化?目前AIOps发展现状如何?
会议现场,雷峰网及相关媒体与微软亚洲研究院常务副院长、微软杰出首席科学家张冬梅,首席研究员林庆维展开了深入交流。
微软亚洲研究院常务副院长、微软杰出首席科学家张冬梅
微软亚洲研究院首席研究员林庆维
一、AIOps市场规模可观,“吃肉”还是“喝汤”?
“AIOps”是 Gartner 于 2016 年创立的术语。AIOps通过创新的AI/ML技术,可以有效且高效的设计、构建并运营大规模的复杂云服务。AIOps平台综合了大数据、机器学习和可视化技术,用于增强和部分取代 IT运维流程和任务,包括可用性和性能监控,事件关联和分析,IT服务管理和自动化。
Research and Markets预计,到2025年,AIOps市场规模将达到143亿美元。
面对如此大的市场规模,AIOps赛道发展真的好吗?数据量少、应用场景等都是人们所关注的问题。
而随着云计算时代的到来,AIOps成为了云计算当中不可或缺的一环。正如张冬梅院长所说:“现在云计算平台已经变成了整个世界的基础设施,而未来云计算会像水、电、气一样不可或缺。”
而对于整个系统管理来讲,也正面临着前所未有的挑战。海量用户、大规模集群、复杂的系统架构使传统的运维方式力不从心。
传统运维走向智能运维是一个必然趋势。
而早在10年前,微软亚洲研究院就率先开展云智能以及AIOps相关领域的研究,在该领域提出了全新的方法与设计,如主动系统设计、数据驱动型安全部署等;在全球高影响力的学术会议上,发表论文超过50篇。发起、组织系列讨论会@AAAI 2020、ICSE 2021、Chinasoft、MLSys 2022等。
目前微软亚洲研究院的AIOps研究成果已经应用到了微软Azure、Skype、OneDrive、Office 365、Azure等诸多在线服务中。
在AIOps这一赛道中,微软走的比较早也比较靠前,无论谁“吃肉”还是谁“喝汤”, 微软实力都不容小觑。
二、AIOps在微软云应用如何?
目前微软云有上千万台多物理服务器部署在世界五大洲,上千个数据中心运行着上百万客户的应用和服务,其中包括 95% 以上的全球500强企业,每个月都会更新硬件,每天都会更新软件。
微软云计算与人工智能事业部首席数据科学家党映农指出:“面对微软云这样的大规模高度复杂并承载大量客户应用的云计算系统,用传统的非智能的软件开发和运维技术进行高效开发部署运营和管理是不可行的,而早在五六年前微软云就意识到实现智能运维的必要性,因此开始加强与微软亚洲研究院的合作,现在看来在微软云中,AIOps的应用和影响是深远的。”
在Azure的应用中,AIOps也已经显现出了不俗的能力。
据了解,微软云已经在智能运维方面积累了很多重要的技术创新,包括云服务系统的智能化和管理的自动化、云开发和部署的智能化以及智能化客户响应等。另一方面,人工智能和机器学习技术已经深度集成到了微软云的基础设施的管理软件站,包括智能监控、智能预测、智能修复等。
自动化和智能化一起推进,一方面使得云服务的可用性、可靠性以及效率的提升,另一方面云服务运行的自主性得到提高,需要进行人工维护的场景不断减少,机器学习技术也极大的改善并增强了微软云的开发和维护,比如像智能测试、智能诊断、智能部署等,大大提高开发和运营工程师的效率。
根据Gartner数据,微软Azure占据全球云计算近20%的份额。微软将AIOps能力赋能给Azure,想必微软也看到了在人人都可上云的时代, Azure“升维”AIOps必不可少。
三、服务、客户、工程是AIOps的核心
过去的运维是小数据,每一个运维模块都是一个数据孤岛,不涉及算法,仅能满足传统运维的使用场景。而发展至今传统的运维已经不能适应现在云计算时代的新运维。
随着人工智能大潮来临,基于人工智能的智能运维(AIOps)开始火爆起来了,得到了更广泛的关注。
张冬梅院长表示:“AIOps的三个核心是服务/系统、客户、开发/运维。”
具体来说,AIOps一方面可以让服务/系统设计和构建更加可靠、高性能和更高效;另一方面智能化运维可以改善用户体验、提升用户满意度;最后AIOps智能运维工具可以赋能给工程人员,让开发/运维实现更高生产力。
据林庆维介绍,目前AIOps已经可以应用于云系统的故障预测、异常检测、智能诊断、容量规划、事故管理等诸多实际应用场景。
比如为了保证云平台的高可靠性和高可用性,实时检测可能的系统异常尤为重要。大规模系统的异常检测通过监控平台的各种运行状态数据来实现,如性能指标数据(访问成功率、响应速度、CPU 使用率、内存占用率),系统事件,系统日志等,从数据窥探系统的健康状况。
除此之外,还有智能诊断:利用系统数据自动定位可能的故障原因、缩小问题空间;故障预测:在故障发生之前,提前预测以避免可能的损失,比如硬盘故障预测、大规模服务故障预测等。
与此同时,我们也不得不关注,AIOps所面临的短板挑战。在检测、诊断、预测以及优化中都面临着不同的问题,比如差异化需求、缺乏标注数据、在线系统的大规模和复杂性为运维带来难度。总的来说,机器学习所适用的场景与现实环境还是存在一定差距的。
因此,微软亚洲研究院将继续探索AIOps领域,让AIOps在未来更加自动化、主动化、通用化。(雷峰网(公众号:雷峰网))
雷峰网原创文章,未经授权禁止转载。详情见转载须知。