随着数字化转型企业对云计算基础架构依赖程度的提高,融合了大数据和人工智能最新发展的智能运维(AIOps)逐渐成为提高基础架构服务质量的关键[1]。Gartner 在 AIOps 的研究报告[2]中指出,AIOps 平台应由观察(Observe)、处理(Engage)和行动(Act)三个部分结合大数据和机器学习组成一个闭环结构,而观察是触发整个闭环反馈的基础和关键,没有高质量的全栈观察,就缺乏人工智能所需的大数据源,因而也无法形成智能化的处理和相应的主动运维行为。但在性能飞速提升的数据中心,数据平面观察是一直以来的难点。为网络设备制定硬件可编程语言标准的开源组织 P4()对带内网络的遥测(In-band Network Telemetry,INT)定义了三种类型的技术思路 —— eMbed Data(MD),eMbed instruct(X)ions(MX)和 INT eXport Data(XD)—— 基本涵盖了主流的 INT 技术实现方式[3]。
从当前业内云数据中心交换设备对这几种思路的商业化实现上看,INT MD 功能全面但对资源和处理性能要求高,商用化多实现在 9.6T-25.6Tbps 级别的单芯片系统上;INT MX 相对轻量化,但功能有限,对系统功能整合度要求高,多实现在厂商特定功能集内;IN TXD 做到了功能和开销的相对平衡,成本和实用性更有优势,但对芯片设计的门槛要求更高。采用不同权衡策略的商业化产品功能差异较大,需要不同企业在 AIOps 设计时根据需求详细考查。从未来发展上看,通用企业数据中心会偏重将带内遥测通过 XD 方式实现,同时用 MX 做进一步功能补充;而运营商和互联网企业在升级到 100/200G 接入或普遍引入智能网卡之后,会重点考虑 MD 功能。当然工程上的实现并不绝对,不同解决方案会走向某种模式为主、其他模式补充的混合形态,以追求性能、功能与代价的最优平衡[4]。
参考文献
[1]魏航,刘军.构建数字化转型企业以用户体验为中心的 IT 架构[J].数码世界,2020(05).
[2]Pankaj Prasad,Padraig Guide for AIOps Platforms[R].Gartner,2021
[3]-band Network Telemetry (INT) Dataplane Specification[EB/OL]., 2020-02-14
[4]魏航.数据中心网络智能运维的带内遥测技术[J].数字通信世界,2021(09).
(转载)