通信サービスや決済サービスにおいて、複数システムが絡む大規模かつ複雑な障害が発生した際、影響範囲の切り分けや根本原因の特定には膨大な時間と人的リソースを要し、サービス復旧の遅れがビジネスや社会インフラに多大な影響を与えるリスクが課題となっている。
こうした中、KDDI株式会社は、クラウド環境上に構築された音声通話・データ通信や「au PAY」などのサービスにおいて、障害の原因を即時に特定する「復旧支援AIエージェント」の運用を2026年2月19日より開始したと発表した。
KDDIはこれまでも、単体のシステムにおける障害に対しては自動で復旧オペレーションを実行する取り組みを進めてきた。
しかし、複数のシステムが関連する複雑な障害においては、原因の特定や復旧対応に依然として時間と稼動を要していた。
そこで今回運用を開始したAIエージェントでは、この初動対応における原因特定を短縮する。
具体的には、事前にサービスやシステム構成に関する情報を構造化し、「運用向けデジタルツイン」を構築しておく。
複数システムに関わる障害アラームを検知すると、AIがこのデジタルツインに対して、ネットワーク内の重要なノードを定量化するグラフ理論の手法である「中心性分析」を用い、サービスとシステムの相関関係を分析する。
これにより、数多く発報されるアラームの中から、障害の起点となった可能性が高いシステムを即座に特定することが可能となる。
さらに、設備アラームの発生状況やメンテナンス作業の実施状況といった複数の情報を掛け合わせることで原因特定の精度を向上させ、特定した原因を運用担当者に提示して迅速な復旧作業を支援する。
KDDIは今後の展望として、同AIエージェントと連携し、設備の切り離しなどの具体的な復旧措置や保全作業を実行する「保全AIエージェント」を2026年度に導入するとしている。

