Header background

Davis AI:対話型トラブルシューティングが可能なパーソナルアシスタント

Dynatraceがクラウドネイティブのサービストレースとオブザーバビリティのイノベーションに着手したのは10年前になりますが、その当時から、システムの運用者は旧式の監視システムによって絶え間なく生成される膨大な生データに圧倒されていました。従来の手法を用いる運用チームは、ダッシュボードでその膨大な量のテレメトリーデータを確認することはできません。加えて、何百もの異なる監視ツールから24時間365日絶え間なく発せられる膨大な数のアラートにも手を焼いていました。


DynatraceはDavis®根本原因検出を導入することで、大規模なインシデントが発生した際に発せられる単一のアラートスパム量の削減を実現しました。Davis根本原因エンジンは、すべての生イベントに対して直ちにアラートを発するのではなく、違反している各サービスの因果関係をたどります。Davisはサービス間のトポロジーとその基盤となるインフラストラクチャーの因果関係を自動的にたどることで、同じ根本原因に起因するすべての生イベントを収集し、問題を提起してユーザーに通知します。Dynatraceは対話型の問題解決モードで強力なトラブルシューティングアシスタントを新たに導入しました。Davisを利用すると、問題分析をより深く掘り下げる際にコンテキストを踏まえた対話型のユーザーガイダンスを使用してMTTR(平均修復時間)を短縮できます。このブログ記事ではその仕組みについてご紹介します。

Davisの問題分析
サイドパネルで任意の項目を選択すると、コンテキスト内の対応するメトリクスに移動します。

正確な根本原因分析によるスピーディーな修復

Davisが問題を特定すると、問題の概要ページが作成され、発生した事象(影響)と問題の根本原因に関する包括的な管理サマリーが表示されます。DevOpsチームはこのページを使用して、予期しないインシデントをすばやく特定し、修復できます。通常、問題対応プロセスはこれで終わりではありません。DevOpsチームの処置が完了したら、ソフトウェアのエキスパートは基盤となるソフトウェアスタックを調査する必要があります。今後、同じような問題が再発しないようにするため、導入スタックでDavisによって検出されたすべての関連情報を分析します。根本原因として特定された基盤となるサービスへ移動すると、問題の詳細ページが開きます。このページには、以下のような問題のコンテキストが保持されています。

  • 現在の問題の発生日時が表示されるため、分析プロセスの各ページで日時を手動で指定する必要はありません。
  • サイドパネルには、関連するサービスのすべての問題関連情報が対話形式で表示されます。
  • 各ページに移動したときに、関連するすべての問題情報がDavisによって強調表示されます。

以下のスクリーンショットは、Davisによる対話形式のガイド方法を示しています。Davisはすべての関連情報を赤と黄色のマーカーで強調表示(左側)しながら、右側のサイドパネルにAIによる根本原因の検出リストを表示します(Davisのサイドパネルが閉じている場合は、右側のパネルに表示されるアイコンをクリックすることで再度開くことができます)。

AIによる根本原因の検出結果 検出された問題をDavisがサイドパネルで強調表示しています

Davisの対話型の問題解決モードを使用してソフトウェアスタックを最適化

ナビゲーションセクションのヘッダーに表示される赤色と黄色のマーカーに注目してください。このマーカーは、問題に関連する情報がDavisによって検出されたことを示します。赤色のマーカーはイベントとその継続期間を強調表示します。黄色のマーカーは、問題分析中に注意が必要なメトリクス変化ポイントが検出されたメトリクス異常を示します。黄色のメトリクス変化ポイントは特定の時点を強調表示し、赤色のマーカーはイベントの継続期間を表します。マーカーを(直接またはサイドパネルから)選択すると、時間枠や継続期間などの追加情報を表示できます。

Davis AIによる変化ポイントとイベントマーカー Davis AIによる変化ポイント(左側の黄色)マーカーとイベント継続期間(右側の赤色)マーカー

SLO要件の準拠

Davisは、検出された問題にコンテキスト情報を提供するだけでなく、接続されたSLO(サービスレベル目標)で異常値が検出された場合もサポートします。上部のバーにある専用のSLOボタンをクリックすると、コンテキストを保持したまま、選択したサービスに関連するサービスレベル目標を即座に確認できます。異常値は、時間枠を選択して「Analyze」をクリックすることで、簡単に調査できます。Davisは、接続されたすべてのシグナルを瞬時に収集し、関連するコンテキスト情報を提供します。以下のビデオをご覧いただくと、対話型の問題解決モードがSLO関連の問題の特定にどのように役立つかをご確認いただけます。

Davis SLO分析
関連するサービスレベル目標(SLO)を確認

まとめ

Davisの問題検出と根本原因分析は、昨今のAIOps(IT運用のためのAI)DevOpsにとって、MTTRを最小化するために不可欠な要素となっています。予期しないインシデントをすばやくトリアージし、適時に修復できるかどうかは、リアルタイムに得られるインサイトが重要な役割を果たします。Davisの対話型の問題解決モードでは、問題に関連するすべての詳細情報を通して状況を確認できます。さらに、問題が視覚的にマーク付けされるため、簡単に理解できます。また、SLOの低下を分析するDavis AIの活用など、ユーザー定義のSLOがシームレスに統合されるため、重大なインシデントが発生したときに貴重な時間を節約できます。ページのコンテキストを切り替える必要はもうありません。サイドパネルからコンテキストを保持したまま、根本原因分析中に検出されたすべての関連結果とSLOを掘り下げて調べることができます。当社は皆様からのフィードバックを非常に重視しています。ぜひ、対話型の問題解決モードをお試しいただき、Dynatrace Communityからフィードバックや製品のアイデアをお寄せください。皆様からのすべてのメッセージをDynatraceプラットフォームの継続的な改善に活用させていただきます。