異常検出モニター
異常検出は、テナント上のデータ パターンの予期しない変化に関する洞察を提供します。異常は、オブジェクトの動作パターンが変化すると発生します。たとえば、オブジェクトが水曜日の特定の時間に特定のレベルのレイテンシを経験し、次の水曜日の同じ時間にレイテンシがそのレベルを超えて急上昇した場合、その急上昇は異常と見なされます。 Data Infrastructure Insights を使用すると、このような異常が発生したときに警告を発するモニターを作成できます。
異常検出は、繰り返し発生する予測可能なパターンを示すオブジェクト メトリックに適しています。これらのオブジェクト メトリックが予想レベルを上回ったり下回ったりすると、 Data Infrastructure Insights はアラートを生成して調査を促します。
異常検出とは何ですか?
異常は、メトリックの平均値が、過去数週間のそのメトリックの加重平均から標準偏差の数だけ離れており、最近の週が以前の週よりも重み付けが大きい場合に発生します。 Data Infrastructure Insights は、データを監視し、異常が検出された場合に警告する機能を提供します。検出の「感度」レベルを設定することができます。たとえば、平均値と平均値からの標準偏差が少ないほど感度が高くなり、生成されるアラートが多くなります。逆に、感度が低い = 平均からの標準偏差が大きい = アラートが少ない。
異常検出監視はしきい値監視とは異なります。
-
*しきい値ベースの監視*は、特定のメトリックに対して事前に定義されたしきい値がある場合に機能します。言い換えれば、何が期待されているか(つまり、正常範囲内)を明確に理解している場合です。
-
*異常検出モニタリング*は、機械学習アルゴリズムを使用して、「正常」の定義が明確でない場合に、標準から逸脱する外れ値を識別します。
異常検出はいつ必要になるのでしょうか?
異常検出モニタリングは、次のような多くの状況で役立つアラートを提供できます。
-
_正常_の定義が不明瞭な場合。たとえば、SAN エラー率はポートに応じて異なる量が予想される場合があります。 1 つのエラーについて警告するのはノイズが多く不必要ですが、突然のまたは大幅な増加は広範囲にわたる問題を示している可能性があります。
-
時間の経過とともに変化がある場所。季節性があるワークロード (つまり、特定の時間に忙しいか静かである)。これには、バッチの停止を示す可能性のある予期しない静かな期間が含まれる場合があります。
-
しきい値を手動で定義および調整することが非現実的な大量のデータを扱う場合。たとえば、ワークロードが異なる多数のホストやボリュームを持つテナントなどです。それぞれ SLA が異なる場合があるため、標準を超える SLA を理解することが重要です。
異常検出モニターの作成
異常を警告するには、Observability > Alerts > +Monitor に移動してモニターを作成します。モニタータイプとして「異常検出モニター」を選択します。
監視するオブジェクトとメトリックを選択します。他の種類のモニターと同様に、フィルターやグループ化を設定できます。
次にモニターの条件を設定します。
-
選択したメトリックが予測された境界を 上回る 場合、その境界を下回る場合、またはその両方の場合にアラートをトリガーします。
-
感度を「中」、「低」(より少ない異常が検出される)、または「高」(より多くの異常が検出される)に設定します。
-
警告レベルが Critical か Warning かを判断します。
-
オプションで、その値を下回る異常は無視される値を設定します。これによりノイズを軽減できます。この値はサンプル グラフでは破線で表示されます。
最後に、アラートの配信方法 (電子メール、Webhook、またはその両方) を構成し、モニターにオプションの説明や修正アクションを指定し、必要に応じてモニターをカスタム グループに追加できます。
モニターを意味のある名前で保存すれば完了です。
作成時に、モニターは前週のデータを分析して初期ベースラインを確立します。異常検出は、時間が経過し、履歴が増えるにつれて、より正確になります。
|
モニターが作成されると、DII は前の週の既存のデータを調べて、大幅なデータの急増や減少がないか調べます。これらは異常とみなされます。モニター作成後の最初の 1 週間 (「学習」フェーズ) は、アラートの「ノイズ」が増加する可能性があります。このノイズを軽減するために、30 分以上続く急上昇または急降下のみが異常とみなされ、アラートが生成されます。次の週には、より多くのデータが分析されるにつれて、通常、ノイズは減少し、一定期間続く大幅な急上昇または急降下は異常とみなされます。 |
異常の観察
アラート ランディング ページでは、異常が検出されたときにトリガーされるアラートにより、メトリックが予測された境界の外側に急上昇した時点から、その境界内に戻った時点までの、チャートに強調表示されたバンドが表示されます。
アラート ランディング ページで異常チャートを表示しているときに、次のオプションを選択できます。
-
週次傾向: 最大 5 週間前の同じ時刻、同じ日の値と比較します。
-
完全な異常境界: デフォルトでは、グラフはメトリック値に焦点を当てているため、メトリックの動作をより適切に分析できます。完全な異常境界(最大値など)を表示する場合に選択します
ランディング ページのパフォーマンス セクションでオブジェクトを選択して、異常の原因となったオブジェクトを表示することもできます。チャートには選択したオブジェクトの動作が表示されます。