異常検出モニタ
異常検出では、環境内のデータパターンの予期しない変化を分析できます。環境でオブジェクトの動作のパターンが変化すると、異常が発生します。たとえば、オブジェクトのレイテンシが水曜日の特定の時間に一定のレベルを超えた場合、次の水曜日のその時間にレイテンシが急増します。 このスパイクは異常と見なされます。Data Infrastructure Insightsでは、このような異常が発生したときにアラートを通知するモニタを作成できます。
異常検出は、予測可能な繰り返しパターンを示すオブジェクト指標に適しています。これらのオブジェクト指標が想定レベルを上回る、または下回ると、Data Infrastructure Insightsはアラートを生成して調査を促すことができます。
異常検出とは
異常は、メトリックの平均値が、過去数週間のメトリックの加重平均からの標準偏差の数であり、最近の週の重みが前の週よりも大きい場合に発生します。Data Infrastructure Insightsは、データを監視し、異常の検出時にアラートを生成する機能を提供します。検出の「感度」レベルを設定することもできます。たとえば、平均値が平均からの標準偏差が少ない場合、より多くのアラートが生成されるようになります。逆に、感度が低い=平均からの標準偏差が多い=アラートの数が少ない。
異常検出の監視は、しきい値の監視とは異なります。
-
*しきい値ベースの監視*は、特定のメトリックのしきい値が事前に定義されている場合に機能します。言い換えれば、何が期待されるのか(つまり、通常の範囲内)を明確に理解しているときです。
-
*異常検出モニタリング*機械学習アルゴリズムを使用して、「正常」の定義が明確でない場合に、標準から逸脱する異常値を特定します。
異常検出はいつ必要ですか?
異常検出の監視では、次のような多くの状況で役立つアラートが提供されます。
-
_normal_の定義が不明な場合。たとえば、ポートによっては、SANエラー率がさまざまに予想される場合があります。1つのエラーに関するアラートはノイズが多く、不要ですが、突然または大幅に増加した場合は、広範な問題が発生する可能性があります。
-
時間の経過とともに変化がある場所。季節的なワークロード(特定の時間にビジー状態または静かな状態)。これには、バッチの停止を示す可能性のある予期しない待機期間が含まれる可能性があります。
-
しきい値を手動で定義して調整することが現実的ではない大量のデータを扱う。たとえば、ホストやボリュームが多数あり、ワークロードが異なる環境などです。SLAはそれぞれ異なる場合があるため、標準を超えるSLAを理解することが重要です。
異常検出モニタの作成
異常を警告するには、*[Observability]>[Alerts]>[+Monitor]*に移動してモニタを作成します。モニタタイプとして[Anomaly Detection Monitor]を選択します。
監視するオブジェクトと指標を選択します。他のタイプのモニタと同様に、フィルタとグループ化を設定できます。
次に、モニタの条件を設定します。
-
選択したメトリックが予測された境界の上に_スパイクするか、_ drops below _ those bounds、またはその両方のいずれかの場合にアラートをトリガーします。
-
感度を_Medium_、Low(検出される異常が少ない)、または_High_(検出される異常が多い)に設定します。
-
アラートレベルが_Critical_か_Warning_かを確認します。
-
必要に応じて、異常が_ignored_になる値を設定します。これはノイズを減らすのに役立ちます。この値は、サンプルグラフに破線で示されています。
最後に、アラートの配信方法(Eメール、Webhook、またはその両方)を設定したり、オプションの説明または修正アクションをモニタに指定したり、必要に応じてモニタをカスタムグループに追加したりできます。
モニタにわかりやすい名前を付けて保存すると、完了です。
モニタを作成すると、前週のデータが分析され、初期ベースラインが確立されます。時間が経過して履歴が増えるにつれて、異常検出の精度が向上します。
異常の表示
アラートランディングページでは、異常が検出されたときにトリガーされたアラートに、指標が予測範囲外に急増した時点から、その範囲内に戻った時点までのハイライトされた帯がグラフに表示されます。
アラートランディングページで異常チャートを表示する際には、次のオプションを選択できます。
-
Weekly Trend(週ごとの傾向):前の週の同じ時刻(前の週の同じ日)と最大5週間の値を比較します。
-
Full Anomaly Bounds:デフォルトでは、指標の動作をより適切に分析できるように、グラフは指標値に焦点を当てています。異常境界全体(最大値など)を表示する場合に選択します。
ランディングページのエキスパートビューでオブジェクトを選択して、異常の原因となったオブジェクトを表示することもできます。グラフには、選択したオブジェクトの動作が表示されます。