適切に設計されたワークロードを構築および運用する
Amazon FSx for NetApp ONTAP用のNetApp管理スイートである Workload Factory は、AWS Well-Architected フレームワークに準拠した、信頼性が高く、安全で、効率的で、対費用効果の高いストレージとデータベース構成の維持と運用に役立ちます。Workload Factory は、ストレージとデータベースのワークロードの毎日の分析、推奨事項、自動修正を提供し、健全なワークロード操作を促進します。このプロセスを自動化することで、Workload Factory は人的エラーを最小限に抑え、ワークロード管理の一貫性を確保します。
仕組み
Workload Factory は、Amazon FSx for NetApp ONTAP ファイルシステム、Microsoft SQL Server、および Oracle データベースのデプロイメントを毎日分析します。分析により、適切に設計されたステータス、インサイト、推奨事項が提供されます。ベストプラクティスを満たし、効率的に運用できるように構成の問題を自動的に修正できます。
毎日の分析が完了すると、デプロイメントの Well-architected ダッシュボードに構成が「最適化済み」または「最適化されていない」として表示されます。全体的な最適化スコア、カテゴリ別の構成の問題、構成の問題と推奨事項のリストが表示されます。構成の問題に関する推奨事項を確認できます。一部の問題は Workload Factory によって自動的に修正できますが、その他の問題は手動での介入が必要です。この場合、Workload Factory は、推奨される変更を実装するのに役立つ詳細な手順を提供します。
ご使用の環境に適用されない構成の分析を無視することができます。これにより、不要なアラートや不正確な最適化結果を回避できます。特定の構成分析を無視すると、Workload Factory ではその構成が全体の最適化スコアに含められません。
なぜそれが重要なのか
Workload Factory は、継続的な評価と推奨事項の洞察および修復を組み合わせることで、大規模なストレージまたはデータベース環境にベストプラクティスを適用します。自動修正により人為的エラーが削減され、統一された管理が確保され、パフォーマンスと信頼性が維持されます。Workload Factory コンソールに適用された修正により、人為的エラーが削減され、統一された管理が保証されます。自動化により、構成が正しく適用され、維持され、ワークロードインフラストラクチャ全体のパフォーマンスと信頼性が維持されます。
Workload Factory を使って誤った構成を検出し修正しましょう
Workload Factoryを使い始めるには、サインアップして認証情報を追加し、接続を確立してAWSリソースを管理し、Amazon FSx for NetApp ONTAPを使用してワークロードを最適化します。
ストレージワークロードのベストプラクティスと推奨事項
Workload Factoryはストレージ構成を評価し、ONTAP構成のベストプラクティスとAWS Well-Architected Frameworkへの準拠について詳細なビューを提供します。評価では改善と修正も推奨されます。
Well-Architected 分析では、フレームワークの次の柱に従って構成を分類します: 信頼性、セキュリティ、運用上の卓越性、コスト最適化、および パフォーマンス効率。
信頼性
信頼性により、中断が発生した場合でも、ワークロードが意図した機能を正しく一貫して実行することが保証されます。
-
* ONTAPバックアップ用に FSx をスケジュールする*
FSx for ONTAP:ボリュームをバックアップすることで、データ保持とコンプライアンスのニーズをサポートします。FSx for ONTAP バックアップを使用して、データの自動バックアップと保持を設定します。
-
ローカルスナップショットをスケジュールする
効率的なバックアップと迅速な復元のためにローカル スナップショットをスケジュールします。スナップショットは、ボリュームの即時のポイントインタイムのイメージです。
-
クロスリージョンレプリケーション
クロスリージョンレプリケーションにより、データが別の AWS リージョンにレプリケートされ、データの耐久性と可用性が向上します。Workload Factory では、災害復旧とコンプライアンスを支援するために、クロスリージョンレプリケーションを設定することを推奨しています。
-
データ複製を設定する
データの信頼性を高めるために、データを同じリージョンまたは別のリージョンの FSx for ONTAPファイルシステムに複製できます。ファイル システム間での移行、災害復旧、長期保存をサポートするために、データ レプリケーションを設定します。
-
SSD容量のしきい値を増やす
SSD ストレージ層の容量は、継続的に 80% の使用率を超えてはなりません。これにより、容量プールのストレージ層へのデータの読み取りと書き込みに影響が及ぶ可能性があり、ファイル システムのスループット容量にも影響が及ぶ可能性があります。容量が不足すると、データ ボリュームが読み取り専用になり、新しいデータを書き込もうとするサービスが失敗する可能性があります。
-
データの信頼性を確保するためにラベルを一致させる
データの信頼性を確保するには、ソース ボリュームのスナップショット ポリシー ラベルとレプリケーション ポリシー ラベルが一致している必要があります。
-
ファイル容量のしきい値を増やす
ボリューム容量の制限に達しないように、ファイル容量のしきい値を上げる必要があります。ファイル容量 (i ノード) が少ないと、ボリュームに追加データを書き込むことができなくなります。Workload Factory では、利用可能なファイル容量の使用率を継続的に 80% 未満に抑えることを推奨しています。ボリューム内に新しいファイルを作成するには、使用可能なファイル容量が必要です。
セキュリティ
セキュリティでは、リスク評価と軽減戦略を通じてデータ、システム、資産を保護することに重点が置かれます。
-
ARP/AIを有効にする
NetApp Autonomous Ransomware Protection with AI(ARP/AI)は、ボリュームをランサムウェアの脅威から保護するのに役立ちます。Workload Factory では、すべてのボリュームに対して ARP/AI を有効にすることをお勧めします。
-
ボリュームへの不正アクセス
iSCSI を使用してアプリケーション データを提供するボリュームでは、NAS アクセスを並行して許可しないでください。Workload Factory では、iSCSI プロトコル経由でアクセスされるボリュームを、追加のプロトコルに制限することを推奨しています。
オペレーションの卓越性
運用の卓越性は、最適なアーキテクチャとビジネス価値の提供に重点を置いています。
-
自動容量管理を有効にする
SSD 層がしきい値を超えないように定期的に確認するには、自動容量管理を有効にする必要があります。
-
ボリューム容量使用率しきい値
Workload Factory では、ボリューム容量の使用率が継続的に 80% を超えないようにすることを推奨しています。これにより、アプリケーションへのデータの読み取りと書き込みに影響する可能性があります。ボリューム容量の増加は、ボリュームの自動拡張機能を使用して手動で行うことも、自動で行うこともできます。
-
ボリューム使用率がほぼ満杯に近づいています
ボリュームの容量がいっぱいに近づいた場合、Workload Factory は、潜在的なアプリケーションの中断を回避するためにボリューム容量を増やすアクションを実行することを推奨します。
-
キャッシュ関係書き込みモード
最適なパフォーマンスを得るために、Workload Factory はワークロードに最適なキャッシュ リレーションシップ書き込みモードを推奨します。ライトアラウンド モードでは、小さなファイルで読み取りが多いワークロードのパフォーマンスが向上しますが、ライトバック モードでは、大きなファイルで書き込みが多いワークロードのパフォーマンスが向上します。
-
キャッシュボリュームのサイズを最適化
Workload Factory では、最適なサイズを維持し、ホットデータにキャッシュを集中させて効率を最大限に高めるために、ボリュームの自動サイズ調整とキャッシュボリュームのスクラブを有効にすることを推奨しています。
-
Storage VM論理レポート
Workload Factory では、ボリュームレベルでのストレージ使用状況をより適切に把握できるように、ストレージ VM のデフォルトのレポート設定を論理に設定することをお勧めします。
コスト最適化
コストの最適化により、コストを低く抑えながらビジネスの価値を最大限に高めることができます。
-
コールドデータを階層化してTCOを最適化
SSD ストレージ層の使用率を削減するには、コールド データ階層化を有効にする必要があります。すべてのボリュームに階層化ポリシーを適用することをお勧めします。FSx for ONTAP はデータを継続的にスキャンしてコールドデータを検出し、中断することなく容量ストレージプール層に移動します。
-
ストレージ効率を向上
ストレージ使用率を最適化し、SSD 層のコストを削減するには、ストレージ効率 (圧縮、圧縮、重複排除) を有効にする必要があります。
-
不要なスナップショットとバックアップの削除
不要になったスナップショットとバックアップは、コストを削減するために削除する必要があります。
-
孤立したブロックデバイス
ブロックデバイスが7日間使用されなかった場合、Workload Factoryはブロックデバイスデータをアーカイブするか、未使用のブロックデバイスを削除してコストを削減することを推奨します。
データベースワークロードのベストプラクティスと推奨事項
Workload Factory は、適切に設計されたデータベース ワークロードを運用するためのベスト プラクティスと推奨事項のセットを提供します。Well-Architected 分析では、ストレージのサイズ設定、ストレージ レイアウト、ストレージ構成、コンピューティング、アプリケーション (SQL Server)、および回復力に関連するMicrosoft SQL Serverおよび Oracle データベースの構成と設定を評価します。
ストレージのサイズ
-
ストレージ層
最高のストレージパフォーマンスを得るには、プライマリSSD階層にFSx for ONTAPボリュームを作成します。容量プール階層を使用すると、パフォーマンスが低下し、レイテンシが増加する可能性があります。
-
ファイルシステムのヘッドルーム
ストレージパフォーマンスを最適化するには、ファイルシステム容量をボリュームの合計サイズの1.35倍に設定します。
ファイル システムのヘッドルーム パーセンテージは次のとおりです。
-
不足: < 35%
-
最適化: 35~100%
-
過剰プロビジョニング: > 100%
-
-
ログドライブのサイズ
ログ ドライブがいっぱいになることで発生するトランザクションのロールバック、データベースの使用不可、データ破損、パフォーマンスの低下などの問題を防ぐために、SQL Server ログ ドライブの正確なサイズ設定と定期的な監視を確実に実行します。
ログ ドライブのサイズの割合は次のとおりです。
-
不足: < 20%
-
最適化: 20~30%
-
過剰プロビジョニング: > 30%
-
-
TempDB ドライブのサイズ
パフォーマンスを最適化し、全体的な安定性を維持するために、SQL Server TempDB の正確なサイズ設定と定期的な監視を確実に実行します。適切に構成された TempDB は、パフォーマンスの問題や不安定さを防ぎます。スペースが不足したり競合が多発したりすると、クエリの速度低下、アプリケーションのタイムアウト、システムクラッシュが発生する可能性があります。
TempDB ドライブ サイズの割合は次のとおりです。
-
不足: < 10%
-
最適化: 10~20%
-
過剰プロビジョニング: > 20%
-
ストレージレイアウト
-
データファイル(.mdf)の配置
データファイルとログファイルを別のドライブに分離することで、パフォーマンスが向上し、独立したバックアップスケジュールが有効になり、リストア機能が向上します。小規模なデータベースの場合は、データとログのLUNパスを異なるボリュームに分離します。この分離は、複数の大規模なデータベース(> 500 GiB)で必要です。
-
ログファイル(.ldf)の配置
データファイルとログファイルを別のドライブに分離することで、パフォーマンスが向上し、独立したバックアップスケジュールが有効になり、リストア機能が向上します。小規模なデータベースの場合は、データとログのLUNパスを異なるボリュームに分離します。この分離は、複数の大規模なデータベース(> 500 GiB)で必要です。
-
TempDB の配置
TempDB を専用のドライブに配置することで、TempDB I/O を分離し、他のデータベースからの I/O 競合を回避します。この最適化により、SQL Server の全体的なパフォーマンスと安定性が向上します。これを怠ると、重大な I/O ボトルネック、クエリ パフォーマンスの低下、システムの不安定化が発生する可能性があります。
ストレージ構成
-
* ONTAP構成*
エンティティ 設定 推奨事項 Volume
-
シンプロビジョニング (-space-guarantee = none)
-
自動サイズ設定オン
-
自動サイズモード = 拡大
-
部分準備金 = 0%
-
スナップショットコピーリザーブ = 0%
-
スナップショットの自動削除(ボリューム/古いものから)
-
スペース管理の試行を最初に実行 = volume_grow
ストレージ効率とコスト効率を最適化するには、FSx for ONTAPボリュームのシンプロビジョニング、自動サイズ設定、およびスペース管理オプションを設定します。シン プロビジョニングを行わないと、ストレージは事前に割り当てられるため、非効率的な使用と過剰プロビジョニングによるコストの増加につながります。静的割り当てでは未使用の容量に対して料金が発生し、経費が増加します。動的割り当てが行われないため、スケーラビリティと柔軟性が低下し、パフォーマンスに影響を及ぼします。また、スペースの再利用を行わないと、削除されたデータがスペースを占有し、効率が低下します。
Volume
-
階層化ポリシー = スナップショットのみ
-
階層化最小冷却日数 = 7
最適なデータベース パフォーマンスとコスト効率を実現するために、Workload Factory ではスナップショットのみを容量層に移動することを推奨しています。この戦略により、コストを削減しながら高いパフォーマンスが保証されます。特に、7 日以上経過したスナップショットを階層化することをお勧めします。
LUN
OSの種類 = windows_2008
ONTAP LUN OS タイプ値は、I/O アライメントを実現するために、オペレーティングシステムのパーティションスキームと一致する必要があります。構成が正しくない場合、パフォーマンスが最適にならない可能性があります。
LUN
スペース予約が有効
スペース リザベーションを有効にすると、 ONTAP はボリューム内に十分なスペースを予約し、ディスク スペース不足のために LUN への書き込みが失敗しないようにします。
LUN
スペース割り当てが有効
このオプションにより、ボリュームがいっぱいになって書き込みを受け付けなくなったときに、FSx for ONTAPが EC2 ホストに通知するようになります。この設定により、EC2 ホスト上の SQL Server がデータを削除したときに、FSx for ONTAPが自動的にスペースを再利用することも可能になります。無効にすると、書き込みが失敗する可能性があり、スペースが効率的に利用されない可能性があります。
-
-
Windows ストレージ構成
エンティティ 設定 推奨事項 Microsoft マルチパス I/O (MPIO)
-
ステータス = 有効
-
ポリシー = ラウンドロビン
-
セッション数 = 5
FSx for ONTAPでプロビジョニングされた基盤となる LUN を持つ EC2 上のMicrosoft SQL Serverデータベースの最適な稼働時間とデータアクセスの一貫性を確保するために、Workload Factory では、マルチパス I/O (MPIO) を有効にして設定することを推奨しています。MPIO は FSx for ONTAPへの複数のパスを提供し、回復力とパフォーマンスの両方を強化します。このベスト プラクティスは、コンポーネントに障害が発生した場合でもデータ アクセスを維持することで、潜在的なデータ損失やダウンタイムを防ぎます。
アロケーションユニットサイズ
NTFSアロケーションユニットサイズ = 64K
NTFSアロケーションユニットサイズを64Kに設定すると、ディスクスペースをより有効に活用し、断片化を減らし、ファイルの読み取り / 書き込みパフォーマンスを向上させることができます。これを適切に構成しないと、ディスクの使用効率が低下し、パフォーマンスが低下する可能性があります。
-
コンピューティング
-
コンピューティングの適正化
SQL Server EC2 インスタンスの最適なパフォーマンスとコスト効率を確保するには、ワークロードの需要に基づいて適切なサイズを設定することをお勧めします。現在のインスタンスが不足している場合は、アップグレードすると CPU、メモリ、I/O 容量が強化されます。過剰にプロビジョニングされている場合は、ダウングレードすることでパフォーマンスを維持しながらコストを削減できます。
-
オペレーティング システム パッチ
Workload Factory では、セキュリティを確保し、 SQL Server データベースを脆弱性から保護し、システムの信頼性を向上させるために、最新のパッチを適用することを推奨しています。
-
ネットワークアダプタの設定
Microsoft SQL Serverインスタンスで最適なネットワーク パフォーマンスを得るには、受信側スケーリング (RSS) を正確に構成することが不可欠です。RSS はネットワーク処理を複数のプロセッサに分散し、ボトルネックを防止してシステム パフォーマンスを向上させます。Workload Factory では、次の RSS 設定を推奨しています。
-
TCP オフロード機能を無効にする: すべての TCP オフロード機能が無効になっていることを確認します。
-
受信キューの数: vCPU が 8 を超える場合は 8 に設定します。vCPU が 8 以下の場合は、vCPU の数に設定します。
-
RSS プロファイル: NUMAStatic に設定します。
-
ベースプロセッサ番号: 2 に設定します。
これらの設定に従うと、Microsoft SQL Serverインスタンスのパフォーマンスと信頼性が向上します。本番環境に変更を加える前に、推奨設定をテストしてパフォーマンスの向上を確認することをお勧めします。
-
アプリケーション (SQL Server)
-
ライセンス
SQL Server ライセンスの評価と推奨は、ホスト レベルで提供されます。
最適化されていません: データベース インフラストラクチャが、支払っている商用ソフトウェア ライセンスの機能をまったく使用していないことを Workload Factory が検出した場合、ライセンスは「最適化されていない」とみなされます。最適化されていないライセンスでは、不必要なコストが発生する可能性があります。
最適化: データベースの商用ソフトウェア ライセンスがパフォーマンス要件を満たしている場合、ライセンスは「最適化」されているとみなされます。
-
* Microsoft SQL Serverパッチ*
Workload Factory では、セキュリティを確保し、 SQL Server データベースを脆弱性から保護し、システムの信頼性を向上させるために、最新のパッチを適用することを推奨しています。
-
マックスドップ
並行処理のバランスをとることでクエリのパフォーマンスを最適化するには、最大並列度 (MAXDOP) を設定します。正確な MAXDOP 構成により、パフォーマンスと効率が向上します。通常、MAXDOP を 4、8、または 16 に設定すると、ほとんどのユース ケースで最適な結果が得られます。ワークロードをテストし、CXPACKET などの並列処理関連の待機タイプを監視することをお勧めします。
信頼性
-
* ONTAPバックアップ用に FSx をスケジュールする*
Microsoft SQL Server ボリュームのバックアップは、データ保持とコンプライアンス要件をサポートするために不可欠です。FSx for ONTAP バックアップを使用して、SQL Server データの自動バックアップと保持を設定します。
-
ローカルスナップショットをスケジュールする
効率的なバックアップと迅速な復元のためにローカル スナップショットをスケジュールします。スナップショットは、ボリュームの即時のポイントインタイムのイメージです。
-
クロスリージョンレプリケーション
クロスリージョンレプリケーションにより、データが別の AWS リージョンにレプリケートされ、データの耐久性と可用性が向上します。Workload Factory では、災害復旧とコンプライアンスを支援するために、クロスリージョンレプリケーションを設定することを推奨しています。
EVS ワークロードのベストプラクティスと推奨事項
Workload Factory は、適切に設計された Amazon Elastic VMware Service (EVS)ワークロードを運用するためのベストプラクティスと推奨事項を提供します。Well-Architected 分析では、EVS 構成を評価して、VMware 環境が信頼性、セキュリティ、運用の卓越性、コストの最適化、パフォーマンス効率に最適化されていることを確認します。VMware の Well-Architected ステータスタブでは、EVS 環境に Well-Architected のベストプラクティスを実装するのに役立つ分析情報と推奨事項が見つかります。
Well-Architected 分析では、フレームワークの次の柱である 信頼性 と セキュリティ に基づいて構成を分類します。
信頼性
信頼性により、中断が発生した場合でも、ワークロードが意図した機能を正しく一貫して実行することが保証されます。
-
EVS環境の回復力
EVS クラスタノードがパーティション配置グループ全体に適切に分散されていることを確認します。すべてのノードは、4 つ以上のパーティションで構成された単一のパーティション配置グループのメンバーである必要があります。パーティションを適切に配置することで、EVS クラスタノードが AWS アベイラビリティゾーン内の障害が分離された複数のハードウェアパーティションに分散されます。不整合により、パーティションに障害が発生した場合に、処理能力が大幅に低下したり、ダウンタイムが発生する可能性があります。
セキュリティ
セキュリティでは、リスク評価と軽減戦略を通じてデータ、システム、資産を保護することに重点が置かれます。
-
クラスタノード管理
EVS クラスタノードに適切な EC2 停止および終了保護が設定されていることを確認します。EVS ESXi ノードは、vCenter またはその他の VMware レベルの管理ツールを使用してのみ管理する必要があります。適切な EC2 レベルの保護がないと、EC2 コンソールからノードが誤って停止または終了される可能性があり、仮想マシンのデータが使用できなくなったり、データが失われたりする可能性があります。