Amazon SageMaker HyperPodが自動Slumトポロジー管理に対応
Amazon SageMaker HyperPod now supports automatic Slurm topology management
概要
Amazon SageMaker HyperPodは、GPU インスタンスタイプに基づいてSlumクラスタの最適なネットワークトポロジー構成を自動選択・管理する機能を開始しました。クラスタのスケーリングやノード置換時にトポロジーが自動的に更新されるため、手動での設定変更が不要になります。ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge、ml.p6e-gb200.NVL72などのGPUインスタンスタイプに対応しており、全AWSリージョンで利用可能です。
何が変わったか
- ・GPU インスタンスタイプの特性を検査して最適なトポロジー(ツリートポロジーまたはブロックトポロジー)を自動選択
- ・クラスタのスケールアップ、スケールダウン、ノード置換時にトポロジー構成が自動更新される
- ・トポロジー対応スケジューリングがデフォルトで有効になり、設定不要で利用可能
影響
既存ユーザーへの影響はなく、トポロジー対応スケジューリングがデフォルトで有効になるため追加の移行作業は不要です。既存クラスタの性能が自動的に最適化される可能性があります。
対象ユーザー
SageMaker HyperPodで分散GPU学習を実行するMLエンジニアやデータサイエンティスト
まとめ
SageMaker HyperPodが、Slumクラスタのネットワークトポロジーを自動選択・管理し、分散学習のGPU通信性能を自動最適化する機能に対応しました。
原文タイトル
Amazon SageMaker HyperPod now supports automatic Slurm topology management
AWS公式アナウンスを読む →