Amazon SageMaker HyperPod Slurm クラスターで最小容量要件(MinCount)による継続的プロビジョニングをサポート
Amazon SageMaker HyperPod Slurm clusters now support specifying minimum capacity requirements with continuous provisioning
概要
Amazon SageMaker HyperPod Slurm クラスターで、最小容量要件(MinCount)を指定する機能が追加されました。この機能により、分散トレーニングジョブ開始前に必要最小限のインスタンス数が確実にプロビジョニングされるよう制御できます。MinCount はすべてのAWSリージョンで利用可能です。
何が変わったか
- ・CreateCluster または UpdateCluster API で MinInstanceCount パラメータを指定できるようになった
- ・インスタンスグループが MinCount に達するまで Creating または Updating ステータスのままになり、達成後に InService へ遷移する
- ・MinCount が3時間以内に満たされない場合、自動的に最後の正常な状態にロールバックする
影響
既存ユーザーはオプション機能として使用でき、API呼び出しに MinInstanceCount パラメータを追加することで利用可能です。移行は不要ですが、最小容量を確保したいワークロードについては API リクエストの更新が必要です。
対象ユーザー
PyTorch FSDP や Megatron-LM など分散トレーニングフレームワークを使用するMLエンジニア、およびSLA達成やコスト効率最適化が必要な企業データサイエンスチーム
まとめ
Amazon SageMaker HyperPod Slurm クラスターで MinCount によるジョブスケジューリング前の最小容量要件指定をサポートしました。
原文タイトル
Amazon SageMaker HyperPod Slurm clusters now support specifying minimum capacity requirements with continuous provisioning
AWS公式アナウンスを読む →