AWS Batch、SageMaker Training ジョブのクォータ管理とプリエンプション機能をサポート
AWS Batch now supports quota management and preemption for SageMaker Training jobs
概要
AWS Batch は SageMaker Training ジョブに対してクォータ管理とジョブプリエンプション機能を追加しました。これにより、チームやプロジェクト間で計算リソースを効率的に割り当て・共有できます。GPU容量を使用する場合、優先度の高いトレーニングジョブを優先し、低優先度のワークロードを自動的に中断することが可能になります。
何が変わったか
- ・ジョブキューごとに最大20個のクォータシェア(仮想キュー)機能を追加
- ・クロスシェアプリエンプション(元のオーナーがジョブ投入時に借用容量を自動回復)とシェア内プリエンプション(同一シェア内で優先度ベースの中断)に対応
- ・キュー・クォータシェア・ジョブレベルでの容量利用状況の監視、送信後の優先度変更、プリエンプション再試行制限の設定が可能に
影響
データサイエンティストと ML エンジニアは、複数の並行実験がある場合でも、優先度ベースでリソースを自動的に最適配分できるようになり、運用負荷が軽減されます。組織全体での計算コストの効率化と、ビジネス上重要なジョブの確実な実行が実現します。
対象ユーザー
MLエンジニアデータサイエンティストクラウドインフラストラクチャ管理者機械学習プラットフォーム運用者
まとめ
SageMaker Training ジョブに対するクォータ管理とプリエンプション機能の追加により、マルチチーム環境でのGPUリソース共有と優先度制御が実現しました。
原文タイトル
AWS Batch now supports quota management and preemption for SageMaker Training jobs
AWS公式アナウンスを読む →