Amazon SageMaker HyperPod のオンデマンド深度ヘルスチェック機能
Amazon SageMaker HyperPodが、Amazon EKSおよびSlurm構成のクラスタに対するオンデマンド深度ヘルスチェック機能をサポート開始しました。実行中のインスタンスのGPUアクセラレータのヘルスをいつでも事前に検証できるようになります。Slurm構成のクラスタではクラスタ作成時のノードプロビジョニング中に深度ヘルスチェックを実施することも可能です。
4件のアップデート
Amazon SageMaker HyperPodが、Amazon EKSおよびSlurm構成のクラスタに対するオンデマンド深度ヘルスチェック機能をサポート開始しました。実行中のインスタンスのGPUアクセラレータのヘルスをいつでも事前に検証できるようになります。Slurm構成のクラスタではクラスタ作成時のノードプロビジョニング中に深度ヘルスチェックを実施することも可能です。
Amazon SageMaker HyperPodのタスクガバナンスにギャングスケジューリング機能が追加された。分散トレーニングジョブに必要なすべてのPodが準備完了してから訓練を開始することで、部分的なジョブ実行によるリソース浪費やデッドロックを防止する。EKSオーケストレーターベースのHyperPodクラスターで、15のAWSリージョンで利用可能。
Amazon SageMaker HyperPodがSlumオーケストレーターを使用するクラスターに対して継続的プロビジョニング機能を拡張しました。これにより、インスタンスグループの一部が完全にプロビジョニングされなくても、利用可能なインスタンスでトレーニングジョブをすぐに開始できるようになりました。複数インスタンスグループの同時スケーリングが可能になり、マニュアル介入なしでクラスターが目標規模に到達することを保証します。
Amazon SageMaker HyperPodのタスク統治機能が、保証されたクォータを超える未割り当てコンピュートリソースの動的共有をサポートするようになりました。管理者はアクセラレータ、vCPU、メモリなどのリソースタイプごとに借用制限を設定できます。高額なコンピュートインスタンスのアイドル化を自動的に検出して効率的に再配置することで、クラスタ利用率の向上と公平なリソース分配が実現します。