AWS PCS、本番環境対応のディープラーニングAMIを提供開始
AWS Parallel Computing Service(AWS PCS)がPCS対応のディープラーニングAMI(Deep Learning Base GPU AMI on Ubuntu 24.04ベース)を提供開始しました。このAMIには、AI/MLトレーニングとHPC向けのコアインフラストラクチャコンポーネントが事前インストール・テスト済みで、本番環境での利用に対応しています。x86_64とarm64の両アーキテクチャに対応し、AWS PCS利用可能なすべてのリージョンで追加料金なく利用できます。
Amazon SageMaker HyperPod Slurm クラスターで最小容量要件(MinCount)による継続的プロビジョニングをサポート
Amazon SageMaker HyperPod Slurm クラスターで、最小容量要件(MinCount)を指定する機能が追加されました。この機能により、分散トレーニングジョブ開始前に必要最小限のインスタンス数が確実にプロビジョニングされるよう制御できます。MinCount はすべてのAWSリージョンで利用可能です。
Amazon SageMaker HyperPodが自動Slumトポロジー管理に対応
Amazon SageMaker HyperPodは、GPU インスタンスタイプに基づいてSlumクラスタの最適なネットワークトポロジー構成を自動選択・管理する機能を開始しました。クラスタのスケーリングやノード置換時にトポロジーが自動的に更新されるため、手動での設定変更が不要になります。ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge、ml.p6e-gb200.NVL72などのGPUインスタンスタイプに対応しており、全AWSリージョンで利用可能です。
Amazon SageMaker HyperPod のオンデマンド深度ヘルスチェック機能
Amazon SageMaker HyperPodが、Amazon EKSおよびSlurm構成のクラスタに対するオンデマンド深度ヘルスチェック機能をサポート開始しました。実行中のインスタンスのGPUアクセラレータのヘルスをいつでも事前に検証できるようになります。Slurm構成のクラスタではクラスタ作成時のノードプロビジョニング中に深度ヘルスチェックを実施することも可能です。