AWS Parallel Computing Service（AWS PCS）がPCS対応のディープラーニングAMI（Deep Learning Base GPU AMI on Ubuntu 24.04ベース）を提供開始しました。このAMIには、AI/MLトレーニングとHPC向けのコアインフラストラクチャコンポーネントが事前インストール・テスト済みで、本番環境での利用に対応しています。x86_64とarm64の両アーキテクチャに対応し、AWS PCS利用可能なすべてのリージョンで追加料金なく利用できます。

#AWS PCS #ディープラーニング #AMI #HPC #GPU #Slurm #AI/ML

SageMaker2026年5月27日

Amazon SageMaker HyperPod Slurm クラスターで最小容量要件（MinCount）による継続的プロビジョニングをサポート

Amazon SageMaker HyperPod Slurm クラスターで、最小容量要件（MinCount）を指定する機能が追加されました。この機能により、分散トレーニングジョブ開始前に必要最小限のインスタンス数が確実にプロビジョニングされるよう制御できます。MinCount はすべてのAWSリージョンで利用可能です。

#SageMaker #HyperPod #Slurm #分散トレーニング #容量管理 #MinCount

詳細を見る →

SageMaker2026年4月23日

Amazon SageMaker HyperPodが自動Slumトポロジー管理に対応

Amazon SageMaker HyperPodは、GPU インスタンスタイプに基づいてSlumクラスタの最適なネットワークトポロジー構成を自動選択・管理する機能を開始しました。クラスタのスケーリングやノード置換時にトポロジーが自動的に更新されるため、手動での設定変更が不要になります。ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge、ml.p6e-gb200.NVL72などのGPUインスタンスタイプに対応しており、全AWSリージョンで利用可能です。

#Amazon SageMaker HyperPod #Slurm #分散学習 #ネットワークトポロジー #GPU #自動管理

詳細を見る →

SageMaker2026年4月17日

Amazon SageMaker HyperPod のオンデマンド深度ヘルスチェック機能

Amazon SageMaker HyperPodが、Amazon EKSおよびSlurm構成のクラスタに対するオンデマンド深度ヘルスチェック機能をサポート開始しました。実行中のインスタンスのGPUアクセラレータのヘルスをいつでも事前に検証できるようになります。Slurm構成のクラスタではクラスタ作成時のノードプロビジョニング中に深度ヘルスチェックを実施することも可能です。

#SageMaker #HyperPod #GPU #ヘルスチェック #EKS #Slurm

詳細を見る →

タグ:

AWS PCS、本番環境対応のディープラーニングAMIを提供開始

Amazon SageMaker HyperPod Slurm クラスターで最小容量要件（MinCount）による継続的プロビジョニングをサポート

Amazon SageMaker HyperPodが自動Slumトポロジー管理に対応

Amazon SageMaker HyperPod のオンデマンド深度ヘルスチェック機能