AWS

タグ:

#HyperPod

2件のアップデート

SageMaker2026年3月4日

Amazon SageMaker HyperPodが制限付きインスタンスグループの包括的な可観測性を提供

Amazon SageMaker HyperPodが、Restricted Instance Groupsの監視機能を大幅に強化し、GPU利用率やNVLink帯域幅、CPU負荷、FSx for Lustre使用状況、Podライフサイクルなどを単一のAmazon Managed Grafanaダッシュボードで一元監視できるようになりました。トレーニングログも自動的に利用可能になり、新規クラスタ作成時に自動有効化されるため、導入の手間が最小限に抑えられます。これにより、複数のインフラリソースにわたるメトリクスの手動収集が不要になり、Foundation Modelのトレーニング時に計算リソースと学習ワークロードの可視性が大幅に向上します。

SageMaker2026年2月26日

Amazon SageMaker HyperPodがAPIドリブンのSlurm設定に対応しました

Amazon SageMaker HyperPodはAPI駆動のSlurm設定に対応し、クラスター作成・更新APIまたはAWSコンソールからSlurmトポロジーと共有ファイルシステム設定を直接定義できるようになりました。Managed、Overwrite、Mergeの3つのSlurmConfigStrategyオプションにより、パーティション・ノードマッピングのドリフトを自動検出・管理し、スケール操作時の設定ズレを防ぐことができます。この改善により、大規模MLクラスターの運用効率が向上し、LLMや基盤モデルのような複雑なワークロード実行時のリソース割り当てを柔軟かつ安全に制御できます。