AWS
← アップデート一覧に戻る
SageMaker2026年3月4日

Amazon SageMaker HyperPodが制限付きインスタンスグループの包括的な可観測性を提供

Amazon SageMaker HyperPod now provides comprehensive observability for Restricted Instance Groups

概要

Amazon SageMaker HyperPodが、Restricted Instance Groupsの監視機能を大幅に強化し、GPU利用率やNVLink帯域幅、CPU負荷、FSx for Lustre使用状況、Podライフサイクルなどを単一のAmazon Managed Grafanaダッシュボードで一元監視できるようになりました。トレーニングログも自動的に利用可能になり、新規クラスタ作成時に自動有効化されるため、導入の手間が最小限に抑えられます。これにより、複数のインフラリソースにわたるメトリクスの手動収集が不要になり、Foundation Modelのトレーニング時に計算リソースと学習ワークロードの可視性が大幅に向上します。

何が変わったか

  • GPU利用率、NVLink帯域幅、CPU負荷などのメトリクスをあらかじめ設定されたAmazon Managed Grafanaダッシュボードで単一ビュー監視可能に
  • FSx for Lustre使用状況とPodライフサイクルの監視機能を追加
  • トレーニングログが自動的に利用可能になり、新規クラスタ作成時に自動有効化

影響

複数のインフラリソースにわたるメトリクスの手動収集・相関付けが不要になり、Foundation Modelのトレーニング時のリソース可視性が大幅に向上します。トレーニング失敗時の診断が容易になり、運用の効率化が実現します。

対象ユーザー

Foundation Model開発チーム、MLエンジニア、データサイエンティスト、機械学習インフラ管理者

まとめ

SageMaker HyperPodにおけるトレーニング環境の可観測性と監視体験の強化といえます。

原文タイトル

Amazon SageMaker HyperPod now provides comprehensive observability for Restricted Instance Groups

AWS公式アナウンスを読む →