Amazon SageMaker HyperPodがEFA専用（EFA-only）ネットワークインターフェイスをサポートするようになりました。これにより、IP アドレッシング用の Elastic Network Adapter (ENA) を接続せず、Elastic Fabric Adapter (EFA) デバイスを専用で構成できます。VPC内のIPアドレス枯渇のリスクなしに、AI/MLクラスタをさらに大規模に拡張できるようになります。

#SageMaker #HyperPod #EFA #ネットワーキング #分散学習 #AI/ML

SageMaker2026年6月1日

Amazon SageMaker HyperPodがAIコーディングアシスタント向けトラブルシューティング機能を提供開始

Amazon SageMaker HyperPodは、Claude Code、Cursor、KiroなどのAIコーディングアシスタントに統合できるトラブルシューティング機能を提供開始しました。この機能により、ユーザーは自然言語を通じてGPUハードウェア障害、NCCL通信障害、パフォーマンスボトルネックを診断・解決できるようになります。HyperPodの既存インフラストラクチャに対する変更は不要で、SageMaker AIスキルプラグイン経由でオープンソースとして利用可能です。

#Amazon SageMaker #HyperPod #AIコーディングアシスタント #トラブルシューティング #分散学習 #クラスター診断 #オープンソース

詳細を見る →

SageMaker2026年5月27日

Amazon SageMaker HyperPod Slurm クラスターで最小容量要件（MinCount）による継続的プロビジョニングをサポート

Amazon SageMaker HyperPod Slurm クラスターで、最小容量要件（MinCount）を指定する機能が追加されました。この機能により、分散トレーニングジョブ開始前に必要最小限のインスタンス数が確実にプロビジョニングされるよう制御できます。MinCount はすべてのAWSリージョンで利用可能です。

#SageMaker #HyperPod #Slurm #分散トレーニング #容量管理 #MinCount

詳細を見る →

SageMaker2026年5月20日

Amazon SageMaker HyperPodで推論ワークロードのデータキャプチャに対応

Amazon SageMaker HyperPodが推論リクエスト・レスポンスペイロードを記録するデータキャプチャ機能をサポートしました。SageMakerエンドポイント、ロードバランサー、またはモデルポッドのいずれかのレベルでキャプチャを選択でき、複数オプションの組み合わせで階層化された可視性を実現できます。キャプチャされたデータはAmazon S3に非同期で配信され、カスタマー管理のAWS KMSキーによる暗号化とサンプリング設定に対応しています。

#SageMaker #HyperPod #推論 #データキャプチャ #モデル監視 #コンプライアンス

詳細を見る →

SageMaker2026年4月17日

Amazon SageMaker HyperPod のオンデマンド深度ヘルスチェック機能

Amazon SageMaker HyperPodが、Amazon EKSおよびSlurm構成のクラスタに対するオンデマンド深度ヘルスチェック機能をサポート開始しました。実行中のインスタンスのGPUアクセラレータのヘルスをいつでも事前に検証できるようになります。Slurm構成のクラスタではクラスタ作成時のノードプロビジョニング中に深度ヘルスチェックを実施することも可能です。

#SageMaker #HyperPod #GPU #ヘルスチェック #EKS #Slurm

詳細を見る →

SageMaker2026年4月8日

Amazon SageMaker HyperPod、分散トレーニング向けギャングスケジューリングに対応

Amazon SageMaker HyperPodのタスクガバナンスにギャングスケジューリング機能が追加された。分散トレーニングジョブに必要なすべてのPodが準備完了してから訓練を開始することで、部分的なジョブ実行によるリソース浪費やデッドロックを防止する。EKSオーケストレーターベースのHyperPodクラスターで、15のAWSリージョンで利用可能。

#SageMaker #HyperPod #分散トレーニング #ギャングスケジューリング #EKS

詳細を見る →

SageMaker2026年3月25日

Amazon SageMaker HyperPod、Slurm対応クラスターの継続的プロビジョニングに対応

Amazon SageMaker HyperPodがSlumオーケストレーターを使用するクラスターに対して継続的プロビジョニング機能を拡張しました。これにより、インスタンスグループの一部が完全にプロビジョニングされなくても、利用可能なインスタンスでトレーニングジョブをすぐに開始できるようになりました。複数インスタンスグループの同時スケーリングが可能になり、マニュアル介入なしでクラスターが目標規模に到達することを保証します。

#SageMaker #HyperPod #Slum #プロビジョニング #機械学習 #スケーリング

詳細を見る →

SageMaker2026年3月16日

SageMaker HyperPodがアイドルリソース共有による動的クラスタ利用をサポート

Amazon SageMaker HyperPodのタスク統治機能が、保証されたクォータを超える未割り当てコンピュートリソースの動的共有をサポートするようになりました。管理者はアクセラレータ、vCPU、メモリなどのリソースタイプごとに借用制限を設定できます。高額なコンピュートインスタンスのアイドル化を自動的に検出して効率的に再配置することで、クラスタ利用率の向上と公平なリソース分配が実現します。

#SageMaker #HyperPod #リソース管理 #クラスタ最適化 #生成AI #コスト削減

詳細を見る →

タグ:

Amazon SageMaker HyperPodがEFA専用ネットワークインターフェイスに対応

Amazon SageMaker HyperPodがAIコーディングアシスタント向けトラブルシューティング機能を提供開始

Amazon SageMaker HyperPod Slurm クラスターで最小容量要件（MinCount）による継続的プロビジョニングをサポート

Amazon SageMaker HyperPodで推論ワークロードのデータキャプチャに対応

Amazon SageMaker HyperPod のオンデマンド深度ヘルスチェック機能

Amazon SageMaker HyperPod、分散トレーニング向けギャングスケジューリングに対応

Amazon SageMaker HyperPod、Slurm対応クラスターの継続的プロビジョニングに対応

SageMaker HyperPodがアイドルリソース共有による動的クラスタ利用をサポート