AWS
← アップデート一覧に戻る
SageMaker2026年4月21日

Amazon SageMaker AIが生成AI向けの最適化された推論レコメンデーションを提供開始

Amazon SageMaker AI launches optimized generative AI inference recommendations

概要

SageMaker AIに、生成AIモデルの最適なデプロイ構成を推論レコメンデーション機能が追加された。モデルアーキテクチャを分析し、複数インスタンスタイプで最適化を適用。NVIDIA AIPerfを用いた実GPUインフラでのベンチマークにより、コスト・レイテンシ・スループットのいずれかを目標に設定して推奨構成を得られる。

何が変わったか

  • 複数インスタンスタイプを横断してモデルを自動ベンチマーク・最適化
  • NVIDIA AIPerfを用いた実GPUインフラでのベンチマークに対応
  • コスト最適化・レイテンシ最小化・スループット最大化の3つの目標から選択可能
  • TTFT・トークン間レイテンシ・リクエストレイテンシパーセンタイル・スループット・コスト予測を提供

影響

既存のSageMaker AIデプロイメントへの強制変更はなし。新規デプロイや最適化検討時に推論レコメンデーションを使って構成選択を自動化できる。

対象ユーザー

SageMaker AI上で生成AIモデルをデプロイするMLエンジニア・モデル開発者。特にインフラ構成のチューニング工数を削減したいチーム

まとめ

SageMaker AIが生成AIモデルの推論構成を自動最適化する機能を追加し、手動ベンチマーク作業を省けるようになった。

原文タイトル

Amazon SageMaker AI launches optimized generative AI inference recommendations

AWS公式アナウンスを読む →

関連ブログ記事

関連アップデート