Amazon SageMaker AIが生成AI向けの最適化された推論レコメンデーションを提供開始
Amazon SageMaker AI launches optimized generative AI inference recommendations
概要
SageMaker AIに、生成AIモデルの最適なデプロイ構成を推論レコメンデーション機能が追加された。モデルアーキテクチャを分析し、複数インスタンスタイプで最適化を適用。NVIDIA AIPerfを用いた実GPUインフラでのベンチマークにより、コスト・レイテンシ・スループットのいずれかを目標に設定して推奨構成を得られる。
何が変わったか
- ・複数インスタンスタイプを横断してモデルを自動ベンチマーク・最適化
- ・NVIDIA AIPerfを用いた実GPUインフラでのベンチマークに対応
- ・コスト最適化・レイテンシ最小化・スループット最大化の3つの目標から選択可能
- ・TTFT・トークン間レイテンシ・リクエストレイテンシパーセンタイル・スループット・コスト予測を提供
影響
既存のSageMaker AIデプロイメントへの強制変更はなし。新規デプロイや最適化検討時に推論レコメンデーションを使って構成選択を自動化できる。
対象ユーザー
SageMaker AI上で生成AIモデルをデプロイするMLエンジニア・モデル開発者。特にインフラ構成のチューニング工数を削減したいチーム
まとめ
SageMaker AIが生成AIモデルの推論構成を自動最適化する機能を追加し、手動ベンチマーク作業を省けるようになった。
原文タイトル
Amazon SageMaker AI launches optimized generative AI inference recommendations
AWS公式アナウンスを読む →