Amazon SageMaker AIが複数ターンの強化学習によるAIエージェントモデルカスタマイズを開始
Amazon SageMaker AI launches multi-turn reinforcement learning for AI agent model customization
概要
Amazon SageMaker AIは複数ステップのエージェントタスクにおいて、ファウンデーションモデルを微調整するための複数ターン強化学習(Multi-turn RL)をサーバーレスで提供開始しました。この機能により、ユーザーは小規模で低コストなモデルを、大規模汎用モデルと同等かそれ以上のタスク精度を達成するように特化させることが可能になります。SageMaker Studioおよび Python SDKを通じて、米国西部2(us-west-2)および米国東部1(us-east-1)で複数のモデル(Qwen 3.6 27B、Nova Lite 2.0、GPT-OSS-20B、Gemma 31B)に対応しています。
何が変わったか
- ・SageMaker AIで複数ターン強化学習(Multi-turn RL)がサーバーレス機能として利用可能になった
- ・Qwen 3.6 27B、Nova Lite 2.0、GPT-OSS-20B、Gemma 31Bのモデルが対応し、us-west-2およびus-east-1で利用可能
- ・エージェント環境に対するトレーニングループの完全管理、MLflow追跡、評価メトリクス(reward、pass@k、trajectory)レポート機能が組み込まれた
影響
既存SageMaker AIユーザーは新機能として追加利用可能であり、強化学習ベースのモデルカスタマイズを求める場合は新機能を活用できます。既存のSupervisedFinetuning、RLVR、RLAIFのワークフローに影響はありません。
対象ユーザー
複数ステップの意思決定が必要なAIエージェント機能を実装したいMLエンジニアおよび開発者
まとめ
SageMaker AIがマルチステップエージェントタスク向けの複数ターン強化学習をサーバーレスで提供開始し、モデルカスタマイズの複雑性を軽減しました。
原文タイトル
Amazon SageMaker AI launches multi-turn reinforcement learning for AI agent model customization
AWS公式アナウンスを読む →