Amazon SageMaker JumpStartで音声認識と音声合成の3つの新モデルが利用可能に
Three new models for speech recognition and text-to-speech are now available in Amazon SageMaker JumpStart
概要
AWS は Qwen3 シリーズの3つの音声処理モデルを Amazon SageMaker JumpStart で利用可能にしました。カスタマイズ可能な音声スタイルの多言語テキスト音声合成、3秒の高速音声クローニング、52言語対応の自動音声認識の機能が提供されます。これらのモデルは10言語以上をサポートし、AWS インフラストラクチャ上でインテリジェントな音声駆動アプリケーションを構築できます。
何が変わったか
- ・Qwen3-TTS-12Hz-1.7B-CustomVoice:10言語対応で、指示駆動による音色・感情・音韻のカスタマイズが可能
- ・Qwen3-TTS-12Hz-1.7B-Base:3秒の音声入力からの高速音声クローニング機能をサポート
- ・Qwen3-ASR-1.7B:52言語・方言対応で、複雑な音響環境での最先端精度の自動音声認識を実現
影響
既存ユーザーは段階的に新モデルを採用でき、SageMaker Studio または Python SDK から直ちにモデルをデプロイ可能です。互換性問題や移行の強制はありません。
対象ユーザー
多言語音声アプリケーション、バーチャルアシスタント、カスタマーサポート、リアルタイム字幕サービスを構築する ML エンジニア・開発者
まとめ
SageMaker JumpStart で Qwen3 の音声認識・テキスト音声合成モデル(10言語以上、52言語 ASR 対応)が利用可能になった。
原文タイトル
Three new models for speech recognition and text-to-speech are now available in Amazon SageMaker JumpStart
AWS公式アナウンスを読む →