AI音声技術のグローバルリーダーであるイレブンラボ(本社:米国ニューヨーク州)は2025年6月6日、史上最も表現力豊かなテキスト読み上げ(TTS)モデル「Eleven v3(α)」を発表した。これまでのTTS技術とは一線を画すこの新モデルは、日本語対応の精度を飛躍的に向上させるとともに、音声の「感情表現」や「対話性」を実現し、音声AIが「演じる」段階へと進化した。

Eleven v3は新たなアーキテクチャにより構築され、従来の単調な読み上げを脱し、話者の切り替えや途中でのトーン変更、ささやきや笑い声、拍手、ため息といった非言語的な表現までも可能とした。これにより、AI音声は従来の「合成音声」の域を超え、まるで舞台の演技のような臨場感と自然さを実現。ユーザーはテキストに対し、感情や演出効果を盛り込んだ細やかな指示を加えることで、これまでにない音声体験を得られる。

対応言語数もこれまでの33言語から70以上に拡大され、世界人口の約90%をカバーする。日本語においては、これまで課題とされていたイントネーションの自然さや文脈理解が著しく向上しており、関西弁やスポーツ実況風の読み上げといったニーズにも柔軟に応える。また、文中の雰囲気や話者の感情の変化を自動で反映し、ひとつの文章内でも滑らかに感情や語調を変化させることが可能だ。

今回リリースされたのはアルファ版であるため、ユーザーはより精緻な操作とプロンプト設計が求められるものの、それに応じた表現力が得られる仕様となっている。企業やクリエイターが求める高品質な音声制作に対応し、ストリーミング対応や公開APIも近日中に提供予定である。

イレブンラボの共同創設者兼CEOであるマティ・スタニシェフスキ氏は、「Eleven v3は感情や非言語表現まで理解・制御可能な、最も表現豊かなTTSモデルだ。70以上の言語でスタイル、トーン、スピードを自在に調整できることは大きな進化であり、私たちのグローバルな目標の一つが達成された瞬間でもある」と語っている。

さらに、日本市場においては、2025年4月に設立されたイレブンラボジャパン合同会社がアジア地域での展開を本格化させており、日本語の読み上げ精度向上は最優先事項として取り組んできた。Japan & Koreaゼネラルマネージャーの田村元氏は、「日本語TTSの劇的な進化により、行政機関の情報多言語化、障がい者支援、コンタクトセンターでのAI対応、さらにはアニメやゲームといった日本の強みを活かしたクリエイティブ産業にも大きな可能性が開かれる」と強調する。

また、従来のモデルであるv2.5 TurboやFlashは、応答速度を重視するリアルタイム対話などに引き続き適しており、v3のリアルタイム版も現在開発中だ。v3のリリースにあわせて、6月中はユーザーインターフェース(UI)上での利用料が80%オフになるキャンペーンも実施されている。

イレブンラボは2022年の創業以来、企業や個人向けにAI音声生成サービスを提供し、フォーチュン500企業の7割以上に導入されるなど、業界をリードしてきた。今回のv3の登場により、AI音声は読み上げ技術から「声の演出」へと進化し、新たな表現の時代を切り開こうとしている。