感情表現も可能なAI音声生成、ElevenLabsの新モデルが登場

最近まで生成AIは主にテキストを通じて人間と対話してきましたが、音声技術の進歩に伴い、その表現力は日々向上しています。この分野の最先端を走るAI音声プラットフォームElevenLabsが、新しい音声生成モデル「v3」を発表しました。ElevenLabsは、この新モデルを「これまでで最も感情豊かなテキスト読み上げモデル」と説明しています。今回のv3モデルでは、笑い声やため息、ささやきなど、人間らしい感情表現を多彩に再現できるようになりました。実際に公開されたデモ音声では、男女2人のキャラクターが、新たに獲得した「人間らしい」音声能力について軽快な会話を交わしています。ただ、感情が過剰に表現されている部分もあり、笑い声などはやや不自然に感じられることもあります。

v3モデルは70以上の言語に対応しており、前世代のv2モデル（29言語）を大きく上回っています。この新モデルは現在アルファ版として一般公開されており、今月末までの期間限定で、価格も80％引きとなっています。人間とAIのインタラクションの未来において、音声生成技術は大きな焦点の一つになっています。従来の音声アシスタントであるSiriやAlexaは、単純な指示を処理するには便利ですが、音声が機械的で感情表現が限られているため、本格的な会話には不向きでした。

ElevenLabsのような最新の音声生成モデルは、リアルで感情豊かな会話を可能にするよう設計されています。例えば、v3モデルでは「オーディオタグ」を用いて声のトーンを細かく調整できます。これらのタグには「興奮した」「大声で」「歌う」「笑いながら」「怒った」などのスタイルを自由に設定でき、簡単に音声表現をカスタマイズできます。リアルな音声生成モデルの開発競争は激化しており、ElevenLabs以外にもHume AIが「Empathic Voice Interface（EVI）3」を発表し、自然な言語で声の特徴を指定できるカスタム音声を提供しています。また、Googleも「Gemini 2.5 Pro Flash」モデルで、より微妙なニュアンスの会話能力を提供しています。

ElevenLabsについて
ElevenLabsは、高度なAIを活用してリアルで感情豊かな音声生成を行うスタートアップ企業です。同社の提供する音声プラットフォームは、簡単なカスタマイズ機能と多言語対応を特徴としており、人間らしさを追求した音声生成技術を提供しています。リアルな感情表現を可能にする革新的なAIモデルで、音声インタラクションの未来を切り開いています。

TagsAIUnited States