AI音声合成のElevenLabs、最新モデル「Eleven V3」で新たに41言語を追加サポート

ニューヨークに拠点を置く人工知能（AI）スタートアップのElevenLabsは、最新のテキスト読み上げ（TTS）モデル「Eleven V3」の対応言語を拡張し、新たに41の言語を追加したと発表しました。これにより対応言語数は合計70となり、世界人口の約90％が同社のモデルを利用可能となります。同社は6月8日に「Eleven V3（アルファ版）」を発表しており、「これまでで最も表現力豊かなTTSモデル」と位置付けています。

ElevenLabsの公式アカウントは先週、Eleven V3がアラビア語、アッサム語、ベンガル語、ブルガリア語、カタルーニャ語、グジャラート語、ラトビア語、マレー語、マラヤーラム語、マラーティー語、ネパール語、スワヒリ語、タミル語、テルグ語などの新言語を含む41言語に新たに対応したことを発表しました。新しく追加された言語で音声を生成する際には、選択した言語で「インスタントボイスクローン（IVC）」を録音するように推奨されています。さらにElevenLabsは、今後数週間で新言語向けのボイスライブラリ音声の追加も予定しているということです。

Eleven V3は、これまで提供されていた多言語対応のV2およびV2.5モデルの後継となります。最新モデルでは、ささやき、興奮、ため息といった感情表現を加えることができるインラインオーディオタグをサポートしており、音声生成に感情の細やかなニュアンスや非言語的表現、ドラマチックな演出を盛り込むことが可能となります。また、複数の話者間での自然な割り込みや重なり合う会話、話し方のペースを表現でき、強調、リズム、文脈への適応性も向上しています。現在Eleven V3は、同社のウェブサイトとモバイルアプリを通じて利用可能ですが、APIとしてはまだ提供されていません。さらにElevenLabsは今年4月、企業向けの新機能として、エージェント間で会話を引き継ぐことができる「Agent Transfer」を発表しました。これは同社の会話型AIの一部であり、2つのAIエージェント間で会話データを共有し、より専門的な別のエージェントに会話を引き継げる仕組みを提供します。

ElevenLabsについて
ElevenLabsはニューヨークに本拠を置くAIスタートアップで、テキストから音声を生成する革新的なAI技術を提供しています。2022年に設立され、表現豊かで高品質なAI音声合成技術により、個人ユーザーから企業まで幅広く支持されています。

TagsAIUnited States