音声AIのHume、カスタムAI音声作成を可能にする「Voice Control」を発表

音声インターフェースに感情的な知性をもたらすスタートアップHume AIが、AI音声をカスタマイズ可能にする画期的な新機能「Voice Control」を発表しました。この機能は、コーディングやプロンプトエンジニアリング、サウンドデザインのスキルが不要な直感的なスライダーインターフェースを採用し、声の特性を正確に調整できます。

強固な基盤からの進化
「Voice Control」は、Humeの**Empathic Voice Interface 2 (EVI 2)**を基盤に開発されました。EVI 2は、自然さや感情的な応答性、カスタマイズ性で優れた性能を示しており、顧客サービスチャットボットやバーチャルアシスタント、チューター、アクセシビリティツールなど、多様な用途向けに個性的で表現力豊かな音声を提供します。また、Voice ControlとEVI 2は、倫理的・実務的な課題を伴う「音声クローン化」を避け、独自性の高い音声作成に注力しています。

Humeの共同創業者で元Google DeepMinderのAlan Cowen氏は、研究に基づく同社のアプローチについて次のように述べています：
「当社の科学的手法は、感情的に共鳴し、文化を超えて効果的な音声AIソリューションを提供することを可能にしています。」

「Voice Control」の主な特徴
「Voice Control」では、主張力や軽快さといった声の特性をスライダーで簡単に調整できます。これにより、テキストベースのAIプロンプトの複雑さを回避しつつ、次の機能を開発者に提供します：
• ベース音声をリアルタイムで選択・修正。
• カスタマイズした音声をセッションを超えて再現・安定化。
• 対話中に話し方を動的に変更可能で、バーチャルアシスタントやカスタマーサービス向けに適応。

実用性とリアルタイム性能
リアルタイム適応性が必要なビジネスに特化しており、多言語対応やサブセカンド応答時間を備えたEVI 2との統合で、自然で即時の会話が可能になります。「Voice Control」は、さらにカスタマイズオプションを追加し、繊細な対話を強化します。

競争が激化する市場での優位性
Humeは、表現力とユーザーのコントロールを優先するアプローチで、OpenAIのAdvanced Voice ModeやElevenLabsといった競合の中で存在感を示しています。カスタマイズ性と感情的知性に特化することで、音声AI市場でのリーダーとしての地位を確立しています。

「Voice Control」の今後の展望
Humeは、「Voice Control」の機能をさらに拡張し、調整可能な次元を追加、極端な調整でも音声品質を向上、ベース音声の種類を増加させる計画です。これにより、プラットフォームの実用性がさらに高まり、多様な用途に対応可能になります。「Voice Control」のリリースにより、Humeはリアルタイム適応性、感情的知性、深いカスタマイズ性を融合させた音声AIの革新をさらに進めています。開発者はHumeのプラットフォームでこのベータ版機能にアクセス可能で、音声AI技術の進化における次の一歩を踏み出しました。

TagsAIUnited States