TwelveLabs、史上最強の動画理解モデル「Marengo 3.0」をリリース　Amazon Bedrockと自社プラットフォームで提供開始

動画検索・動画理解分野のリーダーであるTwelveLabsは、AWS re:Inventにて同社史上最も高度な動画理解モデル「Marengo 3.0」の一般提供開始を発表しました。新モデルは単に動画を「見る」だけでなく、音声を「聞き」、字幕やテキストを「読み」、シーンのリズムや文脈まで捉える動画向けファウンデーションモデルです。セリフと数分後のジェスチャーを関連付けたり、オブジェクトや動き、感情、イベントの流れを時間軸で追跡することが可能で、TwelveLabsおよびAmazon Bedrock経由で利用できます。TwelveLabsによれば、Marengo 3.0は「世界で最も強力な動画理解モデル」であり、導入企業は即座にその価値を享受できるとしています。

Marengo 3.0は、TwelveLabs独自のマルチモーダルアーキテクチャ上に構築されており、動画を音声・テキスト・動き・ビジュアル・コンテキストが織りなす「動的なシステム」として扱います。これらを高密度な埋め込み表現へと圧縮し、スケール自在に検索・ナビゲート・理解できるようにすることで、企業は膨大な動画アーカイブを資産としてフル活用できるようになります。Marengo 3.0は本番利用を前提に設計されており、広範な検証においてストレージコストを50％削減し、インデックス作成速度を2倍に高速化するなど、即時のROIをもたらすことが確認されています。また、従来のフレーム単位解析や画像・音声モデルの“つぎはぎ”に頼る競合とは異なり、動画ネイティブの基盤モデルとして、スポーツ、メディア＆エンタメ、広告、さらには公共安全や行政で扱われるセンシティブな動画まで、複雑かつ高速な映像も高い精度で理解できます。チーム・選手・背番号・アクションを追跡するスポーツインテリジェンス、画像とテキストを組み合わせたクエリ（Composed Multimodal Queries）、36言語対応のマルチリンガル、4時間までの動画に対応するコンパクトな埋め込みなど、次世代の動画アプリケーションに必要な機能を網羅しています。

Marengo 3.0は、Amazon Bedrock上で提供されることで、大規模組織でも既存のAWS環境内に安全かつ迅速にデプロイできるエンタープライズ対応モデルとなっています。また、TwelveLabsが提供する月額サービスとして直接利用することも可能です。APIファースト設計により、開発者は既存のワークフローにシームレスに統合しながら、動画検索、要約、コンテンツモデレーション、広告ターゲティング、公共安全向けモニタリングなど、さまざまなユースケースを短期間で立ち上げることができます。AWSのVP of AI InfrastructureであるNishant Mehta氏は、「動画理解におけるTwelveLabsの取り組みは、多くの業界における動画活用を根本的に変えています。Amazon Bedrockを通じてMarengo 3.0を最初に提供できることを非常にうれしく思います」と述べており、TwelveLabsは動画インテリジェンス・インフラの新たな標準としての地位を固めつつあります。

TwelveLabsについて
TwelveLabsは、世界で最も強力な動画インテリジェンスプラットフォームを提供し、マシンが人間のように動画を「見て・聞いて・推論する」ことを可能にする企業です。セマンティック検索、自動要約、マルチモーダル埋め込みなどの機能を通じて、メディア、広告、政府・公共安全、自動車などの業界において、動画データの潜在力を引き出すことを支援しています。開発者とエンタープライズ向けにAPIベースのサービスを提供し、動画を基盤とする次世代アプリケーションの構築を加速しています。

TagsAIUnited States