Luma AIが AI 駆動のテキストからビデオを生成するプラットフォーム「Dream Machine」を開始

Luma AIは、テキストからビデオを生成するAIモデル「Dream Machine」をグローバルに開始しました。このプラットフォームは、簡単または説明的なテキストのプロンプトから最大5秒間のビデオを生成できます。AIモデルは映画風、アニメーション、リアリスティックなど、様々なスタイルのビデオを生成可能です。Luma AIは、Dream Machineがビデオのみを使ってトレーニングされており、「物理的に正確で一貫性があり出来事に富んだショット」を生成できると主張しています。現在このプラットフォームは無料で利用でき、ただし1日の生成数に上限がある可能性があります。

ウェブサイトによると、Dream MachineのAIモデルはトランスフォーマーモデルに基づいており、直接ビデオを使ってトレーニングされています。通常、大規模言語モデル(LLM)はテキストと画像を使ってトレーニングされ、その後ビデオに移行しますが、ビデオには空間と動きに対するより深い理解が必要とされます。同社は「Dream Machineは、ユニバーサルな想像力エンジンを構築する最初のステップです」と付け加えています。

Dream Machineは、Runway AIやPika 1.0など、一般に公開されているビデオ生成プラットフォームに加わりました。これらのプラットフォームも3〜5秒間のビデオ生成を提供しています。Gadgets 360がこのプラットフォームを試した結果、プロンプトへの対応力は劣っていることがわかりました。複数のキャラクターや複雑すぎるプロンプトには対応できませんでした。しかし、他の2つと比べると、より高品質の映画風のビデオを生成できます。

このAIプラットフォームは、120秒かけてビデオを生成し、同社によると120個の異なるフレームを持つとのことです。Dream Machineは、人、動物、物体が物理世界とどのように相互作用するかを理解し、正確な物理法則とキャラクターの一貫性を持つビデオを作成できるとされています。

しかし、Luma AIは現在のモードにおける動き、テキスト、変形、有名なJanus問題など、いくつかの制限も指摘しています。Janus問題とは、AIモデルが一貫した3Dの出力を示すのではなく、物体の異なる方向からの複数の正規化ビューを示してしまう問題です。

Luma AIはAIモデルの技術的な詳細を公開していないため、パラメータサイズ、ベンチマーク、アーキテクチャ、トレーニング方法などの情報は不明です。同社はトレーニングデータの入手方法についても詳細を明らかにしていません。なお、Gadgets 360は著作権のあるキャラクターを含むビデオをいくつか生成することができました。

TagsAIUnited States