画像理解と生成を統合するマルチモーダル画像AIのLuma AI、新モデル「Uni-1」を発表

画像生成AIを開発するLuma AIは、画像理解と画像生成を単一のアーキテクチャで統合した新しいAIモデル「Uni-1」を発表しました。同モデルは、複雑な画像生成と高度な視覚理解を同時に実現する次世代のマルチモーダルAIとして位置づけられています。Uni-1は、GoogleのNano Banana ProやGPT Image 1.5と同様に、オートレグレッシブトランスフォーマーを基盤としています。このアーキテクチャでは、画像やテキストをトークン単位で順序生成する方式を採用しており、従来の拡散モデルのようにノイズから画像を生成する方法とは異なります。Uni-1ではテキストと画像が同じ処理パイプラインで扱われるため、より一貫性の高い理解と生成が可能になります。

Luma AIによると、Uni-1は画像生成の前後にプロンプト内容を推論し、複雑な指示を分解しながらシーンを計画して生成します。この推論能力により、プロンプトの意図を正確に反映した画像生成が可能になります。例えば、複数の写真を取り込み、それらを統合して全く新しい構図の画像を生成することもできます。さらにUni-1は、対話形式で複数回にわたって画像を改善することができ、文脈を維持したまま編集を続けることが可能です。画像を76種類以上のアートスタイルへ変換できるほか、スケッチや視覚的な指示を入力として受け取り、参照画像から人物のアイデンティティ、ポーズ、構図などを新しい画像へ転写することもできます。デモでは、1枚の参照画像からピアニストの人生を描いた一連の画像を生成し、子どもから高齢期まで徐々に年齢を重ねる様子を表現しました。

ベンチマーク評価では、Uni-1は論理的な画像処理能力を測定するRISEBenchテストで最高スコアを記録し、Nano Banana 2やGPT Image 1.5をわずかに上回りました。また画像生成機能を備えることで視覚理解能力も向上しており、物体認識ではGoogleのGemini 3 Proに近い性能を示しています。Uni-1は複数言語にも対応しています。Luma AIは、Uni-1を同社の新しいクリエイティブAIアシスタント「Luma Agents」およびLuma APIを通じて提供する予定です。現時点では価格は発表されていません。

Luma AIについて
Luma AIは、画像生成および視覚理解AIを開発するAIスタートアップです。同社は、画像生成モデルや3D生成技術などを通じて、クリエイティブ制作や映像制作を支援するAIツールを提供しています。Luma AIは、生成AIと視覚理解技術を統合したマルチモーダルAIの開発を進めており、クリエイターや企業が高度なビジュアルコンテンツを効率的に制作できる環境の構築を目指しています。

TagsAIUnited States