生成AIのOpenAI、推論機能を備えたChatGPT Images 2.0を発表

OpenAIは、次世代の画像生成モデルであるChatGPT Images 2.0を発表しました。ChatGPT Images 2.0は、ユーザーのプロンプトに基づき、より正確で実用的、かつ文脈を理解した画像を生成することを目的とした新モデルです。従来モデルと比べて、指示への追従性、多言語テキストの描画、構図の制御が改善されており、より複雑な画像生成タスクに対応できるようになっています。ChatGPT Images 2.0は、ChatGPT、Codex、APIを通じて順次提供されます。ChatGPTとCodexでは全ユーザーが利用でき、推論を活用した高度な機能はChatGPT Plus、Pro、Businessの加入者向けに提供されます。開発者はgpt-image-2 APIを通じて利用でき、料金は選択する画像品質や解像度によって異なります。出力は最大2K解像度に対応し、それを超える高解像度出力はベータ版として提供されます。

新モデルの大きな特徴は、細かな指示に沿った画像生成能力の向上です。OpenAIによると、ChatGPT Images 2.0は複雑な構図、UI要素、密度の高いテキスト、構造化されたレイアウトを扱いやすくなっています。これにより、単純なイラストや写真風画像だけでなく、ポスター、図解、インフォグラフィック、画面デザインのように、情報構造と視覚表現が重要な用途にも使いやすくなります。多言語対応も強化されています。Hindi、Bengali、Chinese、Japanese、Koreanなど、英語以外の文字をより正確に描画できるようになり、言語そのものがデザイン要素となるポスターや教育資料、説明図の作成に適しています。日本語を含む多言語のビジュアル制作において、従来の画像生成モデルで課題となりやすかった文字崩れや不自然な表記の改善が期待されます。

また、写真のようにリアルな画像、映画的なビジュアル、ピクセルアート、漫画風表現など、複数のスタイルにおける一貫性も向上しています。照明、質感、構図の表現も改善されており、横長の3:1から縦長の1:3まで、柔軟なアスペクト比に対応します。さらに、最大8つの一貫した出力を同時に生成でき、キャラクター、物体、その他の要素の整合性を保ちやすいとされています。ChatGPT Images 2.0では、推論機能も導入されています。推論対応のChatGPTモデルと組み合わせることで、単一のプロンプトからリアルタイム情報を検索し、出力内容を確認し、画像を生成することが可能になります。これにより、デザイン試作、マーケティング素材、教育コンテンツ、プロダクト開発など、情報の整理と視覚化が求められる幅広い用途での活用が想定されています。

一方で、OpenAIはChatGPT Images 2.0にも限界があると説明しています。複雑なパズル、折り紙の手順、特殊な角度から見た物体など、高度な物理理解を必要とするタスクでは課題が残ります。また、非常に細かく反復的な視覚要素や、正確性が重要な図解・ラベル付きイラストでは、人間による確認が必要になる場合があります。2Kを超える高解像度出力もベータ段階であり、常に一貫した結果が得られるとは限りません。

OpenAIについて
OpenAIは、San Franciscoを拠点とするAI研究・開発企業です。ChatGPTをはじめとする生成AIモデルやAPIを提供し、文章生成、画像生成、音声、コード生成、推論支援など幅広いAI機能を展開しています。同社は、AIをより有用で安全な形で社会に提供することを目指し、個人ユーザー、企業、開発者向けにさまざまなAIプロダクトと基盤モデルを提供しています。

TagsAIUnited States