大規模言語モデルやAIエージェント技術のOpenAI、GPT-5.4を発表しThinkingとPro版を提供

OpenAIは、新しい基盤モデルGPT-5.4を発表しました。同社はGPT-5.4を「プロフェッショナル業務向けに最も高性能かつ効率的なフロンティアモデル」と位置付けています。標準モデルに加え、推論能力を強化したGPT-5.4 Thinking、処理性能を最適化したGPT-5.4 Proの3種類が提供されます。API版では最大100万トークンのコンテキストウィンドウをサポートしており、OpenAIのモデルとしては最大規模となります。これにより、大量の文書や長いコンテキストを扱う分析、プログラミング、法務・金融関連タスクなどにおいて、より高度な処理が可能になるとしています。

OpenAIはまた、トークン効率の改善も強調しています。GPT-5.4は前世代モデルと比較して同じ問題を解くために必要なトークン数を大幅に削減できると説明しています。これにより処理速度やコスト効率の向上が期待されます。ベンチマークでも性能向上が報告されています。コンピュータ操作能力を評価するOSWorld-VerifiedおよびWebArena Verifiedのテストでは過去最高のスコアを記録しました。また、知識労働タスクを評価するOpenAIのGDPvalテストでは83％という高い結果を示しています。

さらにMercorが実施するAPEX-Agentsベンチマークでも首位を獲得しました。この評価は法律や金融分野における専門業務能力を測定するものです。MercorのCEOであるBrendan Foodyは、GPT-5.4はスライド資料作成、財務モデル構築、法律分析など長期的タスクに強みを持ち、競合モデルより高速かつ低コストで高性能を示したと述べています。OpenAIは今回のモデルでハルシネーションや事実誤りの削減にも取り組んでいます。GPT-5.2と比較すると、個別主張レベルの誤り発生確率は33％低下し、回答全体における誤り率も18％低減したとしています。

APIのツール呼び出し機能も刷新され、新たにTool Searchという仕組みが導入されました。従来は利用可能なツールの定義をすべてプロンプト内に含める必要があり、ツール数が増えるとトークン消費が大きくなる問題がありました。Tool Searchでは必要なツール定義のみを検索して取得するため、多数のツールを扱うシステムでも処理が高速かつ低コストになるとしています。また、安全性評価の一環としてChain-of-Thoughtの挙動を検証する新しいテストも導入されました。Chain-of-Thoughtはモデルが複数ステップの推論を行う際に示す思考過程ですが、安全研究者の間ではモデルがこの推論過程を誤って提示する可能性が懸念されていました。OpenAIによる評価では、GPT-5.4 Thinkingでは推論過程を隠すような挙動は起こりにくく、Chain-of-Thought監視が依然として有効な安全対策であることが示唆されたとしています。

OpenAIについて
OpenAIは人工知能研究およびAI基盤モデルの開発を行う企業です。大規模言語モデルやAIエージェント技術の研究と実用化を進め、企業や開発者向けにAPIとして提供しています。同社のモデルはソフトウェア開発、データ分析、カスタマーサポート、クリエイティブ制作など幅広い業務領域で利用されています。

TagsAIUnited States