最大の変化：生成前に「考える」仕組み

従来の画像生成モデルは、プロンプトを受け取るとそのまま描画に入っていました。GPT Image 2では、描画の前にプロンプトの意図を解釈し、要素の配置や構図を計画するステップが追加されています。OpenAIはこれを「Thinkingモード」と呼んでおり、ChatGPTのPlus / Pro / Businessプランで利用できます。

実際に使ってみると、無駄な再生成が減ります。たとえば「ポスターの上部にタイトル、中央に日付、下部に会場名」と指示すると、その通りの配置で出力されます。以前のモデルでは要素がランダムに配置されることが多く、何度も再生成を繰り返す必要がありました。

Thinkingモードを有効にすると、1つのプロンプトから最大8枚の一貫性のある画像を生成できます。キャラクターの外見やスタイルを複数カットにわたって統一したい場合に便利です。

テキスト描画が実用レベルに

GPT Image 2で最も実感できる進化はテキスト描画の精度です。これまでのAI画像生成モデルでは、画像内の文字がスペルミスしたり、文字同士がくっついたり、読めない状態になることが日常的でした。

GPT Image 2では、英語のテキストはほぼ正確に描画されます。看板、ボタン、ラベル、ポスターの見出し、商品パッケージの文字列、いずれも初回の生成でそのまま使えるケースが大幅に増えました。

日本語や中国語、韓国語などのCJK文字についても精度が向上しています。日本語は正しい字形とストロークで描画されますが、画数の多い漢字では時折エラーが出ることもあります。日本語テキスト描画の詳しい検証結果については、Qiitaに実際のプロンプトと結果をまとめた記事があります：GPT Image 2 を実際に使ってテキスト描画の精度を検証してみた

解像度と画像編集

GPT Image 2はネイティブで2K（2048px）の出力に対応しています。印刷用途や高解像度ディスプレイ向けには、後処理のアップスケーリングで4K相当にできます。

画像編集も自然言語で指示できます。写真をアップロードして「背景を削除して」「照明を暖かくして」「空を夕焼けに差し替えて」と伝えるだけで、マスクやレイヤーを手動で設定せずに編集が実行されます。インペインティング、アウトペインティング、背景置換がすべて同じワークフロー内で完結します。

料金体系

ChatGPT経由で使う場合は、サブスクリプション料金に含まれます。API経由の場合はトークンベースの課金です。

種別	料金（100万トークンあたり）
画像入力	$8
画像入力（キャッシュ）	$2
画像出力	$30

APIキーの管理やChatGPTのサブスクリプションなしでGPT Image 2を使いたい場合は、GPT Image 2 AIのようなブラウザベースのツールもあります。プロンプトテンプレート、ステップバイステップのガイド、4Kアップスケーリングが組み込まれており、手軽に始められます。

まだ苦手なこと

GPT Image 2にも明確な制限があります。

ブランドロゴの正確な再現はまだ不安定です。詳細な指示を与えても、特定のロゴをピクセル単位で正確に描画することは難しい状況です。ブランドアセットが必要な場合は、後から手動で合成する必要があります。

知識のカットオフは2025年12月です。2026年以降に登場した製品やイベント、人物に関するプロンプトでは不正確な結果が出る可能性があります。

Thinkingモードの速度は通常の生成より遅くなります。バッチ処理やリアルタイム性が求められるアプリケーションでは、Thinkingモードをオフにしてレイアウト品質とのトレードオフを受け入れるのが現実的です。

APIのrate limitは、Tier 1アカウントで1分あたり5枚です。個人利用なら十分ですが、本番環境のバッチ処理にはやや厳しい制約です。

DALL-E 3の廃止について

DALL-E 2とDALL-E 3は2026年5月12日に廃止予定です。現在どちらかのモデルを使っているプロジェクトでは、GPT Image 2への移行が必要です。基本的にはAPIコール内のモデルIDを変更するだけで対応できますが、レスポンス形式やサイズパラメータに一部変更があるため、公式ドキュメントを確認してから切り替えることをおすすめします。

まとめ

GPT Image 2は、テキスト描画が手直しなしで本番利用できるレベルに達した最初のAI画像モデルです。推論機能により、複雑なレイアウトでも無駄な再生成が減りました。解像度と編集機能も実用的です。

ロゴの再現、最新の文化的なリファレンス、大量バッチ処理にはまだ制約がありますが、マーケティングビジュアル、SNS用グラフィック、UIモックアップ、そして読めるテキストが必要なあらゆる画像において、確実な進歩です。

GPT Image 2とは？デザイナーが知っておくべき新機能と変更点