OpenAI、GPT-5.5を正式リリース。エージェント型コーディングから科学研究まで、GPT-5.4の知性を大幅に超える新世代モデル

OpenAIは2026年4月23日、同社史上最も知的かつ直感的と位置づける新モデル「GPT-5.5」を正式に発表した。同日よりChatGPTおよびCodexのPlus・Pro・Business・Enterpriseプランを対象に展開を開始しており、APIへの提供も「近日中」としている。

知性の底上げとレイテンシの両立

GPT-5.5の最大の特徴として、OpenAIはGPT-5.4と同等のper-tokenレイテンシを維持しながら、大幅に高い知性水準を実現したと説明している。大規模で高性能なモデルは一般的に応答が遅くなる傾向があるが、GPT-5.5はNVIDIA GB200およびGB300 NVL72システムと共同設計されることでこのトレードオフを克服した。さらに、同一のCodexタスクを完了するために必要なトークン数が従来より有意に少なく、「より高性能かつ効率的」という二重の特性を持つ。

エンドユーザーにとって最も実感しやすい変化は、モデルの自律性の高まりだ。ユーザーが複雑な複数ステップのタスクを与えると、GPT-5.5は計画を立て、ツールを活用し、自身のアウトプットを確認し、曖昧さをかいくぐりながら完成まで独力で進み続ける。「ユーザーが一つひとつのステップを管理しなくてよい」とOpenAIは訴える。

エージェント型コーディング領域でSoTA

コーディング分野では、GPT-5.5の優位性が特に顕著だ。複雑なコマンドラインワークフローを評価するTerminal-Bench 2.0では82.7%を達成し、GPT-5.4の75.1%を大きく上回ってSoTA(State of the Art、最高水準)を記録した。実際のGitHubイシュー解決を評価するSWE-Bench Proでは58.6%、内部の長期コーディングタスク評価Expert-SWE(人間の平均完了時間が20時間とされる)でもGPT-5.4を超えた。これら3評価のすべてにおいて、使用トークン数はGPT-5.4より少なかった。

早期アクセステスターからは定性的な評価も集まっている。コンテンツ企業EveryのCEO、Dan Shipper氏は「深刻な概念的明快さを持つ初のコーディングモデル」と評価した。同氏はローンチ後のデバッグ問題を抱えた状態でGPT-5.5に同じ作業を依頼したところ、GPT-5.4では不可能だったシステムの再設計案を提示できたという。MagicPathのCEO、Pietro Schirano氏は数百件にわたるフロントエンドおよびリファクタリングの変更を含むブランチを本番ブランチへワンショットで約20分でマージしたと報告している。NVIDIA社内の早期テスターは「GPT-5.5へのアクセスを失うことは、手足を失うようだ」とまで表現した。

ナレッジワークにおける自律性の拡張

コーディング以外のナレッジワーク領域でも、GPT-5.5は注目すべき性能を示す。44種類の職業にわたる知識労働を評価するGDPvalではGPT-5.5が84.9%を達成(GPT-5.4は83.0%)。実際のコンピュータ操作を評価するOSWorld-Verifiedでは78.7%(GPT-5.4は75.0%)に達した。複雑な顧客サービスワークフローを評価するTau2-bench Telecomでは、プロンプト調整なしで98.0%という顕著な水準を記録している(GPT-5.4は92.8%)。

OpenAI社内での活用実績も公開された。同社の全従業員の85%以上がCodexを週次で利用しており、ソフトウェアエンジニアリングにとどまらず、財務・広報・マーケティング・データサイエンス・プロダクトマネジメントなど幅広い職能に浸透している。財務チームは71,637ページに及ぶ24,771件のK-1税務フォームを処理するワークフローを構築し、前年比で2週間の作業を前倒しにした。広報チームは6ヶ月分のスピーキングリクエストデータを分析し、リスクに応じて自動処理と人間レビューを振り分けるSlackエージェントを開発した。

科学研究への本格参入

学術・研究領域でも、GPT-5.5の前進は具体的な成果として現れている。遺伝学・定量生物学における多段階科学データ分析を評価するGeneBenchではGPT-5.5が25.0%(GPT-5.4は19.0%)、バイオインフォマティクスと実世界データ分析のBixBenchでは80.5%(GPT-5.4は74.0%)を達成した。

さらに注目すべき事例として、カスタムハーネスを組み合わせたGPT-5.5の内部版が、組合せ論の中核的対象であるラムゼー数に関する新たな証明を発見し、定理証明支援系Leanで検証されたことをOpenAIは明らかにした。ジャクソン研究所(Jackson Laboratory)の免疫学教授Derya Unutmaz氏は、62サンプル・約28,000遺伝子のゲノム発現データセットを分析する詳細な研究レポートをGPT-5.5 Proで生成したと報告しており、「チームが数ヶ月かかる作業だった」と述べている。

推論インフラの刷新

GPT-5.5の展開を支える推論インフラも大幅に刷新された。従来はGPU上でリクエストを固定数のチャンクに分割していたが、GPT-5.5のリリースに向けてCodexが数週間分の本番トラフィックパターンを分析し、動的に最適な分割・ロードバランシングを行うヒューリスティックアルゴリズムを生成した。この改善単独でトークン生成速度が20%以上向上したという。いわば、「モデル自身が自分を提供するインフラの改善に貢献した」構造となっている。また、Artificial AnalysisのCoding Agent Indexでは、競合するフロンティアコーディングモデルの半額のコストでSoTA水準の知性を提供するとしている。

サイバーセキュリティ対応の強化

OpenAIは、GPT-5.5のサイバーセキュリティ能力についてPreparedness Framework上の評価を「High」としている(Criticalには達していないと明記)。内部のCapture-the-Flag評価では88.1%(GPT-5.4は83.7%)、CyberGymでは81.8%(GPT-5.4は79.0%)を記録した。

今回の展開にあたりOpenAIは、高リスク活動や機密性の高いサイバー関連リクエストに対する制御を強化しつつ、「Trusted Access for Cyber」プログラムを通じて検証済みユーザーへの高度なサイバーセキュリティ機能へのアクセス拡大を並行して進める。chatgpt.com/cyberから申請が可能で、政府パートナーとの連携による重要インフラ防衛支援も今後の展開として言及されている。なお生物・化学分野の能力についても同様に「High」評価としている。

提供形態と料金

ChatGPTにおいては、GPT-5.5 ThinkingがPlus・Pro・Business・Enterpriseユーザー向けに、より難易度の高いタスクや高精度が求められる用途を担うGPT-5.5 ProがPro・Business・Enterpriseユーザー向けに展開される。CodexではPlus以上のすべてのプランで400Kコンテキストウィンドウで利用可能で、Fast modeでは1.5倍の速度で生成されるが、コストは2.5倍となる。

API価格はgpt-5.5が入力100万トークンあたり5ドル、出力100万トークンあたり30ドルで、コンテキストウィンドウは100万トークン。gpt-5.5-proは入力30ドル・出力180ドルとなる。バッチ・フレックスは標準料金の半額、プライオリティ処理は2.5倍の料金設定だ。GPT-5.5はGPT-5.4より価格が高いが、OpenAIはCodexにおけるトークン効率の向上を理由として、多くのユーザーにとって実質的なコスト上昇は限定的と説明している。

GPT-5.5の登場は、OpenAIがエージェント型AIの基盤整備を着実に進めていることを改めて示すものだ。コンピュータを「ユーザーと共に」操作し、複数ツールをまたいで自律的に作業を完遂するという方向性は、AIとの協働のあり方を根本から問い直す段階に差し掛かっている。

Share this content:

コメントを送信