Claude Opus 4.8が正式リリース Anthropicが「数週間以内」のMythosクラス一般公開も示唆

Anthropicは2026年5月28日、最新フラッグシップモデル「Claude Opus 4.8」を正式にリリースした。前バージョンのOpus 4.7から41日というAnthropicのモデルリリースとしては最短に近いサイクルでの更新となる。コーディング・エージェント性能の向上、誠実性の大幅改善、そして大規模並列処理を実現する新機能「Dynamic Workflows」の同時投入と、実用面での強化に焦点を当てたリリースとなっている。

さらに今回の発表の中で注目を集めたのが、Anthropicがもうひとつの重大な事実に言及した点だ。現在一部組織にのみ限定公開されているフロンティアモデル「Claude Mythos Preview」について、Anthropicは「数週間以内(in the coming weeks)」にMythosクラスのモデルを全ユーザー向けに提供できるよう準備を進めているとの見通しを明らかにした。Mythosは2026年4月に発表された、Opusより一段上の能力を持つAnthropicの最先端モデルであり、今回の表明はその一般公開へ向けた現時点で最も具体的なシグナルとして業界から強い注目を集めている。

Claude Opus 4.8の概要

Claude Opus 4.8はAnthropicの公式発表を通じて5月28日に即日提供が開始された。claude.aiでは有料プランであるPro、Max、Team、Enterpriseプランのユーザーが利用できるほか、Claude APIではモデルID「claude-opus-4-8」として利用可能で、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryの各クラウドプラットフォームにも同日対応した。GitHubのコーディング支援ツールCopilotでも同日より提供が始まっている。

APIの料金体系はOpus 4.7と完全に同一で、入力トークン100万件あたり5ドル、出力トークン100万件あたり25ドルとなっている。大きな変化があったのはFastモードの価格だ。2.5倍の速度で動作するFastモードは、入力100万トークンあたり10ドル、出力100万トークンあたり50ドルという新設定となり、従来のOpus 4.7のFastモード(入力30ドル、出力150ドル)から3分の1にまで大幅に引き下げられた。コンテキストウィンドウは従来通り最大100万トークン、最大出力は128,000トークンで変わらない。

Anthropicは今回のOpus 4.8を「前バージョンに対して控えめながら確かな改善(a modest but tangible improvement)」と表現しており、革命的なブレークスルーというよりも、実用面の信頼性と性能の着実な底上げを図ったリリースとして位置づけている。

ベンチマーク結果:コーディングと推論で競合を上回る

公式発表に添付されたベンチマーク表によると、Opus 4.8は主要な評価指標でOpus 4.7、GPT-5.5(OpenAI)、Gemini 3.1 Pro(Google)を上回っている。

image-24-1024x548 Claude Opus 4.8が正式リリース Anthropicが「数週間以内」のMythosクラス一般公開も示唆

コーディング性能を示す代表的な指標であるSWE-bench Verifiedでは88.6%のスコアを記録し、Opus 4.7の87.6%から1ポイント改善した。より難易度の高いSWE-bench Proでは69.2%を達成し、Opus 4.7の64.3%から約5ポイント向上している。GPT-5.5のSWE-bench Proスコアが58.6%であることと比較すると、コード修正・バグ修正タスクにおける実力差は明確だ。ただしターミナル操作系のコーディングベンチマーク「Terminal-Bench 2.1」については74.6%にとどまり、GPT-5.5の83.4%には届いていない。

推論・知識系ベンチマークでは、GPQA Diamondで93.6%、数学オリンピックを題材にしたUSAMO 2026では96.7%を記録した。Opus 4.7のUSAMO 2026スコアが69.3%であったことを考えると、数学的推論における今回のジャンプは顕著だ。マルチドメイン総合評価のGDPval-AAエロースコアでは1890を記録し、GPT-5.5を121ポイント上回って首位に立っている。

コンピュータ操作の評価指標であるOSWorld-Verifiedでは83.4%を記録。ブラウザエージェント評価のOnline-Mind2Webでは84%を達成しており、コンピュータユース系タスクにおける競合優位性も確認されている。

また実際のトークン消費量についても見逃せない変化がある。同等のコーディングタスクに対して、Opus 4.8はOpus 4.7と比較して出力トークン数が約35%少ないことが報告されており、性能が上がりながらもAPIコストの実質的な低下につながる可能性がある。

誠実性と安全性:Mythosと同水準のアライメントを達成

今回のリリースでAnthropicが特に強調したのが、誠実性(Honesty)の改善だ。Anthropicによれば、Opus 4.8はOpus 4.7と比較して、自分が書いたコードに含まれる不具合を無言で見過ごす確率が約4分の1にまで低下した。これまでのAIモデルに広くみられた問題として、確証が薄い状況でも作業の完了を自信を持って宣言したり、エラーを見つけても報告せずに処理を続けるといった振る舞いが挙げられていた。Opus 4.8はこうした傾向を大幅に改善し、不確実な場合には明示的に懸念を伝えたり、疑問点を自発的に提起するようになったとしている。

安全性評価においても注目すべき結果が出ている。Anthropicのアライメントチームによる詳細な事前評価では、Opus 4.8は「ユーザーの自律性支持」や「ユーザーの最善の利益に沿った行動」といった親社会的特性が新たな高水準に達したと結論づけられている。さらに重要な点として、不正な指示への協力や欺瞞といった望ましくない行動の発生率がOpus 4.7より大幅に低下し、限定公開中のClaude Mythos Previewと同水準にまで近づいたとされている。つまり、Anthropicが現時点で最も高い安全性を実証したモデルとの差がほぼ埋まったということになる。

新機能:Dynamic WorkflowsとEfhort Control

Opus 4.8と同日にリリースされた新機能のうち、最も大きな変化をもたらすのが「Dynamic Workflows」だ。これはClaude Codeに追加されたリサーチプレビュー機能で、Claudeが大規模なタスクを計画したうえで、1つのセッション内で数百の並列サブエージェントを起動し、それぞれが独立したアプローチで問題に取り組み、最終的に結果を検証してユーザーに報告するというワークフローを実現する。Anthropicは具体的なユースケースとして、数十万行規模のコードベース全体を対象としたマイグレーション作業を、計画から実際のマージまで一貫して自律的に遂行できるようになったと説明している。Dynamic WorkflowsはEnterprise、Team、MaxプランのClaude Codeユーザーが利用できる。

もうひとつの新機能は「Effort Control」だ。claude.aiとCoworkのモデルセレクターの横に新しいコントロールが追加され、ユーザーがClaudeの応答にどれだけの思考リソースを投入するかを選択できるようになった。設定は複数段階から選べるようになっており、高い設定にすれば深い思考と高い精度が得られ、低い設定にすれば応答が速くなり、レートリミットの消費も抑えられる。Opus 4.8のデフォルト設定は「high」に設定されており、AnthropicはこれがコーディングタスクにおいてOpus 4.7のデフォルト設定と同程度のトークン消費量で、より高い成果を上げると述べている。難易度の高いタスクや長時間実行の非同期ワークフローには「extra」または「max」設定の使用を推奨している。

開発者向けには、Messages APIに対して重要なアップデートが行われた。従来はシステムプロンプトの更新を行うには会話の構造を一から組み直す必要があったが、今後はメッセージ配列の途中にsystem要素を挿入することが可能になった。これにより、エージェントが実行中であっても、プロンプトキャッシュを壊すことなくパーミッション設定やトークン予算、環境コンテキストをリアルタイムに更新できるようになっている。

Claude Mythos Previewとは何か

ここで改めてClaude Mythosについて整理しておく。MythosはAnthropicが2026年4月7日に発表した、Opusより一段上の能力を持つフロンティアモデルだ。Anthropicは当初からMythosを「汎用的な言語モデルとして全体的に高い性能を持つが、コンピュータセキュリティのタスクにおいて際立った能力を示す」と説明しており、その能力がサイバー攻撃への悪用リスクをはらむことから、一般公開ではなく限定的なセキュリティ目的のプログラムを通じてのみ提供するという異例の判断を下した。

Mythosと同時に発足した「Project Glasswing」は、AWS、Apple、Google、Microsoft、CrowdStrike、NVIDIA、Cloudflareなど約50の厳選されたパートナー組織に対してMythos Previewへのアクセスを提供し、主要なオープンソースプロジェクトやクリティカルインフラのソフトウェアに潜む脆弱性を発見・修正するという防衛的サイバーセキュリティの取り組みだ。Anthropicはこのプログラムに1億ドル相当のモデルクレジットを投じている。

Glasswingの最初の活動報告(2026年5月22日)では、1,000以上のオープンソースプロジェクトを対象に23,019件の脆弱性候補を検出し、独立したセキュリティ企業による検証サンプル調査で90.6%という高い真陽性率が確認された。Firefoxではバージョン150単独で271件の脆弱性が修正されており、Cloudflareも自社インフラで2,000件以上の問題を発見したとされている。サイバーセキュリティ評価指標CyberGymにおけるMythosのスコアは83.1%で、Opus 4.7の73.1%を大きく上回っている。

Anthropicが「数週間以内の全ユーザー向け提供」を明言

今回のOpus 4.8発表で最も業界の関心を引いたのが、Mythosに関するAnthropicの声明だ。公式ブログの「What’s next?」セクションには次のように記されている。

「私たちはOpusよりもさらに高い知能を持つ新しいクラスのモデルのリリースを計画しています。Project Glasswingの一環として、少数の組織がサイバーセキュリティ業務にClaude Mythos Previewを使用しています。この能力水準のモデルは、一般公開の前に強固なサイバーセーフガードを必要とします。私たちはそのセーフガードの開発において急速に進展を遂げており、数週間以内に全てのお客様にMythosクラスのモデルを提供できるようになると見込んでいます。」

「数週間以内(in the coming weeks)」という表現は、Anthropicによる公式声明としては、Mythosクラスの能力を持つモデルの一般提供に向けた最も具体的なタイムライン言及となる。4月の発表時点ではMythosの一般公開に関する明確な見通しは示されておらず、招待制のGlasswingプログラム以外での提供計画についてAnthropicは言及を避けていた。

また今回のリリースに際してAnthropicはOpus 4.8のセーフガードの改善についても触れており、Glasswingページには「私たちは新しいセーフガードを次期Claude Opusモデルと共にリリースする計画で、Mythos Preview同様のリスクを持たないモデルでそれらを改良・洗練させる」という記述が確認されている。これはOpus 4.8がMythosを安全に公開するための技術的土台を整えるフェーズとして機能していることを示唆しており、Mythos一般公開に向けたロードマップの一端が見えてきた形だ。

業界の現在地と今後の展望

Opus 4.8のリリースは、前バージョンからわずか41日という短いサイクルでの更新だ。AnthropicはGPT-5.5(OpenAI、2026年4月23日リリース)やGemini 3.1 Pro(Google)といった競合の最新モデルに対して、大半のベンチマークで優位を確保した状態を維持している。ただしターミナルベースのコーディングタスクではGPT-5.5に一歩及ばない部分も残っており、競合との差は一様ではない。

エージェント性能と誠実性の改善を軸としたOpus 4.8の今回の方向性は、AIモデルが単なる質問応答から、長時間・大規模タスクを自律的にこなすエージェントとして本格的に機能するフェーズへの移行を明確に示している。Dynamic WorkflowsによるCodeベースのマイグレーション自動化や、Effort Controlによる思考深度の調整は、いずれも開発者が実務でモデルを使い込む場面を具体的にイメージしたものだ。

そして、Mythosクラスの一般公開が「数週間以内」という見込みで示されたことは、AIフロンティアの地図が再び大きく書き換わる可能性を示している。Anthopicが4月から進めてきたGlasswingでの安全性実証と、Opus 4.8でのセーフガード洗練という二段構えの準備が整いつつある今、次の発表がいつ届くかを見守りたい。

Share this content:

1 件のコメント

comments user
hisiragi

今回噂されているMythos級のAIとはいえ、以下の文から見て、脆弱性の発見能力を意図的に下げて提供すると見られます。
“「私たちはOpusよりもさらに高い知能を持つ新しいクラスのモデルのリリースを計画しています。Project Glasswingの一環として、少数の組織がサイバーセキュリティ業務にClaude Mythos Previewを使用しています。この能力水準のモデルは、一般公開の前に強固なサイバーセーフガードを必要とします。私たちはそのセーフガードの開発において急速に進展を遂げており、数週間以内に全てのお客様にMythosクラスのモデルを提供できるようになると見込んでいます。」”

コメントを送信