Claude Mythosとは何か:なぜ「一段階の飛躍」と呼ばれるのか
2026年4月7〜8日、Anthropicは新モデル「Claude Mythos」を正式発表しました。同社が「Anthropic史上最も能力の高いモデル」「一段階の飛躍」と表現するこのモデルは、公開前から異例の注目を集めていました。
実は2026年3月26日、CMSの設定ミスによって存在が流出。内部開発コード「Capybara」とともにその概要が明らかになり、AI業界全体が正式発表を待ち望む状況になっていました。
Claude Mythosが他のモデルと一線を画す理由は、単なるベンチマーク上のスコアではありません。専門家でも解決困難なサイバーセキュリティ領域で、実際の攻撃・防衛シナリオをこなせる初めてのモデルとして、AI安全性の議論そのものを塗り替えつつあります。
主要ベンチマークで圧倒的なスコアを記録
ソフトウェアエンジニアリング・数学での実績
Claude Mythosは以下のベンチマークで業界最高水準を記録しています。
| ベンチマーク | スコア |
|---|---|
| SWE-bench Verified | 93.9% |
| SWE-bench Pro | 77.8% |
| USAMO 2026 | 97.6% |
特に数学オリンピック相当の難問を測るUSAMO 2026での97.6%は、前世代比で55ポイントもの向上です。GPT-5.4やGemini 3.1 Proを全主要ベンチマークで上回る結果となっており、Anthropicが「一段階の飛躍」と表現する根拠の一つになっています。
SWE-bench Verifiedは実際のGitHubイシューを解決できるかを測る指標です。93.9%という数字は、現実のソフトウェアバグの多くをAIが自律的に修正できることを示しており、エンジニアリング現場への影響は非常に大きいと言えます。
最大の特徴:専門家レベルのサイバーセキュリティ能力
Claude Mythosが業界で最も議論を呼んでいるのは、そのサイバーセキュリティ能力です。
CTFタスクで73%の成功率
CTF(Capture The Flag)は、プロのセキュリティ研究者が腕を競う競技形式のハッキング大会です。Mythosが達成した73%の成功率は、2025年4月以前には「完了できるモデルが存在しなかった」と言われる難易度のタスクを対象としています。
脆弱性発見で前例のない実績
Mythosは以下の実環境で大量の未発見脆弱性を発見しています。
- Firefox 147 JSエンジン: 181件のエクスプロイトに成功(Claude Opus 4.6では2件)
- OpenBSD: 27年分の未発見脆弱性を発見
- FFmpeg: 16年分の未発見脆弱性を発見
- FreeBSD: 17年分の未発見脆弱性を発見
- Anthropic内部テスト: 数千件のゼロデイ脆弱性を発見(99%が発表時点で未対応)
これらの数字は、Mythosが単なる「コードレビューの補助ツール」ではなく、プロフェッショナルなセキュリティ研究者に匹敵する実力を持つことを示しています。
企業ネットワーク攻撃シミュレーションで歴史的成果
英国のAI安全機関(AISI)が実施した32段階の企業ネットワーク攻撃シミュレーションでは、Mythosが10回中3回で全工程を完遂しました。これは「全工程を完遂した初めてのモデル」という記録です。
このテストはAISIが独立して実施・公表したもので、Anthropicの自己申告ではなく第三者機関による検証である点が重要です。
Project Glasswing:なぜ一般公開しないのか
Claude Mythosは現時点で一般公開されていません。代わりに「Project Glasswing」という限定プレビュープログラムとして、選ばれた企業のみに提供されています。
参加企業(正式立ち上げパートナー11社)
AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks
これらはいずれもサイバーセキュリティ・クラウドインフラ・金融インフラの主要プレイヤーです。現在は40社以上に追加提供が拡大しています。
Project Glasswingの目的
Anthropicがこのプログラムを設計した背景には、明確な思想があります。
攻撃と防衛の非対称性を逆転させることが目的です。
現在のサイバーセキュリティは、攻撃者側が有利です。攻撃者は一点突破すれば成功ですが、守備側はすべての侵入経路を塞ぎ続けなければなりません。Mythosのような高度なAIが悪用されれば、この非対称性がさらに拡大します。
Project Glasswingは、守備側の企業がMythosの能力を使って脆弱性を先回りして発見・修正するための仕組みとして設計されています。一般公開せず信頼できる企業限定とすることで、攻撃目的への転用リスクを最小化する狙いがあります。
API料金
- 入力: $25 per million tokens
- 出力: $125 per million tokens
Anthropicは参加企業に対して1億ドル相当のクレジットコミットメントを提供しています。
Claude Opus 4.7との住み分け
2026年4月16日、Anthropicはほぼ同時期に「Claude Opus 4.7」も発表しています。MythosとOpus 4.7の違いは何でしょうか。
| モデル | 特徴 |
|---|---|
| Claude Mythos | サイバーセキュリティ特化・業界最高性能・限定提供 |
| Claude Opus 4.7 | 汎用・安全性重視・ソフトウェアエンジニアリングに特化 |
Mythosが「最高性能」を追求する一方、Opus 4.7は「安全性と汎用性」を重視した設計になっています。Anthropicが両者を同時期に展開することで、用途に応じたモデル選択が可能になります。
AIとサイバーセキュリティ:今後の展望
Claude Mythosの登場は、AIとサイバーセキュリティの関係を根本から問い直す契機となっています。
守備側への恩恵
Project Glasswingに参加する企業は、Mythosを使って自社システムの脆弱性を発見できます。これまで専門のセキュリティ研究者チームが数週間かけて行うペネトレーションテスト(侵入テスト)を、AIが短時間で代替・補完できる可能性があります。
リスクと責任の議論
一方で、このような能力を持つモデルが万が一悪用された場合のリスクも現実的な懸念です。Anthropicが一般公開を見送り、信頼できるパートナー企業に限定提供する判断をしたのは、この点を強く意識してのことです。
英国AISIによる独立検証・公表は、AI安全性の透明性確保に向けた取り組みの一環であり、今後このような第三者評価の重要性はさらに高まるでしょう。
まとめ:Claude Mythosが示すAIの新段階
Claude Mythosは、以下の点でAI開発の新しい段階を示すモデルです。
- 能力の質的変化: CTFや実環境での脆弱性発見など、これまでのAIには不可能だったタスクを実行できる
- 責任ある展開: 一般公開せず限定プレビューとすることで、能力の悪用リスクを制御する
- 第三者検証の重要性: 英国AISIによる独立評価が、安全性主張の信頼性を裏付ける
ビジネスパーソンにとって重要なのは、Project Glasswingがどのような企業・用途に拡大されるかです。現在は40社以上に提供が拡大しており、今後の参加条件や一般提供のロードマップが注目されます。
エンジニアにとっては、SWE-bench 93.9%というスコアが意味するもの——つまり実際のソフトウェア開発・バグ修正においてAIが人間の専門家に匹敵するレベルに達しつつあるという現実——を直視する必要があります。
Claude Mythosは、AIが「道具」から「自律的なパートナー」へと移行する過程の、現時点での到達点です。その能力をどう活かし、どうリスクを管理するかが、今後の企業・社会全体の課題となっています。