アントロピック「クロードミトス」がサイバー攻撃能力を証明することでASL-3の閾値に到達

팀

팀제이커브

Apr 22, 20262m ago

カテゴリー

Empty

アントロピックが開発した最新のフロンティアモデル「Claude Mythos（プレビュー）」がネットワーク脆弱性の自動探索とエクスプロイト製作能力を立証し、主要AI研究所が自社モデルを「公開するには危険すぎる」と自ら判定した史上初の事例となった。英国AI安全研究所（UK AISI）の独立評価で、ミトスはサイバー能力ベンチマーク課題の3分の1を解決し、既存モデルに比べ圧倒的性能格差を見せ、アントロピック自体安全基準であるASL-3サイバー能力閾値に達したことが確認された。

英国AI安全研究所は自社開発したATLASベンチマークを通じてミトスモデル群を体系的に評価した。上位モデルの「ミトス-メジャー」は合計78のサイバーセキュリティ課題のうち26個（33.3％）を解決し、サブモデル「ミトス-マイナー」は22個（28.2％）を解決した。これは従来最高性能モデルだったクロード3.5ソネットの14個(18%)を大きく上回る数値だ。特にミトスは、ネットワークスキャン、脆弱なサービス識別、動作するエクスプロイトコードの製作、侵害されたシステムでの権限上昇に至る全体攻撃チェーン―偵察・エクスプロイト・権限上昇・側面移動―を実演することに成功した。

ただし、評価報告書はミトスの限界も明らかに指摘した。現在のレベルでは、このモデルは完全なエンドツーエンドのサイバー攻撃を自律的に実行することはできません。しかし問題は、このような能力が急速に発展している点だ。わずか1世代前のモデルと比較して、サイバー能力スコアがほぼ2倍になったという事実は、次の世代モデルで臨界点を超える可能性を示唆している。

アントロピックは今回の結果を踏まえ、ミトス・プレビューの一般公開を留保し、「プロジェクト・グラスウィング（Project Glasswing）」コンソーシアムに所属する11社のみに制限的なアクセスを許可する前例のない措置を取った。これは、アントロピックが独自に用意した「責任ある拡張ポリシー(Responsible Scaling Policy)」のASL-3グレードに対応する措置であり、モデルが大規模なサイバー攻撃を可能にするレベルの能力に達したときに配布を制限するように設計されたフレームワークによるものだ。

今回の事例はAIガバナンスの現住所を赤裸々に見せる。英国はAISIを通じた技術評価中心のアプローチを、EUはAI法(AI Act)による義務遵守体系を構築しているが、米国は実効性のある執行メカニズムがない状態だ。より基本的な問題は、これらすべてのシステムがAI企業の自発的な協力と限られた外部テストに依存していることです。アントロピックが今回自発的に公開を留保したのは肯定的だが、すべてのAI研究所が同レベルの自己規律を備えるという保証はない。

専門家らは、ミトスのサイバー攻撃能力が同時に防御領域でも同等の潜在力を持つことに注目する。脆弱性を見つける能力は、すぐに脆弱性を事前に発見してパッチする能力でもあるからだ。しかし、組織は今やAIで強化された脅威行為者を独自のリスク評価モデルに反映しなければならない時代に入った。 AIのサイバー力量が毎世代ごとに急激に上昇する傾向の中で、「公開するには危険なAI」という概念が理論で現実となった今回の事件は、フロンティアAI安全議論の噴水令で記録される見通しだ。

WebandIT News

When AI Learns To Hack: Inside The UK’s Alarming Test Of Anthropic’s Most Capable Model - Web And IT News

The question isn’t whether artificial intelligence will become a potent weapon in cyberattacks. The question is how close we are to that threshold — and

webanditnews.com

「AI Native百科事典」を購読する

サイトを購読すると、新しい投稿などの最新のアップデートを通知やメールで最初に受け取ることができます。
Slashpageに参加して「AI Native百科事典」を購読してください！