# 앤트로픽 '클로드 미토스', 사이버 공격 능력 입증으로 ASL-3 임계값 도달 — AI 업계 최초 '자체 공개 유보' 결정

![Image](https://upload.cafenono.com/image/slashpagePost/20260422/151718_XifdK7AbaWIqxCNxMO?q=80&s=1280x180&t=outside&f=webp)

앤트로픽이 개발한 최신 프런티어 모델 '클로드 미토스(Claude Mythos) 프리뷰'가 네트워크 취약점 자동 탐색과 익스플로잇 제작 능력을 입증하며, 주요 AI 연구소가 자사 모델을 '공개하기엔 너무 위험하다'고 스스로 판정한 사상 최초의 사례가 됐다. 영국 AI안전연구소(UK AISI)의 독립 평가에서 미토스는 사이버 역량 벤치마크 과제의 3분의 1을 해결하며 기존 모델 대비 압도적 성능 격차를 보여, 앤트로픽 자체 안전 기준인 ASL-3 사이버 역량 임계값에 도달한 것으로 확인됐다.

영국 AI안전연구소는 자체 개발한 ATLAS 벤치마크를 통해 미토스 모델군을 체계적으로 평가했다. 상위 모델인 '미토스-메이저'는 총 78개 사이버 보안 과제 중 26개(33.3%)를 해결했고, 하위 모델 '미토스-마이너'는 22개(28.2%)를 풀었다. 이는 기존 최고 성능 모델이던 클로드 3.5 소네트의 14개(18%)를 크게 상회하는 수치다. 특히 미토스는 네트워크 스캔, 취약한 서비스 식별, 작동하는 익스플로잇 코드 제작, 침해된 시스템에서의 권한 상승에 이르는 전체 공격 체인 — 정찰·익스플로잇·권한 상승·측면 이동 — 을 시연하는 데 성공했다.

다만 평가 보고서는 미토스의 한계도 분명히 지적했다. 현재 수준에서 이 모델은 완전한 엔드투엔드 사이버 공격을 자율적으로 실행할 수는 없으며, 보안이 강화된 실제 프로덕션 인프라를 상대로 한 공격 역시 수행하지 못한다. 그러나 문제는 이러한 능력이 빠르게 발전하고 있다는 점이다. 불과 한 세대 전 모델 대비 사이버 역량 점수가 거의 두 배로 뛰었다는 사실은 다음 세대 모델에서 임계점을 넘을 가능성을 시사한다.

앤트로픽은 이번 결과를 근거로 미토스 프리뷰의 일반 공개를 유보하고, '프로젝트 글래스윙(Project Glasswing)' 컨소시엄에 소속된 11개 기업에만 제한적 접근을 허용하는 전례 없는 조치를 취했다. 이는 앤트로픽이 자체적으로 마련한 '책임 있는 확장 정책(Responsible Scaling Policy)'의 ASL-3 등급에 해당하는 조치로, 모델이 대규모 사이버 공격을 가능하게 할 수준의 역량에 도달했을 때 배포를 제한하도록 설계된 프레임워크에 따른 것이다.

이번 사례는 AI 거버넌스의 현주소를 적나라하게 보여준다. 영국은 AISI를 통한 기술 평가 중심의 접근법을, EU는 AI법(AI Act)에 따른 의무 준수 체계를 구축하고 있지만, 미국은 실효성 있는 집행 메커니즘이 부재한 상태다. 더 근본적인 문제는 이 모든 체계가 AI 기업의 자발적 협력과 제한된 외부 테스트에 의존하고 있다는 점이다. 앤트로픽이 이번에 자발적으로 공개를 유보한 것은 긍정적이지만, 모든 AI 연구소가 같은 수준의 자기 규율을 갖추리라는 보장은 없다.

전문가들은 미토스의 사이버 공격 능력이 동시에 방어 영역에서도 동등한 잠재력을 갖는다는 점에 주목한다. 취약점을 찾아내는 능력은 곧 취약점을 사전에 발견하고 패치하는 능력이기도 하기 때문이다. 그러나 조직들은 이제 AI로 강화된 위협 행위자를 자체 위험 평가 모델에 반영해야 하는 시대에 진입했다. AI의 사이버 역량이 매 세대마다 급격히 상승하는 추세 속에서, '공개하기엔 위험한 AI'라는 개념이 이론에서 현실이 된 이번 사건은 프런티어 AI 안전 논의의 분수령으로 기록될 전망이다.

[WebandIT News](https://www.webanditnews.com/2026/04/14/when-ai-learns-to-hack-inside-the-uks-alarming-test-of-anthropics-most-capable-model/)

[When AI Learns To Hack: Inside The UK’s Alarming Test Of Anthropic’s Most Capable Model - Web And IT News](https://www.webanditnews.com/2026/04/14/when-ai-learns-to-hack-inside-the-uks-alarming-test-of-anthropics-most-capable-model/)

For the site tree, see the [root Markdown](https://blog.teamjcurve.com/.md).