英国AI安全研究所は自社開発したATLASベンチマークを通じてミトスモデル群を体系的に評価した。上位モデルの「ミトス-メジャー」は合計78のサイバーセキュリティ課題のうち26個(33.3%)を解決し、サブモデル「ミトス-マイナー」は22個(28.2%)を解決した。これは従来最高性能モデルだったクロード3.5ソネットの14個(18%)を大きく上回る数値だ。特にミトスは、ネットワークスキャン、脆弱なサービス識別、動作するエクスプロイトコードの製作、侵害されたシステムでの権限上昇に至る全体攻撃チェーン―偵察・エクスプロイト・権限上昇・側面移動―を実演することに成功した。