ARC Prize 재단이 내놓은 새 벤치마크는 도발적인 숫자를 들고 나왔다. 인간은 100%를 풀었지만, GPT-5.4, Claude opus 4.6, Gemini 3.1 pro previw 등 현존하는 최고 수준의 AI 시스템은 0.26%에 머물렀다. ARC-AGI-3는 이 격차를 정밀하게 측정하기 위해 설계된 새로운 종류의 AI 평가 도구다.

ARC-AGI-3는 수백 개의 턴제(turn-based) 환경으로 구성된다. 각 환경은 인간 게임 디자이너가 직접 제작한 독창적인 퍼즐이며, 규칙도 없고 지시도 없고 목표도 명시되지 않는다. AI 에이전트는 환경에 뛰어들어 스스로 탐색하고, 어떻게 작동하는지를 파악하고, 승리 조건이 무엇인지를 발견해야 한다. 이전 문제에서 배운 것을 점점 어려워지는 다음 단계에 적용할 수 있어야 한다.

ARC-AGI-1과 ARC-AGI-2가 고정된 형식 안에서 패턴을 인식하는 능력을 측정했다면, ARC-AGI-3는 '지시 없이 스스로 목표를 설정하고 행동하는 능력'을 측정한다. 이것이 핵심 차이다. 현재 AI가 잘하는 것은 지시를 정확히 따르는 것이다. 반면 인간은 규칙을 알려주지 않아도 게임을 해보면서 금세 파악한다. ARC-AGI-3는 바로 이 격차를 드러낸다.

ARC Prize 재단은 2026년 대회를 함께 발표했다. 총 상금 규모는 200만 달러(약 29억6천만 원)이며, ARC-AGI-3 에이전트 대회와 ARC-AGI-2 오픈소스 그랜드 프라이즈로 구성된다. ARC-AGI-2 그랜드 프라이즈는 2026년 최고의 오픈소스 솔루션에게 반드시 수여된다고 명시했다. 발표 행사는 3월 25일 샌프란시스코 Y Combinator 본사에서 진행됐으며, ARC-AGI 창시자 프랑수아 숄레와 OpenAI CEO 샘 알트만이 'AGI 측정'을 주제로 대담을 나눴다.

이 벤치마크가 중요한 이유는 AI 업계의 '성능 과장' 문제에 정면으로 대응하기 때문이다. GPT, Claude, Gemini 등이 MMLU, HumanEval, GSM8K 등 기존 벤치마크에서 인간 수준 또는 그 이상을 달성했다는 보도가 이어지고 있지만, ARC-AGI-3는 이 모든 모델이 0.26%를 넘지 못한다는 사실을 보여준다. 숄레는 "코딩과 수학에서 뛰어난 모델이라도 낯선 환경에서 스스로 탐색하고 적응하는 능력은 여전히 인간과 비교할 수 없는 수준"이라고 말했다. AI 기술 발전의 다음 과제가 어디에 있는지를 가장 명확하게 보여주는 데이터가 ARC-AGI-3다.

출처: arXiv — ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence