Sign In

최신 AI 소식 모음

빠르고 정확한 "AI 뉴스" 소식 모음입니다. 여기저기 산발된 정보가 아닌, 이것만 알아도 충분한 정보만 엄선했습니다. 주 3회 업데이트 됩니다 :)
딥시크, V4 모델 공개… 100만 토큰 컨텍스트에 에이전트 역량 대폭 강화, 미중 AI 패권 경쟁 새 국면
지난해 세계 금융시장을 뒤흔든 중국 AI 스타트업 딥시크(DeepSeek)가 24일(현지시간) 차세대 오픈소스 대형언어모델 'V4'의 프리뷰 버전을 공개했다. 'Pro'와 'Flash' 두 가지로 출시된 V4는 지식·추론·에이전트 능력 전반에서 대폭 개선됐으며, 복잡한 워크플로를 자율 수행하는 '에이전틱(agentic)' 역량이 특히 부각된다. 미중 AI 경쟁이 갈수록 격화하는 가운데, 딥시크의 이번 업데이트가 양국 기술 격차 논쟁에 새로운 불을 지피고 있다. 딥시크에 따르면 최상위 모델인 'V4 Pro Max'는 오픈AI의 GPT-5.2와 구글 제미나이(Gemini) 3.0-Pro를 표준 추론 벤치마크에서 앞선다. 다만 GPT-5.4와 제미나이 3.1-Pro에는 '근소한 차이'로 미치지 못한다고 자체 평가했다. 에이전트 역량 면에서는 V4 Pro가 앤트로픽 클로드 소네트(Sonnet) 4.5를 넘어서며, 클로드 오퍼스(Opus) 4.5 수준에 근접한다고 밝혔다. Flash 버전 역시 간단한 에이전트 작업에서는 Pro에 필적하는 성능을 보이고, 추론 능력 또한 Pro에 가깝다는 설명이다. 기술 사양 측면에서도 눈에 띄는 도약이 이뤄졌다. V4의 Pro·Flash 모두 100만 토큰 컨텍스트 윈도를 지원하는데, 이는 전작 V3의 12만8,000 토큰 대비 약 8배에 달하는 수치다. AI 모델이 한 번에 처리하고 기억할 수 있는 정보량이 비약적으로 늘어난 셈이다. 딥시크는 이와 함께 효율성도 개선됐다고 덧붙였다. 기술 리서치 기관 옴디아(Omdia)의 리안 지 수(Lian Jye Su) 수석 애널리스트는 "벤치마크 결과를 보면 딥시크 V4가 미국 경쟁 모델들과 매우 치열하게 경쟁할 것으로 보인다"고 평가했다. 다만 업계 일각에서는 신중론도 나온다. 모닝스타의 시니어 주식 애널리스트 이반 수(Ivan Su)는 V4가 '유능한(competent)' 후속작이긴 하지만, 지난해 초 R1 공개 때만큼의 획기적 돌파구는 아니라고 지적했다. 그는 "R1 출시 이후 중국 내 경쟁이 크게 심화됐고, 미국 모델 대비 역량도 대부분 비슷한 수준에 그친다는 것이 딥시크 자체 평가"라며 "최종 판단을 위해서는 독립적인 외부 평가가 필요하다"고 밝혔다.
  • 팀제이커브
중국 휴머노이드 로봇 '라이트닝', 베이징 하프마라톤서 인간 세계기록 7분 앞당기며 1만 2천 명 제쳐
중국 스마트폰 제조사 아너(Honor)가 개발한 새빨간 휴머노이드 로봇 '라이트닝(Lightning)'이 지난 19일 베이징 하프마라톤에서 50분 26초를 기록하며, 함께 출전한 1만 2,000명의 인간 참가자를 모두 제치고 1위로 결승선을 통과했다. 이 기록은 지난달 우간다의 장거리 육상 선수 야콥 킵리모가 리스본에서 세운 인간 세계기록(57분 31초)을 약 7분이나 단축한 것으로, 이족보행 로봇이 인간의 달리기 한계를 넘어선 역사적 순간으로 기록됐다. 라이트닝은 결승 직전 난간에 충돌해 넘어지는 돌발 상황을 겪었지만, 관계자의 도움으로 다시 일어나 극적으로 완주에 성공했다. 아너의 로봇들은 이에 그치지 않고 2위와 3위까지 석권하며 포디움을 독식했다. 우승 팀 캡틴 마화쩌(Ma Huaze)는 "이번 대회 같은 대형 경쟁 무대에서 대규모 업그레이드를 시험하는 데 큰 용기가 필요했다"며 긴장감을 토로했다. 인간 참가자 중 최고 기록을 세운 29세 자오하이제(Zhao Haijie)는 1시간 7분 47초로 완주하며 "처음 5km 안에 로봇이 '쉭' 하고 스쳐 지나갔다"고 회상했다. 올해 대회에는 100대 이상의 로봇이 참가해 작년 첫 대회(21대)에서 대폭 늘었다. 작년에는 출발선에서 드러눕거나 비틀거리다 완주에 성공한 로봇이 6대에 불과했고, 최고 기록도 톈궁(Tiangong)의 2시간 40분이었다. 올해는 최소 4대가 1시간 벽을 돌파하는 등 기술 수준이 비약적으로 향상됐다. 참가 로봇의 약 40%는 원격 조종 없이 완전 자율주행으로 코스의 커브와 요철 등 장애물을 스스로 탐지하며 완주했다. 다만 출발 60m 만에 앞으로 고꾸라져 포장 테이프로 상체를 감고 경주를 이어간 로봇, 결승선을 넘자마자 방향을 잃고 덤불에 빠진 로봇 등 해프닝도 여전했다. 기술자들은 골프카트를 타고 들것과 휠체어를 준비한 채 로봇을 따라다녔다. 이번 대회의 이면에는 차세대 AI 기반 휴머노이드 개발을 둘러싼 미·중 간 기술 패권 경쟁이 자리하고 있다. 중국은 로봇 산업을 '국가 우선순위'로 지정하고 정부 보조금을 투입하며, 현재 150개 이상의 휴머노이드 제조·연구 기관을 보유하고 있다. 베이징의 2026~2030년 마스터 플랜에는 브레인칩, 양자컴퓨팅, 로봇이 운영하는 공장 등 미래 기술 청사진이 포함돼 있다. 우승 로봇에게는 100만 위안(약 1억 4,650만 원) 상당의 주문 계약이 수여되며, 수억 명이 각종 플랫폼을 통해 대회를 생중계로 시청했다.
  • 팀제이커브
OpenAI, GPT-5.5 전격 공개… '대화하는 AI'에서 '행동하는 AI'로 축이 옮겨갔다
OpenAI가 지난 4월 23일(현지시간) 차세대 대규모 언어모델 'GPT-5.5'를 공식 발표했다. 회사는 이번 모델이 GPT-4.5 시대 이후 처음으로 처음부터 완전히 재훈련된 기반 모델(foundation model)이며, 단순한 성능 개선판이 아니라 '에이전틱 컴퓨팅(Agentic Computing)'을 설계 철학의 중심에 둔 첫 세대 모델이라고 강조했다. 사용자가 묻고 모델이 답하는 전통적 채팅 패러다임을 넘어, AI가 목표를 받으면 스스로 계획을 세우고 도구를 호출해 실행까지 마무리하는 단계로 진입했다는 선언이다. 이번 발표의 핵심 메시지는 '대화에서 행동으로'라는 한 줄로 압축된다. GPT-5.5는 사용자의 의도를 파싱한 뒤 다단계 작업을 분해하고, 웹 브라우저·코드 인터프리터·외부 API·파일 시스템 같은 도구를 연쇄적으로 호출해 결과물을 산출하도록 처음부터 최적화됐다는 것이 OpenAI의 설명이다. 즉, GPT-5.5는 '말 잘하는 모델'이 아니라 '일을 끝내는 모델'에 가깝다. 회사 측은 이를 두고 채팅 인터페이스 시대가 저물고, AI가 운영체제처럼 작업 전체를 위임받아 처리하는 시대가 본격적으로 열리는 분기점이라고 의미를 부여했다. 이번 행보는 갑작스러운 도약이라기보다는 지난 23년간 업계 전반의 흐름이 임계점에 도달한 결과로 읽힌다. 20242025년 OpenAI가 코드 작성 에이전트와 컴퓨터 사용(Computer Use) 기능을 잇따라 실험해온 데 이어, 구글·앤스로픽·메타 등 경쟁사들도 일제히 '에이전트 우선' 전략으로 방향을 틀어왔다. 그 사이 GPT-4.5는 추론 품질과 멀티모달 처리에서 한 세대를 정의했지만, 기업 현장에서는 '결국 실행은 사람이 해야 한다'는 한계가 반복적으로 지적돼 왔다. GPT-5.5는 그 간극을 메우기 위해 모델 아키텍처와 훈련 데이터, 정렬(alignment) 전략을 처음부터 다시 설계했다는 것이 OpenAI의 입장이다. 산업적 함의는 명확하다. 'AI를 어떻게 쓸 것인가'라는 질문이 '어떤 업무를 통째로 위임할 것인가'로 옮겨가게 된다. SaaS 업계에서는 기존 애플리케이션의 UI 자체가 에이전트가 호출하는 도구 계층으로 흡수되는 'API 우선·에이전트 우선' 재편이 가속될 가능성이 크고, 보안·감사·권한 관리처럼 그동안 부차적 영역으로 여겨졌던 거버넌스 이슈가 1순위 도입 변수로 부상할 전망이다. 동시에 자율 실행이 강해질수록 오작동·환각·과대권한 같은 위험도 비례해 커지는 만큼, GPT-5.5의 실질적 성공은 결국 '얼마나 똑똑한가'보다 '얼마나 믿고 맡길 수 있는가'에서 판가름날 것으로 보인다.
  • 팀제이커브
구글, 앤트로픽에 400억 달러 베팅… AI 파운데이션 모델 단일 투자 사상 최대
구글이 Claude 개발사 앤트로픽에 총 400억 달러를 투입하기로 24일(현지시간) 확정했다. 1차로 100억 달러가 즉시 집행됐고, 나머지 300억 달러는 성과 마일스톤을 달성하는 조건으로 순차 투자된다. 단일 AI 파운데이션 모델 기업에 대한 투자로는 사상 최대 규모로, 오픈AI·마이크로소프트 연합과의 자본전쟁이 새로운 국면으로 들어섰다는 평가가 나온다. 이번 투자는 앤트로픽의 기업가치를 3,500억 달러로 평가하는 조건에서 이뤄졌다. 이는 지난 2월 펀딩 라운드에서 책정된 밸류에이션과 동일한 수준이다. 구글은 자본 투입과 동시에 앤트로픽의 핵심 클라우드 인프라 파트너 지위를 한층 공고히 했다. 양사는 TPU 칩 사용량을 대폭 확대하고 구글 클라우드 서비스 활용을 심화하기로 했으며, 2027년부터는 무려 5기가와트(GW) 규모의 전용 컴퓨팅 용량을 가동할 예정이다. 주목할 점은 앤트로픽이 빅테크 양대 진영으로부터 동시에 거액의 자금을 끌어내고 있다는 사실이다. 구글의 발표 나흘 전인 4월 20일, 아마존도 즉시 50억 달러와 조건부 최대 200억 달러를 추가로 투자하겠다고 밝혔다. 다리오 아모데이 앤트로픽 CEO는 "아마존과의 협력은 Claude를 제공하면서 동시에 AI 연구를 계속 진전시킬 수 있게 해줄 것"이라고 언급한 바 있다. 앞서 앤트로픽은 2025년 11월 미국 내 컴퓨팅 인프라에 500억 달러를 투입하겠다고 약속했고, 4월 6일에는 구글-브로드컴과 TPU 확장 계약을 체결하는 등 인프라 확보에 공격적으로 나서고 있다. 이번 딜은 글로벌 AI 산업의 자본 지형을 다시 그리고 있다. 마이크로소프트가 오픈AI를 사실상 독점 파트너로 묶어둔 구도와 달리, 앤트로픽은 구글과 아마존이라는 두 클라우드 거인에 동시에 발을 걸치며 독립 AI 기업으로서의 입지를 유지하고 있다. 다만 천문학적 자본 의존도가 깊어질수록 양대 빅테크의 영향력에서 자유롭기 어렵다는 점은 향후 관전 포인트다. 업계에서는 이번 400억 달러 베팅이 차세대 모델 학습을 위한 컴퓨팅 군비경쟁의 본격 신호탄이라는 해석이 지배적이며, 후발 주자들과의 자본 격차가 더욱 벌어질 것으로 전망된다.
  • 팀제이커브
메타, 오픈소스 버리고 독점 AI 모델 'Muse Spark' 공개 — 143억 달러 투자한 Alexandr Wang의 첫 작품
메타가 지난 4월 8일(현지시간) 자사 새 AI 모델 시리즈의 첫 번째 제품인 'Muse Spark'(코드명 Avocado)를 공개했다. 이 모델은 지난해 143억 달러 규모의 투자를 통해 영입한 Scale AI 출신 Alexandr Wang이 이끄는 'Meta Superintelligence Labs'의 첫 결과물로, OpenAI·Anthropic·구글이 지배하는 AI 시장에서 메타가 반격의 신호탄을 쏘아 올린 것으로 평가된다. 가장 주목할 만한 변화는 메타의 전략적 전환이다. 그동안 Llama 시리즈를 통해 오픈소스 노선을 고수해 온 메타가 Muse Spark를 독점 모델로 출시한 것이다. 메타는 '향후 오픈소스 버전 공개를 희망한다'는 여지를 남겼으나, 지난해 4월 최신 오픈소스 모델이 개발자 커뮤니티에서 기대에 미치지 못한 반응을 얻자 마크 저커버그 CEO가 전략 수정에 나선 것으로 알려졌다. 메타는 블로그를 통해 "지난 9개월간 Meta Superintelligence Labs가 AI 스택을 처음부터 새로 구축했으며, 이전의 어떤 개발 주기보다 빠르게 진행했다"고 밝혔다. Muse Spark는 최상위 성능의 '프론티어 모델'을 표방하기보다는 효율성과 실용적 성능에 방점을 찍었다. 메타에 따르면 개선된 AI 훈련 기법과 새로 구축한 인프라 덕분에 기존 중간급 Llama 4 모델과 동등한 성능을 '10분의 1 수준의 컴퓨팅'으로 달성했다. 멀티모달 인식, 추론, 건강, 에이전트 작업 등에서 경쟁력 있는 성능을 보이며, 특히 '심사숙고(Contemplating) 모드'에서는 복수의 AI 에이전트가 병렬로 추론하여 구글 Gemini Deep Think, OpenAI GPT Pro 등 최상위 모델의 극한 추론 모드에 대응한다고 설명했다. Muse Spark는 이미 독립형 Meta AI 앱과 데스크톱 웹사이트에 탑재됐으며, 수 주 내로 페이스북·인스타그램·왓츠앱·메신저, 그리고 레이밴 메타 AI 안경에도 순차 적용될 예정이다. 간단한 질문에 빠르게 답하는 모드부터 법률 문서 분석이나 식료품 사진의 영양 정보 추출 같은 복잡한 작업용 모드까지, 프롬프트의 복잡도에 따라 모드를 전환할 수 있다. 또한 쇼핑 모드를 통해 의류 구매나 인테리어 추천까지 지원하며, 크리에이터·커뮤니티 콘텐츠와 연계한 스타일링 제안 기능도 포함됐다.
  • 팀제이커브
2026년 1분기 글로벌 VC 투자 3,000억 달러 돌파 — AI 4대 기업이 전체의 65% 독식
2026년 1분기 글로벌 벤처캐피탈 투자 규모가 약 3,000억 달러(약 414조 원)를 기록하며 분기 기준 사상 최고치를 갈아치웠다. 크런치베이스 집계에 따르면, 전 세계 6,000여 개 스타트업에 투입된 이 금액은 직전 분기 대비 150% 급증한 수치로, 2025년 한 해 전체 투자액의 약 70%에 달하며 2018년 이전의 어떤 연간 투자 총액보다도 크다. AI 열풍이 스타트업 생태계의 자본 지형을 근본적으로 바꿔놓고 있다는 신호다. 이번 분기의 폭발적 성장을 견인한 것은 AI 메가라운드다. OpenAI가 1,220억 달러, Anthropic이 300억 달러, 일론 머스크의 xAI가 200억 달러, 그리고 알파벳 산하 자율주행 기업 Waymo가 160억 달러를 각각 유치했다. 이 4개사의 투자 유치액만 합산하면 1,880억 달러로, 글로벌 전체 투자의 65%를 차지한다. 역대 가장 큰 5대 VC 라운드 중 3건이 불과 4주 안에 몰려 발생했다는 점은 자본 집중화의 속도를 극적으로 보여준다. AI 분야는 전체 투자의 80%인 2,420억 달러를 빨아들이며 압도적 존재감을 과시했다. 직전 최고 기록이었던 2025년 1분기의 55%를 크게 웃도는 수치다. 생성형 AI와 물리적 AI를 넘어 자율주행, 반도체, 데이터센터, 로봇공학, 국방, 예측시장까지 AI 자본의 영향권이 빠르게 확산되고 있다. 투자 단계별로는 후기(레이트 스테이지)가 2,466억 달러(584건)로 전년 대비 205% 폭증했고, 1억 달러 이상 단일 라운드만 158건에 달했다. 초기 단계(시리즈 A·B)도 413억 달러(전년 대비 41% 증가), 시드는 120억 달러(전년 대비 31% 증가)를 기록해 생태계 전반이 동반 성장했다. 다만 시드 건수 자체는 30% 줄어 평균 라운드 규모만 커진 점은 눈여겨볼 대목이다. 지역별로는 미국의 독주가 심화됐다. 미국 기업이 전체의 83%인 2,500억 달러를 흡수해 2025년 1분기(71%)보다 비중을 더 높였다. 2위 중국은 161억 달러, 3위 영국은 74억 달러로 뒤를 이었다. 유니콘 보드에도 한 분기에만 9,000억 달러의 평가액이 새로 추가되며 역사상 최대 분기 상승폭을 기록했다.
  • 팀제이커브
Anthropic, 최강 AI 'Claude Mythos' 공개 배포 전격 보류… 수천 건 제로데이 취약점 자율 발견에 ASL-4 발동
Anthropic이 자사 최신 플래그십 모델 'Claude Mythos'의 일반 공개를 무기한 보류하고, AWS·애플·구글·마이크로소프트 등 소수 파트너 기업에만 제한 배포하는 이례적 조치를 취했다. 훈련 과정에서 의도하지 않게 발현된 공격적 사이버보안 능력이 주요 운영체제와 웹 브라우저에서 수천 건의 제로데이 취약점을 자율적으로 발견하는 수준에 이르자, 회사가 최고 안전 등급인 ASL-4를 발동한 것이다. Anthropic 내부 테스트에 따르면 Claude Mythos는 인간 보안 연구원이 기존에 탐지하지 못했던 주요 소프트웨어의 치명적 결함을 독자적으로 식별하고, 이를 악용할 수 있는 익스플로잇 코드까지 자동으로 조립하는 능력을 보였다. 특히 이 능력은 Anthropic이 의도적으로 설계한 것이 아니라 대규모 훈련 과정에서 '창발(emergent)'한 것으로 알려져 업계에 더 큰 충격을 주고 있다. 은행, 소매, 항공, 병원, 전력 등 사회 핵심 인프라를 지탱하는 시스템의 취약점까지 탐지 범위에 포함된 것으로 확인됐다. Anthropic은 이 모델을 일반에 공개하는 대신 'Project Glasswing'이라는 이름의 제한적 파트너십 프로그램을 2026년 4월 가동했다. AWS, 애플, 시스코, 크라우드스트라이크, 구글, JP모건체이스, 리눅스재단, 마이크로소프트, 엔비디아, 팔로알토 네트웍스 등 사이버보안 및 핵심 인프라 기업만이 접근 권한을 부여받았다. 이들 기업은 Claude Mythos가 발견한 취약점을 사전에 패치하는 방어적 목적으로만 모델을 활용하게 된다. 사안의 심각성은 금융 규제 당국의 움직임에서도 드러난다. 제이 파월 미 연방준비제도(Fed) 의장과 스콧 베선트 재무장관은 주요 은행 CEO들을 소집해 Claude Mythos가 발견한 취약점이 패치되기 전에 '시스템적으로 중요한' 금융기관이 침해될 수 있다고 경고한 것으로 전해졌다. AI가 발견한 취약점 정보가 악의적 행위자의 손에 넘어갈 경우, 금융 시스템 전체가 동시다발적 공격에 노출될 수 있다는 우려가 반영된 조치다.
  • 팀제이커브
스페이스X, xAI 인수로 1조 2,500억 달러 '우주 AI 제국' 탄생… 궤도 데이터센터 시대 열리나
일론 머스크의 우주기업 스페이스X가 자신의 인공지능 스타트업 xAI를 공식 인수하며, 합산 기업가치 1조 2,500억 달러(약 1,712조 원)에 달하는 세계 최대 비상장 기업이 탄생했다. 스페이스X는 2월 2일(현지시간) 자사 웹사이트에 게시한 메모를 통해 합병 완료를 공식 발표했으며, 블룸버그 통신이 거래 성사를 최초 보도했다. 머스크는 이번 합병의 핵심 목표로 '우주 기반 데이터센터' 구축을 내세웠다. 그는 메모에서 "현재 AI 발전은 막대한 전력과 냉각이 필요한 대규모 지상 데이터센터에 의존하고 있다"며 "AI를 위한 글로벌 전력 수요는 지역사회와 환경에 부담을 주지 않고서는 지상 솔루션만으로 단기간 내에 충족될 수 없다"고 강조했다. 이는 AI 인프라의 전력 병목을 우주로 해소하겠다는 구상으로, 위성 기반 데이터센터를 끊임없이 발사·운용하겠다는 비전이다. 다만 이 합병에는 복잡한 재무적 배경이 깔려 있다. 블룸버그에 따르면 xAI는 현재 월 약 10억 달러(약 1조 3,700억 원)의 자금을 소진하고 있으며, 스페이스X는 자체 스타링크 위성 발사가 전체 매출의 최대 80%를 차지하는 구조다. 머스크는 궤도 데이터센터에 끊임없는 위성 공급이 필요하다고 밝혔는데, 이는 스페이스X에 안정적인 발사 수익 파이프라인을 보장하는 셈이다. 미국 연방통신위원회(FCC)가 위성을 5년마다 궤도에서 이탈시키도록 의무화한 점을 고려하면, 이 수익 순환 구조는 더욱 매력적이다. xAI는 지난해 머스크 소유의 소셜미디어 기업 X(구 트위터)를 인수하며 합산 기업가치 1,130억 달러를 주장한 바 있고, 테슬라와 스페이스X가 각각 20억 달러씩 xAI에 투자한 전력이 있다. 이번 합병으로 머스크의 기업 제국은 스페이스X·xAI·X가 하나의 우산 아래 묶이게 됐으며, 여기에 테슬라, 더보링컴퍼니, 뉴럴링크까지 포함하면 머스크가 지배하는 기업군의 규모는 전례를 찾기 어렵다. 한편, 스페이스X는 올해 6월 IPO를 준비 중인 것으로 알려져 있으나, 머스크는 메모에서 상장 일정에 대해 언급하지 않았다. 합병이 IPO 타임라인에 영향을 줄지는 불투명하다. 또한 xAI의 챗봇 '그록(Grok)'에 대해서는 워싱턴포스트가 머스크가 제한을 완화하면서 성인 및 아동의 비동의 성적 이미지 생성 도구로 악용됐다고 보도해 논란이 일고 있으며, 멤피스 테네시 데이터센터 인근 지역사회에 대한 환경적 부담도 비판을 받고 있다.
  • 팀제이커브
앤트로픽 '클로드 미토스', 사이버 공격 능력 입증으로 ASL-3 임계값 도달 — AI 업계 최초 '자체 공개 유보' 결정
앤트로픽이 개발한 최신 프런티어 모델 '클로드 미토스(Claude Mythos) 프리뷰'가 네트워크 취약점 자동 탐색과 익스플로잇 제작 능력을 입증하며, 주요 AI 연구소가 자사 모델을 '공개하기엔 너무 위험하다'고 스스로 판정한 사상 최초의 사례가 됐다. 영국 AI안전연구소(UK AISI)의 독립 평가에서 미토스는 사이버 역량 벤치마크 과제의 3분의 1을 해결하며 기존 모델 대비 압도적 성능 격차를 보여, 앤트로픽 자체 안전 기준인 ASL-3 사이버 역량 임계값에 도달한 것으로 확인됐다. 영국 AI안전연구소는 자체 개발한 ATLAS 벤치마크를 통해 미토스 모델군을 체계적으로 평가했다. 상위 모델인 '미토스-메이저'는 총 78개 사이버 보안 과제 중 26개(33.3%)를 해결했고, 하위 모델 '미토스-마이너'는 22개(28.2%)를 풀었다. 이는 기존 최고 성능 모델이던 클로드 3.5 소네트의 14개(18%)를 크게 상회하는 수치다. 특히 미토스는 네트워크 스캔, 취약한 서비스 식별, 작동하는 익스플로잇 코드 제작, 침해된 시스템에서의 권한 상승에 이르는 전체 공격 체인 — 정찰·익스플로잇·권한 상승·측면 이동 — 을 시연하는 데 성공했다. 다만 평가 보고서는 미토스의 한계도 분명히 지적했다. 현재 수준에서 이 모델은 완전한 엔드투엔드 사이버 공격을 자율적으로 실행할 수는 없으며, 보안이 강화된 실제 프로덕션 인프라를 상대로 한 공격 역시 수행하지 못한다. 그러나 문제는 이러한 능력이 빠르게 발전하고 있다는 점이다. 불과 한 세대 전 모델 대비 사이버 역량 점수가 거의 두 배로 뛰었다는 사실은 다음 세대 모델에서 임계점을 넘을 가능성을 시사한다. 앤트로픽은 이번 결과를 근거로 미토스 프리뷰의 일반 공개를 유보하고, '프로젝트 글래스윙(Project Glasswing)' 컨소시엄에 소속된 11개 기업에만 제한적 접근을 허용하는 전례 없는 조치를 취했다. 이는 앤트로픽이 자체적으로 마련한 '책임 있는 확장 정책(Responsible Scaling Policy)'의 ASL-3 등급에 해당하는 조치로, 모델이 대규모 사이버 공격을 가능하게 할 수준의 역량에 도달했을 때 배포를 제한하도록 설계된 프레임워크에 따른 것이다.
  • 팀제이커브
북미 Q1 2026 VC 투자 2,526억 달러로 역대 최고 경신… AI가 전체의 87% 독식
2026년 1분기 북미 벤처캐피털 투자가 전례 없는 기록을 세웠다. 크런치베이스 데이터에 따르면 미국과 캐나다 스타트업이 시드부터 성장 단계까지 유치한 총 투자액은 2,526억 달러(약 374조 원)로, 역대 분기 최고치를 경신했다. 이 수치는 직전 분기 대비 3배 이상이며, 기존 분기 최고 기록이었던 2021년 3분기의 957억 달러를 압도한다. 크런치베이스의 표현을 빌리면 '경신'이 아니라 '분쇄(smashed)'에 가깝다. 규모를 가늠하는 기준점 하나 OpenAI 단 한 건의 투자 라운드가 기존 역대 분기 최고 기록 전체보다 컸다. OpenAI는 2월 아마존, 엔비디아, 소프트뱅크 주도로 1,100억 달러(약 163조 원)를 유치하고, 3월에 120억 달러를 추가로 조달했다. 나머지 상위 4건의 투자 합산도 기존 분기 최고치에 맞먹었다. 앤트로픽 시리즈 G 300억 달러, xAI 시리즈 E 200억 달러, Waymo 시리즈 D 160억 달러가 상위권을 채웠다. AI가 전체 투자의 87%를 차지 AI 관련 카테고리로 흘러들어간 투자액은 2,210억 달러(약 327조 원)로 전체의 87%에 달한다. 직전 분기 AI 투자 총액 대비 6배 수준이다. 후기 및 성장 단계 투자는 전체의 88%인 2,224억 달러를 기록했다. 주목할 점은 투자 건수가 아니라 건당 규모가 폭발적으로 커졌다는 것이다. 후기·성장 단계 라운드 건수는 오히려 직전 분기 대비 소폭 감소했다. 더 큰 베팅이 더 적은 수에 집중되는 양상이다. 초기 단계도 3년 만에 최고 기록 경신은 대형 딜에만 국한되지 않았다. 시리즈 A·B 수준의 초기 단계 투자도 251억 달러로 전년 대비 56% 증가하며 3년 이상 만에 가장 높은 분기 수치를 기록했다. 시드 단계 역시 10억 달러를 넘어 3년 만의 최고치를 보였다. 전 단계에 걸쳐 동시에 기록이 나온 것은 이례적이다. 패러다임 전환인가, 버블인가 크런치베이스는 이번 분기를 단순한 기록 경신이 아니라 '패러다임 전환(paradigm shift)'의 신호로 해석한다. AI 인프라와 에이전틱 AI 응용 분야에 대형 LP들의 자본이 집중되면서, 2026년 AI 투자 사이클이 단순한 하이프 국면을 벗어나 구조적 재편으로 굳어지고 있다는 평가다.
  • 팀제이커브
Anthropic, MCP를 Linux Foundation에 기부 — OpenAI·Google·Microsoft와 'Agentic AI Foundation' 공동 설립
Anthropic이 자사가 개발한 AI 에이전트 연결 프로토콜 'Model Context Protocol(MCP)'을 Linux Foundation 산하 신설 재단 'Agentic AI Foundation(AAIF)'에 기부하고, OpenAI·Google·Microsoft·AWS 등 주요 빅테크와 함께 공동 운영에 나선다고 발표했다. 2026년 3월 기준 MCP의 월간 SDK 다운로드 수는 9,700만 건을 돌파했으며, 1만 개 이상의 공개 MCP 서버가 가동 중이다. AI 에이전트 시대의 '사실상 표준(de facto standard)'이 명실상부한 '공식 개방형 표준'으로 격상된 셈이다. MCP는 약 1년 전 Anthropic이 도입한 개방형 프로토콜로, AI 애플리케이션을 외부 데이터 소스 및 시스템에 연결하는 보편적 표준을 지향한다. 현재 Python과 TypeScript SDK를 중심으로 월 9,700만 건 이상의 다운로드가 이뤄지고 있으며, Claude에서만 75개 이상의 공식 커넥터가 제공된다. ChatGPT, Cursor, Google Gemini, Microsoft Copilot, Visual Studio Code 등 경쟁사 플랫폼까지 MCP를 채택하면서, 단일 기업이 만든 프로토콜이 업계 전체의 인프라로 자리잡은 이례적 사례가 됐다. AWS, Cloudflare, Google Cloud, Microsoft Azure 등 주요 클라우드 인프라도 MCP를 지원하고 있다. 이번에 설립된 Agentic AI Foundation(AAIF)은 Linux Foundation 산하 지정펀드(directed fund) 형태로 운영된다. Anthropic, Block(구 Square), OpenAI가 공동 창립자로 참여했으며, Google, Microsoft, AWS, Cloudflare, Bloomberg 등이 지원 기관으로 이름을 올렸다. Linux Foundation은 Linux 커널, Kubernetes, Node.js, PyTorch 등 핵심 오픈소스 프로젝트를 성공적으로 관리해 온 비영리 조직으로, 중립적 거버넌스와 지속 가능한 생태계 운영에 검증된 역량을 보유하고 있다. AAIF는 MCP뿐 아니라 Block의 오픈소스 AI 에이전트 프레임워크 'goose', OpenAI의 'AGENTS.md' 등 에이전틱 AI 관련 프로젝트를 포괄적으로 지원할 계획이다.
  • 팀제이커브
Anthropic, '클로드 매니지드 에이전트' 공개 베타 출시… 자율 AI 에이전트 배포, '수개월→며칠'로 단축
Anthropic이 2026년 4월 9일 '클로드 매니지드 에이전트(Claude Managed Agents)' 공개 베타를 출시하며 자율 AI 에이전트 인프라 시장에 본격 진출했다. 개발자가 복잡한 서버 설정 없이 자연어나 YAML 파일만으로 에이전트를 정의하고, Anthropic의 관리형 클라우드 인프라에 즉시 배포할 수 있는 구성 가능한 API 스위트다. 이번 출시는 단순한 기능 추가를 넘어, AI 에이전트 구축의 진입장벽 자체를 허무는 인프라 전략의 선언으로 읽힌다. 클로드 매니지드 에이전트의 핵심은 이른바 '미분화된 무거운 작업(undifferentiated heavy lifting)'의 대리 처리다. 보안 샌드박스 코드 실행 환경, 자격증명(credential) 관리, 상태 관리 및 권한 설정, 에이전트 오케스트레이션, 엔드-투-엔드 추적 및 모니터링 등 그간 엔지니어링 팀이 직접 구축해야 했던 인프라 레이어 전반을 Anthropic이 대신 맡는 구조다. 개발자는 인프라 설계 대신 사용자 경험과 비즈니스 로직에 집중할 수 있게 된다. SSE(Server-Sent Events) 실시간 스트리밍도 기본 내장돼 있어 장시간 실행 에이전트의 응답성도 확보했다. 성능 지표도 주목할 만하다. Anthropic 내부 테스트에서 구조화된 파일 생성 태스크의 성공률이 최대 10퍼센트포인트 향상됐으며, 배포 속도는 기존 대비 10배 빨라진 것으로 나타났다. 프로토타입에서 실제 프로덕션 배포까지 걸리는 시간이 '수개월에서 며칠 수준'으로 줄어들었다는 게 Anthropic의 설명이다. 이미 Notion, Rakuten, Asana 등 글로벌 기업들이 이 플랫폼을 활용해 프로덕션 에이전트를 운영 중인 것으로 알려졌다. 이번 출시는 AI 산업이 '모델 경쟁'에서 '에이전트 인프라 경쟁'으로 무게중심을 옮기는 흐름 속에서 나왔다. OpenAI가 Responses API와 에이전트 런타임을 강화하고, Google이 Vertex AI 기반 에이전트 빌더를 확대하는 가운데, Anthropic은 완전 관리형 인프라 제공이라는 방향으로 차별화를 시도하고 있다. 특히 '보안 샌드박스 기본 제공'은 엔터프라이즈 고객이 에이전트 도입 시 가장 우선 고려하는 보안·컴플라이언스 문제를 선제적으로 해소하는 포석으로 해석된다.
  • 팀제이커브
DeepSeek V4, 엔비디아 버리고 화웨이 칩으로 전면 전환… 중국 AI 반도체 독립 선언
중국 AI 레이스가 글로벌 AI 산업의 칩 의존 구조를 뒤흔들 전환점을 맞이했다. 딥시크(DeepSeek)의 차세대 플래그십 모델 V4가 엔비디아가 아닌 화웨이 설계 프로세서 위에서 구동될 예정이다. 수주 내 출시가 예상된다. 이 전환은 '프론티어 AI는 여전히 엔비디아에 의존한다'는 업계의 오랜 통념에 정면으로 도전한다. 알리바바, 바이트댄스, 텐센트 — 이미 수십만 개 선주문 The Information의 보도에 따르면 알리바바그룹, 바이트댄스, 텐센트 등 중국 빅테크들이 V4 출시를 앞두고 화웨이의 최신 AI 칩을 수십만 개 단위로 선주문했다. 내부 사정에 정통한 5명의 소식통이 이를 확인했다. 이 수준의 주문량은 단순한 실험이 아니다. 중국 테크 섹터 전반이 국산 반도체 스택을 생산 준비 완료 단계의 경로로 받아들이기 시작했다는 신호다. 수개월에 걸친 재설계 — 단순 포팅이 아니었다 딥시크는 수개월간 화웨이와 캠브리콘(Cambricon)과 긴밀히 협력해 국산 하드웨어에서 모델이 구동되도록 핵심 코드를 재작성하고 새로운 칩 아키텍처에서 성능 테스트를 반복했다. 소프트웨어 팀이 기존 제약에 맞게 시스템 전반을 재설계하는 수준의 작업이었다. 이는 앞서 딥시크의 성공이 엔비디아 칩 접근에 기반했다는 주장과 대조된다. V4를 통해 딥시크는 중국 자체 생태계 안에서 고성능 AI 모델을 학습, 최적화, 배포할 수 있는 역량을 공개적으로 선언하는 셈이다. 미국 수출 규제 — 병목이 아닌 혁신의 촉매 이번 움직임이 가진 가장 중요한 함의는 이렇다. 국산 칩이 고성능 AI 워크로드를 감당할 수 있다면, 워싱턴의 수출 규제는 병목이 아니라 오히려 중국 내 혁신을 가속화하는 강제 함수(forcing function)가 된다. 딥시크는 단일 V4 모델에 그치지 않는다. 다양한 사용 사례에 맞춰 조정된 여러 V4 변형 모델이 개발 중이며, 모두 국산 하드웨어 위에서 구동되도록 설계됐다. 칩에서 모델까지 수직 통합된 AI 스택이 중국 안에서 모양을 갖춰가고 있다. V3·R1에 이어 V4가 던질 충격
  • 팀제이커브
AI 스타트업들, 리테일 '조용한 킬러' 공략… 8,500억 달러 반품 문제에 가상 피팅 기술 도전
미국 패션 리테일 업계가 '조용한 킬러(silent killer)'라고 부르는 문제가 있다. 바로 반품이다. 미국 국립소매연합회(NRF)에 따르면 2025년 연간 반품 규모는 8,499억 달러(약 1,258조 원)에 달했고, 온라인 구매 반품률은 19.3%다. Z세대(18~30세)의 1인당 연평균 온라인 반품 횟수는 8건에 이른다. 더 심각한 것은 구조적 손실이다. 반품된 상품의 대부분은 다시 진열대에 오르지 못하고, 환불 처리 비용이 상품 가치를 초과하는 경우도 많다. 패션 브랜드 마진을 직접 갉아먹는 다중의 구멍인 셈이다. AI 가상 피팅 기술의 본격 등장 이 문제에 도전하는 AI 스타트업들이 빠르게 성장하고 있다. 핵심 솔루션은 가상 피팅(virtual try-on)이다. 잠재 고객이 실제로 구매하기 전, AI가 옷의 핏과 스타일을 시각화해 주는 기술이다. 사실 이 아이디어는 2010년대부터 있었다. 그런데 왜 지금 갑자기 주목받는가? 생성형 AI의 급속한 발전이 이 기술을 '실제로 구매 결정에 영향을 미칠 수준'으로 끌어올렸기 때문이다. Catches: 거울처럼 현실적인 디지털 피팅 AI 스타트업 Catches는 사용자가 '디지털 트윈'을 만들어 옷을 가상으로 입어볼 수 있는 플랫폼을 개발했다. 이 플랫폼의 차별점은 단순히 '예쁘게 보이는' 렌더링이 아니다. 원단의 질감, 소재가 움직이는 몸에 반응하는 방식까지 물리 시뮬레이션으로 구현한다. LVMH의 앙투안 아르노가 투자하고 Nvidia CUDA 플랫폼 위에 구축된 Catches는 최근 럭셔리 브랜드 Amiri의 웹사이트에서 서비스를 시작했다. CEO Ed Voyce는 반품과 장바구니 이탈의 1위 원인이 '핏에 대한 불확실성'이라고 지적한다. "지금 이 기술이 해결 가능한 시점이 된 이유는, 클라우드에서 최종 사용자를 위한 비주얼을 투자 대비 수익이 나오는 비용으로 실행할 수 있게 됐기 때문"이라고 설명했다. 반품 줄이기 vs. 구매 늘리기 — 두 마리 토끼 이 기술의 목표는 단순히 반품을 줄이는 것만이 아니다. 구매 결정 자체를 강화하는 도구이기도 하다. NRF 데이터에 따르면 소비자의 82%가 '무료 반품'을 필수 조건으로 여기지만, 이를 제공하는 비용은 점점 감당하기 어려워지고 있다.
  • 팀제이커브
구글, 완전 오픈소스 AI 모델 'Gemma 4' 공개… 수십억 대 안드로이드 기기에서 로컬 구동
구글 딥마인드가 2026년 4월 3일(현지 시각) 완전 오픈소스 대형언어모델(LLM) 'Gemma 4'를 공식 공개했다. Apache 2.0 라이선스를 채택해 누구나 무료로 다운로드, 수정, 재배포할 수 있으며 상업적 활용에도 별도 로열티가 없다. Gemma 4란 무엇인가 Gemma 4는 구글이 자사 플래그십 모델 Gemini 3 개발에 사용한 것과 동일한 기술 기반으로 제작됐다. 구글은 'Gemma 시리즈 중 역대 가장 강력한 오픈 AI 모델'이라고 소개했다. 핵심 사양은 다음과 같다. 모델 크기는 20억(2B), 40억(4B), 260억(26B), 310억(31B) 파라미터 4종으로 제공된다. 컨텍스트 윈도우는 최대 256,000 토큰(소형 E2B·E4B 모델은 128,000 토큰)이며, 140개 이상 언어로 학습됐다. 기능 면에서는 다단계 계획 및 심층 논리를 포함한 고급 추론, 에이전틱 워크플로우 지원, AI 코딩 지원 로컬화, 음성 인식 및 차트 등 시각 자료 해석(오디오·비디오 처리)이 포함된다. 오픈소스 vs 오픈웨이트: 무엇이 다른가 기존 Gemma 1~3 버전은 '오픈웨이트(open-weight)' 방식이었다. 모델 가중치(weight)는 공개됐지만 구글의 이용 약관 아래 운용해야 했으며, 재배포와 상업적 활용에 제약이 있었다. Gemma 4는 진정한 의미의 오픈소스다. Apache 2.0 하에서 코드와 모델을 자유롭게 가져다 쓸 수 있고, 사용자의 데이터와 인프라를 완전히 자체 통제할 수 있다. 구글은 '완전한 개발자 유연성과 디지털 주권의 기반'이라고 강조했다. 왜 중요한가: AI 탈중앙화의 분수령 Gemma 4의 오픈소스 전환은 AI 인프라 생태계에 두 가지 중요한 함의를 갖는다. 첫째, 비용 구조 파괴다. 개발자와 기업이 구독 비용 없이 온프레미스 또는 클라우드 어느 환경에서나 배포 가능하다. 메타의 Llama 시리즈와 마찬가지로, 대형 AI 기업의 오픈소스 전략이 유료 API 시장에 경쟁 압력을 가중시킨다. 둘째, 프라이버시 통제권이다. 로컬 구동 시 데이터가 외부 서버로 전송되지 않는다. 규제 산업(금융, 의료, 법무 등)과 데이터 주권이 중요한 기업에 실질적인 대안이 된다.
  • 팀제이커브
OpenAI IPO 준비 본격화 — ARR 250억 달러, 14개월 만에 4배 성장
오픈AI의 연간 반복 매출(ARR)이 2026년 2월 말 기준 250억 달러(약 37조 원)를 돌파했다. 2024년 말 약 60억 달러에서 14개월 만에 4배 이상 성장한 수치다. 주간 활성 사용자는 전 세계 9억 명, 기업용 유료 고객은 900만 명을 넘어섰다. 이 기세를 바탕으로 오픈AI는 현재 월가 투자은행들과 기업공개(IPO) 상장을 위한 구체적인 논의를 진행 중이다. 2026년 내 상장이 유력시되며, 성사 시 2004년 구글 IPO 이후 가장 파급력 있는 기술 기업 상장이 될 전망이다. CFO 사라 프레이어는 2030년까지 연 매출이 2,800억 달러를 초과할 것으로 내다봤다. 자금 조달도 이미 마쳤다. 지난 2월 완료된 1,100억 달러 규모의 프라이빗 펀딩에는 아마존(500억 달러), 소프트뱅크(300억 달러), 엔비디아(300억 달러)가 참여했다. 3월 추가 납입으로 총 1,200억 달러로 확대됐으며, 기업가치는 7,300억 달러로 평가됐다. 역대 비상장 기술 기업 최대 펀딩 기록이다. 그러나 IPO 앞에는 구조적 리스크가 놓여 있다. 마이크로소프트와의 파트너십 조건상 매출의 약 20%를 MS에 배분해야 한다. 이익을 한 번도 낸 적 없는 상태로 상장에 나선다는 점도 투자자들에게 설명해야 할 부분이다. 일론 머스크-xAI 소송도 진행 중이다. 매출 성장 속도만 보면 역대 테크 기업 중 가장 빠른 수준이다. 다만 오픈AI의 비용 구조 역시 비례해서 커지고 있어, 수익성 확보 전에 상장하는 구조가 장기 투자자에게 어떻게 받아들여질지가 관건이다. AI 인프라 경쟁에서 선점 효과를 살리느냐, 아니면 과도한 밸류에이션 부담으로 상장 후 조정을 받느냐 — 2026년 AI 투자 시장의 핵심 시험대가 될 전망이다. 출처: Techi.com — OpenAI IPO
  • 팀제이커브
구글 딥마인드 'Lyria 3 Pro' — AI가 3분짜리 완성곡을 만드는 시대
구글 딥마인드가 AI 음악 생성 모델 'Lyria 3 Pro'를 발표했다. 기존 Lyria 3가 30초짜리 트랙 생성에 그쳤다면, Pro 버전은 최대 3분 길이의 완성도 높은 음악을 만들 수 있다. 가장 큰 변화는 음악 구조 이해도다. 인트로, 버스, 코러스, 브릿지 같은 구체적인 구성을 프롬프트로 지정할 수 있게 됐다. 단순히 "재즈 분위기의 음악"을 요청하는 것을 넘어, 곡의 흐름과 전환을 직접 설계할 수 있다는 의미다. 다양한 장르 실험과 복잡한 전환이 포함된 곡 생성이 가능해졌다. 배포 범위도 넓다. 구글의 영상 제작 앱 Google Vids에는 Lyria 3와 Pro가 통합돼 영상 분위기에 맞는 커스텀 음악을 즉시 생성할 수 있다. 기업 고객에게는 Vertex AI 공개 프리뷰를 통해 제공되며, 게임 사운드트랙부터 크리에이티브 툴 통합까지 대규모 온디맨드 오디오 제작이 가능하다. 개발자는 Gemini API 및 Google AI Studio를 통해 직접 통합할 수 있다. 저작권 이슈에 대한 대응도 담겼다. 모든 생성 음악에는 구글의 SynthID 워터마킹 기술이 적용돼 AI 생성 여부를 식별할 수 있다. 위키피디아가 AI 글을 금지하고 창작 업계 전반에서 AI 생성물 식별 필요성이 커지는 맥락에서, 워터마킹은 실용적 대응이자 업계 표준화 시도다. 텍스트와 이미지를 넘어 음악까지 생성형 AI가 실용적으로 확장되는 흐름이다. AI가 콘텐츠 제작의 도구로 자리잡는 속도가 빨라지고 있다는 신호이기도 하다. 출처: Google DeepMind Blog — Lyria 3 Pro
  • 팀제이커브
앤트로픽 '클로드 미토스' 유출 확인 — 역대 최강 모델, 사이버보안 역량 너무 강해 출시 보류
앤트로픽이 새 AI 모델의 존재를 인정했다. 그런데 공개 발표 때문이 아니다. 회사가 실수로 초안 발표문을 공개 데이터 캐시에 남겨뒀고, 포춘지가 이를 발견해 사실 확인을 요청한 것이다. 모델 이름은 클로드 미토스(Claude Mythos). 앤트로픽은 이를 "지금까지 만든 것 중 가장 강력한 범용 모델"이라고 인정했다. 동시에 "역량의 강도를 고려해 출시 방식을 신중하게 검토하고 있다"고 밝혔다. 출시하지 않는 이유가 역량이 부족해서가 아니라 너무 강해서라는 것이다. 미토스는 기존 클로드 라인업(Haiku, Sonnet, Opus) 위에 완전히 새로운 등급을 추가한다. 앤트로픽은 이를 '카피바라(Capybara)'라고 명명했다. 코딩, 학문적 추론, 사이버보안 작업 모두에서 현재 최상위 모델인 클로드 오퍼스 4.6을 크게 뛰어넘는다고 자체 평가했다. '미토스'라는 이름은 "지식과 아이디어를 연결하는 깊은 결합 조직"을 뜻한다고 유출된 문서에 기록됐다. 출시를 보류한 핵심 이유는 사이버보안이다. 앤트로픽의 자체 평가에 따르면, 미토스는 현존하는 모든 AI 모델 중 사이버 역량이 가장 앞서 있다. 취약점을 발견하고 악용하는 능력이 인간 보안팀이 대응할 수 있는 수준을 크게 뛰어넘는다는 것이다. 이 때문에 앤트로픽은 일반 공개 대신 선별된 사이버보안 기관에 먼저 접근권을 주는 방식을 택했다. 방어자들이 시스템을 먼저 강화할 시간을 주기 위한 것이다. 이는 올해 초 오픈AI가 GPT-5.3-Codex를 '고위험 사이버보안 역량 모델'로 처음 분류하며 단계적 출시를 택한 것과 같은 맥락이다. AI 안전성과 역량 사이의 균형 문제가 이제 구체적인 출시 결정에 영향을 미치기 시작했다는 신호다. 가장 강력한 모델을 만들어놓고도 공개하지 않는 상황 — AI 개발의 새로운 국면을 보여주는 사례다. 출처: Times of India — Why Anthropic is refusing to release Claude Mythos
  • 팀제이커브
ARC Prize 재단, 'ARC-AGI-3' 공개… 최신 AI 정답률 0.26%, 인간은 100%
ARC Prize 재단이 내놓은 새 벤치마크는 도발적인 숫자를 들고 나왔다. 인간은 100%를 풀었지만, GPT-5.4, Claude opus 4.6, Gemini 3.1 pro previw 등 현존하는 최고 수준의 AI 시스템은 0.26%에 머물렀다. ARC-AGI-3는 이 격차를 정밀하게 측정하기 위해 설계된 새로운 종류의 AI 평가 도구다. ARC-AGI-3는 수백 개의 턴제(turn-based) 환경으로 구성된다. 각 환경은 인간 게임 디자이너가 직접 제작한 독창적인 퍼즐이며, 규칙도 없고 지시도 없고 목표도 명시되지 않는다. AI 에이전트는 환경에 뛰어들어 스스로 탐색하고, 어떻게 작동하는지를 파악하고, 승리 조건이 무엇인지를 발견해야 한다. 이전 문제에서 배운 것을 점점 어려워지는 다음 단계에 적용할 수 있어야 한다. ARC-AGI-1과 ARC-AGI-2가 고정된 형식 안에서 패턴을 인식하는 능력을 측정했다면, ARC-AGI-3는 '지시 없이 스스로 목표를 설정하고 행동하는 능력'을 측정한다. 이것이 핵심 차이다. 현재 AI가 잘하는 것은 지시를 정확히 따르는 것이다. 반면 인간은 규칙을 알려주지 않아도 게임을 해보면서 금세 파악한다. ARC-AGI-3는 바로 이 격차를 드러낸다. ARC Prize 재단은 2026년 대회를 함께 발표했다. 총 상금 규모는 200만 달러(약 29억6천만 원)이며, ARC-AGI-3 에이전트 대회와 ARC-AGI-2 오픈소스 그랜드 프라이즈로 구성된다. ARC-AGI-2 그랜드 프라이즈는 2026년 최고의 오픈소스 솔루션에게 반드시 수여된다고 명시했다. 발표 행사는 3월 25일 샌프란시스코 Y Combinator 본사에서 진행됐으며, ARC-AGI 창시자 프랑수아 숄레와 OpenAI CEO 샘 알트만이 'AGI 측정'을 주제로 대담을 나눴다. 이 벤치마크가 중요한 이유는 AI 업계의 '성능 과장' 문제에 정면으로 대응하기 때문이다. GPT, Claude, Gemini 등이 MMLU, HumanEval, GSM8K 등 기존 벤치마크에서 인간 수준 또는 그 이상을 달성했다는 보도가 이어지고 있지만, ARC-AGI-3는 이 모든 모델이 0.26%를 넘지 못한다는 사실을 보여준다. 숄레는 "코딩과 수학에서 뛰어난 모델이라도 낯선 환경에서 스스로 탐색하고 적응하는 능력은 여전히 인간과 비교할 수 없는 수준"이라고 말했다. AI 기술 발전의 다음 과제가 어디에 있는지를 가장 명확하게 보여주는 데이터가 ARC-AGI-3다.
  • 팀제이커브
가트너 "2030년까지 LLM 학습 비용 최대 100배 절감"… AI 경제성 혁명 예고
글로벌 IT 리서치 기관 가트너(Gartner)가 2030년까지 대형언어모델(LLM) 추론(inference) 비용이 2025년 대비 90% 이상 절감될 것이라는 전망을 공식 발표했다. 조 단위 파라미터(1조 개)를 보유한 LLM 기준으로, 2022년 초기 모델과 비교하면 최대 100배 이상의 비용 효율 개선이 이뤄질 것으로 예측된다. 가트너 시니어 디렉터 애널리스트 윌 서머(Will Sommer)는 "이러한 비용 개선은 반도체 및 인프라 효율화, 모델 설계 혁신, 칩 활용률 향상, 추론 전용 실리콘 확대, 특정 사례에서의 엣지 디바이스 활용이 복합적으로 작용한 결과"라고 설명했다. 주목할 점은 가트너의 전망이 단순한 '비용 절감 = 기업 부담 감소'의 공식을 따르지 않는다는 것이다. 가트너는 "토큰 단위 비용이 낮아지더라도 그 이익이 기업 고객에게 온전히 전달되지는 않을 것"이라고 경고했다. 에이전틱 AI(자율 수행 AI)는 일반 챗봇 대비 과제당 5~30배 많은 토큰을 소비하며, 인간보다 훨씬 많은 작업을 처리할 수 있다. 결과적으로 토큰 소비량이 비용 절감 속도를 웃돌아 전체 추론 비용은 오히려 증가할 것으로 가트너는 예상했다. 서머 애널리스트는 "최고제품책임자(CPO)들은 범용 토큰 비용의 하락을 프론티어 추론의 민주화와 혼동해서는 안 된다"며 "범용 지능이 거의 무료에 가까워질수록 고급 추론을 지원하는 컴퓨팅 자원은 오히려 희소해질 것"이라고 지적했다. 가트너는 이에 따라 기업이 AI 워크로드를 효율적으로 배분하는 전략을 강조했다. 반복적이고 빈도 높은 작업은 소형·특화 언어 모델로 처리하고, 고마진의 복잡한 추론 작업에만 프론티어 모델을 제한적으로 사용해야 한다는 것이다. 다양한 모델 포트폴리오를 조율할 수 있는 플랫폼에 가치가 집중될 것이라는 전망이다. 이번 가트너 보고서는 AI 비용의 이중적 구조를 선명하게 드러낸다. 단가는 낮아지지만 사용량이 폭증하면서 총비용은 늘어나는 역설이다. AI 도입 효율화를 고민하는 기업들에게는, 단순히 비용이 낮아진다는 낙관보다 어떤 AI를 어느 수준에서 쓸 것인지를 전략적으로 설계하는 것이 핵심 과제가 됐다.
  • 팀제이커브
Made with Slashpage