글로벌 IT 리서치 기관 가트너(Gartner)가 2030년까지 대형언어모델(LLM) 추론(inference) 비용이 2025년 대비 90% 이상 절감될 것이라는 전망을 공식 발표했다. 조 단위 파라미터(1조 개)를 보유한 LLM 기준으로, 2022년 초기 모델과 비교하면 최대 100배 이상의 비용 효율 개선이 이뤄질 것으로 예측된다.

가트너 시니어 디렉터 애널리스트 윌 서머(Will Sommer)는 "이러한 비용 개선은 반도체 및 인프라 효율화, 모델 설계 혁신, 칩 활용률 향상, 추론 전용 실리콘 확대, 특정 사례에서의 엣지 디바이스 활용이 복합적으로 작용한 결과"라고 설명했다.

주목할 점은 가트너의 전망이 단순한 '비용 절감 = 기업 부담 감소'의 공식을 따르지 않는다는 것이다. 가트너는 "토큰 단위 비용이 낮아지더라도 그 이익이 기업 고객에게 온전히 전달되지는 않을 것"이라고 경고했다. 에이전틱 AI(자율 수행 AI)는 일반 챗봇 대비 과제당 5~30배 많은 토큰을 소비하며, 인간보다 훨씬 많은 작업을 처리할 수 있다. 결과적으로 토큰 소비량이 비용 절감 속도를 웃돌아 전체 추론 비용은 오히려 증가할 것으로 가트너는 예상했다.

서머 애널리스트는 "최고제품책임자(CPO)들은 범용 토큰 비용의 하락을 프론티어 추론의 민주화와 혼동해서는 안 된다"며 "범용 지능이 거의 무료에 가까워질수록 고급 추론을 지원하는 컴퓨팅 자원은 오히려 희소해질 것"이라고 지적했다.

가트너는 이에 따라 기업이 AI 워크로드를 효율적으로 배분하는 전략을 강조했다. 반복적이고 빈도 높은 작업은 소형·특화 언어 모델로 처리하고, 고마진의 복잡한 추론 작업에만 프론티어 모델을 제한적으로 사용해야 한다는 것이다. 다양한 모델 포트폴리오를 조율할 수 있는 플랫폼에 가치가 집중될 것이라는 전망이다.

이번 가트너 보고서는 AI 비용의 이중적 구조를 선명하게 드러낸다. 단가는 낮아지지만 사용량이 폭증하면서 총비용은 늘어나는 역설이다. AI 도입 효율화를 고민하는 기업들에게는, 단순히 비용이 낮아진다는 낙관보다 어떤 AI를 어느 수준에서 쓸 것인지를 전략적으로 설계하는 것이 핵심 과제가 됐다.

원문 보기 →