엔비디아, AI 추론 전용 새 칩 공개 준비…GPU 중심 전략 ‘전환점’

김현철 기자 / 입력 : 2026-03-01 08:21

엔비디아가 인공지능(AI) 모델의 ‘추론’ 작업에 특화된 새로운 프로세서를 공개할 계획인 것으로 전해졌다.

월스트리트저널(WSJ)은 엔비디아가 오픈AI 등 주요 고객사의 요구에 맞춰 더 빠르고 효율적인 AI 응답 처리용 칩을 선보일 예정이라고 28일(현지시각) 보도했다.

WSJ에 따르면 엔비디아는 다음달 미국 캘리포니아주 새너제이에서 열리는 자사 개발자 콘퍼런스 ‘GTC’에서 새로운 추론 전용 플랫폼을 공개할 예정이다. 이 시스템에는 스타트업 그록이 설계한 칩 기술이 일부 반영될 것으로 알려졌다.

◇‘훈련’에서 ‘추론’으로…시장 무게중심 이동

그동안 엔비디아는 대규모 AI 모델을 학습시키는 데 최적화된 그래픽처리장치(GPU) 시장을 사실상 지배해왔다. 호퍼, 블랙웰, 루빈 시리즈 등 고성능 GPU는 초대형 모델 학습에서 최고 수준으로 평가받으며 시장 점유율 90% 이상을 차지하는 것으로 추정된다.

그러나 최근 AI 시장의 초점은 모델 학습에서 실제 서비스 단계인 ‘추론’으로 이동하고 있다. 추론은 사용자의 질문에 AI 모델이 답변을 생성하는 과정으로 AI 에이전트와 자동화 코딩 도구 확산으로 수요가 급증하고 있다.

문제는 GPU가 추론 작업에는 비용과 전력 소모 측면에서 비효율적일 수 있다는 점이다. 이로 인해 구글과 아마존 등 경쟁사들은 자체 설계 칩을 통해 추론 시장을 공략하고 있다.

◇오픈AI 대형 고객 확보…경쟁 격화

WSJ는 오픈AI가 새 프로세서의 최대 고객 중 하나가 될 예정이라고 전했다. 오픈AI는 최근 더 효율적인 대안을 찾기 위해 미국의 AI 반도체 스타트업 세레브라스와도 수십억달러 규모의 컴퓨팅 계약을 체결하는 등 공급 다변화를 모색해왔다.

엔비디아는 지난해 말 약 200억달러(약 29조3200억원) 규모로 그록의 핵심 기술을 라이선스하고 창업자 조너선 로스 등 핵심 인력을 영입한 것으로 보도된 바 있다. 그록은 ‘언어처리장치(LPU)’라 불리는 독자적 아키텍처를 개발해 추론 작업에서 높은 효율성을 강조해왔다.

AI 추론은 크게 ‘프리필(prefill)’과 ‘디코드(decode)’ 단계로 나뉜다. 프리필은 모델이 사용자 입력을 해석하는 과정이며, 디코드는 한 단어씩 응답을 생성하는 단계다. 특히 대형 모델에서는 디코드 단계가 병목 구간으로 지적된다.

◇GPU 의존 탈피 모색…CPU 전략도 병행

엔비디아는 기존에 베라 중앙처리장치(CPU)와 루빈 GPU를 결합한 데이터센터 서버 전략을 펼쳐왔다. 그러나 일부 고객은 특정 AI 에이전트 작업이 GPU 없이 CPU만으로도 더 효율적으로 구동될 수 있다고 판단하고 있다.

최근 메타와의 협력 확대에서 엔비디아는 광고 타깃팅용 AI 에이전트를 지원하기 위해 CPU 중심 배치를 처음으로 대규모 도입했다. 이는 GPU 중심 전략을 보완하며 AI 시장 내 다양한 수요를 선점하려는 움직임으로 해석된다.

엔비디아가 추론 전용 칩을 통해 AI 서비스 단계의 핵심 인프라까지 장악할 수 있을지, 아니면 클라우드 기업과 신생 칩 업체들의 도전에 직면할지는 향후 공개될 플랫폼 성능과 가격 경쟁력에 달려 있다는 분석이 나온다.

김현철 글로벌이코노믹 기자 rock@g-enews.com