메뉴 글로벌이코노믹 로고 검색
검색버튼

엔비디아 "로봇 두뇌, 첫 단추부터 잘못 뀄다"… VLM 방식 '폐기' 경고

하드웨어는 '일류'인데 소프트웨어는 '혼돈'… "언어 모델로 물리 학습 불가능"
2026년 로봇 패러다임, '비디오 월드 모델'로 대전환 예고
인공지능(AI) 반도체 시장을 장악한 엔비디아의 로봇 사업 총괄 짐 팬(Jim Fan) 부사장이 현재 글로벌 로봇 업계의 기술 개발 방식에 대해 근본적으로 잘못된 길을 가고 있다며 강력한 경고 메시지를 던졌다. 이미지=제미나이3이미지 확대보기
인공지능(AI) 반도체 시장을 장악한 엔비디아의 로봇 사업 총괄 짐 팬(Jim Fan) 부사장이 현재 글로벌 로봇 업계의 기술 개발 방식에 대해 "근본적으로 잘못된 길을 가고 있다"며 강력한 경고 메시지를 던졌다. 이미지=제미나이3
인공지능(AI) 반도체 시장을 장악한 엔비디아의 로봇 사업 총괄 짐 팬(Jim Fan) 부사장이 현재 글로벌 로봇 업계의 기술 개발 방식에 대해 "근본적으로 잘못된 길을 가고 있다"며 강력한 경고 메시지를 던졌다. 그는 현재 주류인 '시각-언어 모델(VLM)'은 텍스트 기반 지식 학습에만 유리할 뿐, 중력이나 마찰력 같은 물리 법칙을 이해하지 못한다고 지적했다. 2026년은 로봇이 영상을 통해 세상의 이치를 깨우치는 '비디오 월드 모델'이 새로운 표준이 될 것이라는 전망이다.
디지타임스(DIGITIMES)는 지난달 31(현지시간) 엔비디아 로봇 사업부 총괄이자 기어(GEAR) 연구소 공동 책임자인 짐 팬 부사장의 발언을 인용해, 전 세계 로봇 산업이 하드웨어와 소프트웨어의 불균형, 표준 부재, 잘못된 기술 경로라는 '3중고'에 빠져 있다고 보도했다.

팬 부사장은 2025년 로봇 산업을 결산하며 "하드웨어 기술은 눈부시게 발전했지만, 이를 뒷받침할 소프트웨어와 표준은 여전히 혼란 상태"라고 진단했다. 그는 현재 업계가 겪는 병목 현상이 단순한 기술 부족이 아니라, '방향 설정의 오류'에서 비롯한다고 분석했다.

"셰익스피어 읽은 로봇, 컵 깰 줄만 안다"VLA 방식의 한계


팬 부사장이 제기한 가장 큰 문제는 현재 로봇 업계가 채택한 '두뇌' 만드는 방식이다. 현재 구글, 오픈AI 등 주요 빅테크와 로봇 스타트업들은 대규모 언어 모델(LLM)의 성공 방정식을 로봇에 그대로 이식하려 한다. 시각(Vision)과 언어(Language)를 결합한 'VLM' 모델에 로봇의 행동(Action)을 덧붙인 'VLA(Vision-Language-Action)' 모델이 대표이다.

하지만 팬 부사장은 이 방식이 "근본적으로 틀렸다"고 단언했다. 그 이유는 두 가지다.

첫째, 기존 언어 모델(LLM)이나 시각-언어 모델(VLM)은 인터넷상의 텍스트와 이미지를 통해 '지식''의미'를 학습하도록 설계했다. 중력, 마찰력, 질량과 같은 현실 세계의 '물리 법칙'을 배우는 데는 최적화하지 않았다. 셰익스피어의 소설을 전부 읽은 AI가 컵을 떨어뜨리면 깨진다는 사실을 글로만 알 뿐, 실제로 컵을 잡을 때 얼마나 힘을 줘야 하는지 모르는 것과 같다.

둘째, 현재의 시각 인코더(Visual Encoder) 기술은 데이터 처리를 효율화하려고 이미지의 세부 정보를 압축하고 생략한다. 이는 이미지나 영상 데이터를 입력받아 이를 기계가 이해할 수 있는 정보로 변환하는 기술이다. 팬 부사장은 "로봇이 손으로 물체를 정교하게 조작하려면 미세한 시각 정보가 필수인데, 현재 모델들은 이를 불필요한 정보로 취급해 버린다"고 지적했다.

그는 "언어 모델의 매개변수를 늘린다고 해서 로봇의 물리적 작업 능력이 비례해서 늘어날 이유는 없다""사전 학습의 목표 설정부터 잘못됐다"고 꼬집었다. 이는 로봇 지능 개발의 패러다임이 텍스트 중심에서 물리 공간 중심의 '월드 모델'로 바뀌어야 한다는 점을 시사한다.

"100번 실패하고 1번 성공한 영상만 공개"… 평가 기준 없는 '깜깜이' 시장


로봇 성능을 객관적으로 검증할 '표준'이 없다는 점도 심각한 문제로 꼽힌다. GPT와 같은 언어 모델 분야에서는 'MMLU(대규모 다중 작업 언어 이해)' 같은 공인된 성능 평가 지표가 있어 모델 간 객관적 비교가 가능하다.

반면 로봇 업계는 이러한 합의된 기준이 전무하다. 하드웨어 규격, 수행 과제, 점수 산정 방식, 시뮬레이션 환경이 제각각이다. 팬 부사장은 이를 두고 "총체적 재앙"이라고 표현했다.

상황이 이렇다 보니 기업들은 자사에 유리한 방식대로 테스트를 설계하고, 그 결과를 토대로 '세계 최고(SOTA)'라고 홍보한다. 팬 부사장은 "기업들이 100번 시도해 실패하고, 우연히 성공한 딱 한 번의 영상을 편집해 공개하는 일이 만연하다"고 비판했다. 이는 투자자와 대중에게 기술의 완성도를 과장해 전달하는 부작용을 낳고 있다.
몸은 '터미네이터'인데 뇌는 걸음마… 하드웨어 신뢰성도 발목

테슬라의 '옵티머스', 보스턴다이내믹스의 '아틀라스', 피규어AI'피규어' 등 휴머노이드 로봇 하드웨어는 최근 몇 년간 비약적인 발전을 이뤘다. 그러나 팬 부사장은 "하드웨어의 신뢰성 부족이 오히려 소프트웨어 발전 속도를 늦추고 있다"고 분석했다.

최첨단 AI 소프트웨어를 개발하더라도, 이를 구동할 로봇 하드웨어가 잦은 고장을 일으키거나 내구성이 떨어져 데이터를 충분히 수집하지 못한다는 것이다. 현재 로봇의 '(하드웨어)'AI의 지시를 완벽히 수행하기엔 여전히 불안정하며, 역설적으로 '(소프트웨어)'가 하드웨어의 한계를 걱정해야 하는 상황이다.

2026년의 해법, 텍스트 버리고 '비디오'로 세상 배운다


팬 부사장은 2026년 이후 로봇 산업이 나아가야 할 방향으로 '비디오 월드 모델'을 제시했다. 텍스트가 아닌 영상을 통해 세상의 물리적 변화와 인과관계를 학습하는 방식이다.

그는 "앞으로 모든 이동형 기계는 자율성을 갖게 될 것이며, 로봇은 아이폰처럼 흔한 존재가 될 것"이라면서도, 이를 실현하려면 가상과 현실을 오가며 물리 법칙을 스스로 깨우치는 '일반 목적의 로봇 에이전트' 개발이 선행해야 한다고 강조했다.

엔비디아가 설립한 '기어(GEAR) 연구소' 역시 이러한 맥락에서 출범했다. 이들은 로봇이 텍스트 대신 수많은 비디오 데이터를 통해 "공을 놓으면 떨어진다", "유리는 깨진다"와 같은 세상의 이치를 학습하도록 연구 역량을 집중하고 있다.

업계 전문가는 "엔비디아의 이번 진단은 로봇 산업이 단순한 '보여주기식' 데모 경쟁에서 벗어나, 상용화를 위한 실질적인 기술 내재화 단계로 진입해야 함을 알리는 신호탄"이라며 "향후 로봇 투자의 핵심 지표는 단순한 하드웨어 스펙이 아니라, 물리 법칙을 이해하는 소프트웨어 역량이 될 것"이라고 평가했다.


박정한 글로벌이코노믹 기자 park@g-enews.com
맨위로 스크롤