화웨이·무어 스레드 등 국산 하드웨어 기반 사전 및 사후 학습 실험 본격화
추론 영역 넘어 최고 난도 '사전 학습' 도전… 미 수출 통제 맞선 자급체제 구축
이미지 생성·온디바이스 LLM서 성과… "美보다 느리지만, 독자 공급망 완성 중"
추론 영역 넘어 최고 난도 '사전 학습' 도전… 미 수출 통제 맞선 자급체제 구축
이미지 생성·온디바이스 LLM서 성과… "美보다 느리지만, 독자 공급망 완성 중"
이미지 확대보기그러나 미국의 파괴적인 수출 통제와 베이징 당국의 기술 자급자족 드라이브가 맞물리면서, 그간 '추론(Inference)' 단계에만 머물던 중국산 실리콘 칩이 최고 난도의 '사전 학습(Pre-training)' 영역으로 영토를 급격히 확장하고 있다.
17일(현지시각) 사우스차이나모닝포스트(SCMP)에 따르면, 최근 중국의 주요 AI 연구소와 빅테크 기업들은 엔비디아(Nvidia)의 의존도를 낮추기 위해 모델 개발의 전 과정을 토종 칩으로 전환하는 가혹한 실험을 진행 중이다.
나티시스(Natixis)의 게리 응 경제학자는 "중국 AI 연구소들이 국내 공급업체에 의존한다는 것은 미국 경쟁사들만큼 빠르고 효율적으로 발전하지 못할 수도 있음을 의미하지만, 장기적으로 보면 전 세계에서 유례를 찾기 힘든 독자적인 국내 AI 반도체 공급망을 성공적으로 구축하고 있다는 증거"라고 분석했다.
현재 중국의 최신 AI 모델들이 국산 가속기를 활용해 성과를 내고 있는 5대 핵심 사례는 다음과 같다.
화웨이 '어센드' 생태계의 진격… 이미지 생성부터 초경량 온디바이스까지
첫째는 생성형 AI 스타트업 지푸(Zhipu) AI가 화웨이 테크놀로지스와 공동 개발해 지난 1월 오픈소스로 공개한 이미지 생성 모델 'GLM-이미지(GLM-Image)'다. 이 모델은 화웨이의 '어센드 910(Ascend 910)' AI 가속기로 구동되는 '어센드 아틀라스 800T A2' 서버와 자체 민드스포어(MindSpore) 딥러닝 프레임워크를 활용해 전 과정 학습을 마쳤다.
지푸 AI 측은 전적으로 국내산 칩만으로 학습된 최초의 최첨단 멀티모달 모델이라고 강조했다. 다만 이미지 모델은 거대언어모델(LLM)에 비해 연산 부담이 적어, 지푸 AI는 향후 플래그십 LLM 학습까지 화웨이 칩으로 전면 이관하기 위해 사투를 벌이고 있다.
둘째는 온디바이스 AI 분야의 강자로 떠오른 스타트업 모델베스트(ModelBest)의 초경량 소형 LLM 시리즈인 'BitCPM-CANN'이다. 5억 개에서 80억 개의 매개변수(파라미터)를 가진 이 모델은 추가적인 물리적 메모리 소모 없이 가중치를 압축하도록 설계되었으며, 엔비디아의 쿠다(CUDA) 소프트웨어에 대응하는 화웨이의 'CANN' 아키텍처를 기반으로 학습됐다.
모델베스트 측은 "이번 성과를 통해 '국산 칩은 추론만 할 수 있다'는 고정관념은 공식적으로 과거의 한 페이지가 되었다"고 선언했다. 이들이 어센드 하드웨어로 학습시킨 또 다른 모델 'MiniCPM5-1B'는 글로벌 분석기관의 인텔리전스 지수에서 알리바바의 코웬(Qwen) 시리즈를 제치고 동급 1위를 차지하기도 했다.
셋째는 화웨이와 선전 루프 지역 연구소 연구팀이 지난 6월 진행한 1조 6,000억 개의 매개변수를 지닌 초거대 모델 '딥시크(DeepSeek)-V4-Pro'의 사후 학습(Post-training) 프로젝트다.
연구팀은 화웨이의 차세대 칩인 '어센드 910C' 최소 1,000개 이상으로 구성된 국산 컴퓨팅 클러스터를 활용해 모델의 '풀 파라미터' 미세조정(파인튜닝)을 완벽히 수행해 냈다. 비록 사후 학습이 기초적인 패턴을 익히는 사전 학습에 비해 연산 집약도가 낮지만, 초대형 플래그십 모델의 고도화 작업을 국산 칩으로 완수했다는 점에서 의미가 크다.
베일에 싸인 6만 개 클러스터와 엔비디아 '쿠다' 대안의 등장
회사는 구체적인 반도체 제조사명은 극비에 부쳤으나, 학습 단계에만 무려 5만에서 6만 개의 국내산 AI 칩이 동원되었다고 밝혀 시장을 놀라게 했다. 거대한 규모의 토종 칩을 단일 클러스터로 묶어내는 동기화 기술력의 진보를 증명한 셈이다.
다섯째는 이달 초 베이징 대학교 연구팀이 발표한 5D 물리 공간 시뮬레이션 세계 모델 '에보피스-월드(EvoPhys-World)'다. 스탠퍼드 대학교의 월드스코어 벤치마크에서 당당히 1위를 차지한 이 모델은 중국의 칩 설계 스타트업 무어 스레드(Moore Threads)의 'MTT S5000' GPU와 엔비디아 쿠다의 강력한 대안으로 개발된 자체 '무사(MUSA)' 플랫폼을 사용해 학습됐다.
무어 스레드 측은 자사 칩이 데이터 처리 속도를 뜻하는 '훈련 처리량'과 실제 '추론 품질' 측면에서 글로벌 메인스트림(엔비디아) 칩과 거의 동등한 수준의 성능을 발휘했다고 주장했다.
3단계 개발 장벽 깨는 중국산 반도체… 장기적 공급망 독립 선언
AI 모델 개발은 대규모 데이터 세트로 기본 패턴을 익히는 가장 무거운 고난도의 ①사전 학습, 인간의 지시에 맞게 미세 조정을 거치는 ②사후 학습, 그리고 완성된 AI를 현업에 적용해 답변을 도출하는 일상적인 ③추론 등 총 3단계로 나뉜다.
그동안 중국산 실리콘 칩은 전력 및 하드웨어 병목 현상 탓에 3단계인 추론 영역에만 제한적으로 사용되어 왔으며, 1단계 사전 학습은 전량 미국의 수출 통제 우회 경로로 확보한 엔비디아 칩에 의존해 왔다.
그러나 이번에 공개된 5대 모델의 사례처럼 중국 AI 업계는 사전 학습과 사후 학습이라는 거대한 장벽을 토종 하드웨어로 정면 돌파하기 시작했다.
비록 엔비디아의 최신 가속기 아키텍처와 비교해 연산 효율성과 생태계 확장성 측면에서 여전히 격차가 존재하지만, 워싱턴의 제재가 거세질수록 중국의 반도체 및 AI 밸류체인의 결속력은 더욱 단단해지고 있다.
업계 전문가들은 하드웨어와 딥러닝 소프트웨어를 통째로 내재화하려는 중국 빅테크들의 눈물겨운 실험이 지속되면서, 향후 글로벌 AI 반도체 시장이 미국 중심의 엔비디아 생태계와 중국의 독자적 자급 생태계로 극명하게 양분될 것으로 내다보고 있다.
신경원 글로벌이코노믹 기자 shincm@g-enews.com












