네이버클라우드 AI, 큐웬 모델과 가중치 유사 의혹
소버린AI인데 타사 기술 이용에 문제점 제기돼
네이버클라우드 '대체 가능'…네이버 기술로 만들어진 것
소버린AI인데 타사 기술 이용에 문제점 제기돼
네이버클라우드 '대체 가능'…네이버 기술로 만들어진 것
이미지 확대보기8일 업계에 따르면 네이버클라우드가 개발한 독자 파운데이션 모델 '하이퍼클로바 X 시드32B 싱크'가 알리바바의 큐웬 2.4 모델과 의 비교에서 이전 인코더 가중치 코사인 유사도와 피어슨 상관계수가 높다는 주장이 나왔다. 인코더는 입력되는 이미지나 음성 데이터를 AI가 활용하는 숫자 데이터로 변환해주는 기능이다.
이와 같은 논란은 처음이 아니다. 국내 인공지능 개발 스타트업 업스테이지가 지난 1일 공개한 AI모델 '솔라 오픈 100B'도 중국 지푸AI 'GLM-4.5-에어 모델을 복사해 미세조정했다는 의혹이 제기되는 등 이 같은 문제가 지속적으로 발생하고 있다.
큐웬의 소스를 사용한 것이 문제되는 이유는 이번 사업이 소버린AI라는 특성 때문이다. 소버린AI란 AI모델과 데이터, 인프라, 인력을 자국이 직접 통제하고 운영하는 체계를 뜻한다. 현재 국내에서 사용되는 AI는 미국이나 중국 등 다른 국가에 대한 의존도가 높다. 이같은 상황에서 서비스하던 기업들이 갑자기 라이선스에 요금을 부과할 경우 산업 전반이 타국에 휘둘릴 수 있다. 이같은 상황을 방지하기 위해 소버린AI가 필요하다.
이에 정부는 과학기술정보통신부를 통해 소버린AI 개발을 위해 네이버클라우드와 업스테이지, SK텔레콤(이하 SKT), NC AI, LG경영개발원 AI연구원(이하 LG AI연구원) 등 5개로 팀을 꾸렸다. 이 같은 상황에서 하이퍼클로바 X 32B 싱크 모델이 중국의 기술이 포함됐기 때문에 소버린AI로 보기 어렵다는 의견이 나온 것이다.
AI업계에서는 소버린AI의 기준이 모호하기 때문이라는 의견이 나온다. 이성엽 고려대학 기술경영전문대학원 교수는 "AI업계에서는 오픈소스를 활용한 개발이 활발하게 이뤄지는데 이번에 문제는 소버린AI이기 때문에 더욱 크게 발생한 것 같다"며 "사업을 처음 진행할 때부터 이와 같은 기준이 명확하지 않아 발생한 일인 것 같다"고 말했다. 그는 이어 "이번 이슈는 큐웬의 기술에 종속되냐 안되냐가 중요할 것 같다"고 덧붙였다.
네이버클라우드는 이미 대체할 기술을 보유하고 있지만 자사 AI의 고도화를 위해 큐웬 소스를 사용한 것으로 알려졌다. 네이버클라우드 관계자는 "파운데이션 모델은 입력된 정보를 해석하고 추론하며 결과를 만들어내는 핵심 영역으로, 인간으로 치면 사고와 정체성을 담당하는 '두뇌’에 해당하는데 네이버는 이 핵심 엔진을 프롬 스크래치 단계부터 100% 자체 기술로 개발했다"며 "논란이 된 비전 인코더는 시각 정보를 모델이 이해할 수 있는 신호로 변환하는 ‘시신경’ 역할을 하는데 이번에는 글로벌 기술 생태계와의 호환성 및 전체 시스템의 효율적 최적화를 고려해 검증된 외부 인코더를 전략적으로 채택한 것"이라고 해명했다.
실제로 알리바바의 큐웬2-오디오는 오픈 AI의 음성인식 기술을, 큐웬3-옴니는 구글의 이미지 인식 기술을 기반으로 구축됐다. 전 세계적으로 AI를 개발할 때 오픈소스가 적극적으로 활용되고 있으며 호환성을 위해 타사 기술로 테스트를 진행하는 경우가 많다.
네이버클라우드 관계자는 "네이버가 기술적 자립도가 부족해서가 아니라, 이미 표준화된 고성능 모듈을 활용해 전체 모델의 완성도와 안정성을 높이기 위한 고도의 엔지니어링 판단"이라며 "네이버는 'VU클립' 등 독자적인 비전 기술력을 충분히 보유하고 있는 상황"이라고 말했다.
그러면서 "무엇보다도 이번 모델의 핵심 기여는 단순 부품의 조립이 아닌 통합 아키텍처의 완성이고 텍스트와 음성, 이미지를 하나의 유기적인 구조 안에서 동시에 이해하고 생성하도록 설계하는 것이 멀티모달 AI의 가장 본질적이고 어려운 과제"라며 "네이버는 이미 학계에서 검증된 기술적 토대를 존중하면서도 그 위에 한국적 문화 맥락을 정확히 인식할 수 있도록 고도화된 추가 학습과 최적화 기술을 더했다"고 강조했다.
이 관계자는 "네이버는 이러한 기술적 선택 사항과 라이선스 정보를 허깅페이스와 테크리포트를 통해 투명하게 공개했고 모델의 성능을 속이거나 기술적 기여를 과장하려는 의도는 전혀 없었다"며 "오히려 어떤 기술적 경로가 가장 효율적이고 강력한 성능을 낼 수 있는지 고민한 결과물을 공유에 앞장섰고, 앞으로도 기술 개발의 모든 과정에서 투명성을 유지할 것"이라고 말했다.
이재현 글로벌이코노믹 기자 kiscezyr@g-enews.com












