“비싼 반도체 없어도 85% 빨라진다”… 中 딥시크, AI 운영 비용 대폭 낮춘 신기술 공개

신경원 기자 / 입력 : 2026-06-29 06:05

초고속 처리 기술 ‘디스파크(DSpark)’ 오픈소스로 전 세계 무료 배포
美의 첨단 반도체 규제 우회 ‘소프트웨어 혁신’… 저성능 칩으로 AI 처리량 2배 확대
텐센트 등 中 대기업들, 인공지능 대중화 위해 ‘처리 속도 단축·비용 절감’ 총력전

딥시크(DeepSeek)의 로고가 휴대폰의 AI 비서 앱과 함께 표시되어 있다. 사진=로이터

미국의 가혹한 반도체 수출 규제 장벽에 직면한 중국 인공지능(AI) 업계가 값비싼 최첨단 인공지능 칩을 추가로 사들이는 대신, 소프트웨어 구동 방식을 혁신해 인공지능의 답변 속도를 끌어올리고 운영 비용을 낮추는 독자적인 돌파구를 마련했다.

올해 초 전 세계 기술 시장에 충격을 안겼던 중국의 인공지능 스타트업 딥시크가 이번에는 반도체의 처리 부담을 덜어주면서 인공지능 응답 속도를 최대 85%까지 가속하는 신기술을 전격 공개하며 다시 한번 시장의 이목을 집중시키고 있다.

28일(현지시각) 사우스차이나모닝포스트(SCMP) 보도에 따르면, 딥시크는 인공지능 개발사 간의 경쟁이 단순히 모델의 덩치를 키우는 단계에서 벗어나 ‘서비스 비용 절감’과 ‘사용자 경험 개선’으로 전환됨에 따라 자사의 대표 인공지능 모델을 대대적으로 업그레이드할 수 있는 기술 체계인 ‘디스파크(DSpark)’를 전격 선보였다.

글자마다 끊기던 답변 정체 현상 해결… 반도체 1대로 2대 분량 처리

인공지능 서비스가 대중화되면서 가장 큰 걸림돌로 꼽힌 것은 ‘답변 지연 현상’이었다. 기존 인공지능 모델은 글자(토큰)를 한 자씩 차례대로 출력하는 방식을 사용했는데, 답변이 길어질수록 속도가 급격히 느려져 사용자의 대기 시간이 길어지고 고가의 그래픽 처리 장치(GPU)인 연산 반도체를 효율적으로 쓰지 못하는 고질적인 정체 부침을 겪어왔다.

딥시크가 베이징대학교 연구진과 공동 개발한 ‘디스파크’는 이른바 ‘예측 기반 해독’ 기술을 도입해 이 병목 현상을 해결했다. 상대적으로 가볍고 빠른 경량 모델이 사용자의 질문에 대한 후보 답변을 먼저 빠르게 예측해 제안하면, 뒤이어 덩치가 큰 대형 인공지능 모델이 이를 한꺼번에 검증하는 방식이다. 또한, 글자를 한 자씩 생성하는 것이 아니라 작은 문장 단위로 묶어 출력하는 기술을 결합해 처리 속도를 획기적으로 낮췄다.

베이징의 인공지능 프로그래머인 황용은 “이 기술을 적용하면 인공지능 시스템 운영에 필요한 컴퓨터 자원을 획기적으로 줄일 수 있다”며 “쉽게 말해 이전에는 사용자 질문 100개를 처리하던 인공지능 반도체 1대가 이제는 약 185개의 질문을 동시에 처리할 수 있게 된 셈”이라고 설명했다. 반도체 추가 구매 없이 소프트웨어 조정만으로 기존 장비의 효율을 2배 가까이 끌어올린 것이다.

美 반도체 통제 우회하는 중국의 실리 전술… 글로벌 개발진에 소스코드 무료 개방

이 기술이 인공지능 모델 자체의 지능을 높여주는 것은 아니다. 그러나 미국 정부가 중국을 향한 고성능 인공지능 반도체 수출 통제망을 촘촘히 조여오는 상황에서, 중국 업계가 저성능 반도체 인프라를 가지고도 인공지능의 가동 효율을 극대화하기 위해 짜낸 영리한 실리주의 전략의 결과물로 풀이된다.

딥시크는 이 기술을 자사 모델에만 가두어 두지 않고, 전 세계 개발자들이 자유롭게 가져다 쓸 수 있도록 소스코드 공유 플랫폼인 ‘깃허브’와 세계 최대 인공지능 커뮤니티인 ‘허깅페이스’에 전면 무료 개방했다.

실제로 구글 딥마인드의 ‘젬마’나 알리바바의 ‘첸웬’ 등 다양한 오픈소스 인공지능 모델에 디스파크 기술을 테스트한 결과, 막대한 장비 투자 없이도 인공지능의 처리 성능이 대폭 향상되는 것으로 증명됐다. 이에 따라 자금력이 부족한 중소기업들도 고가의 반도체 수입 장벽 없이 고성능 인공지능 서비스를 구현할 수 있는 길이 열리게 됐다.

“다음 전쟁터는 비용 절감”… 텐센트·샤오미도 초고속 레이스 합류

글로벌 인공지능 열풍으로 핵심 반도체 부품의 품귀 현상과 단가 폭등이 이어지면서, 인공지능 업계의 핵심 경쟁 전장은 이미 ‘누가 더 저렴하고 빠르게 서비스를 제공하느냐’는 운영 최적화 싸움으로 급격히 이동하고 있다.

기업들과 일반 소비자의 인공지능 사용량이 기하급수적으로 폭증하는 상황에서 컴퓨팅 가동 비용을 낮추지 못하면 마진 방어가 불가능하기 때문이다.

실제로 중국의 기술 거두 텐센트 역시 저품질 하드웨어 환경에서 인공지능을 대규모로 보급하는 데 있어 처리 효율성 부족이 가장 큰 걸림돌이라고 지적하며, 메모리 캐싱(자주 쓰는 데이터를 임시 저장하는 기술)과 비동기 연산 등 다양한 공학적 최적화 기술 개발에 나섰다고 밝혔다.

스마트폰부터 전기차까지 사업을 확장 중인 샤오미의 인공지능 팀 또한 이달 초 초당 1000개 이상의 글자(토큰)를 뿜어내는 초고속 인공지능 모델을 공개하며 업계 최고 수준의 출력 속도를 과시하기도 했다.

하드웨어의 한계를 소프트웨어 자강론으로 깨부수며 인공지능 대중화 시장의 주도권을 장악하려는 중국 기술 기업들의 매서운 행보에 전 세계 투자자들의 이목이 집중되고 있다.

신경원 글로벌이코노믹 기자 shincm@g-enews.com