메뉴 글로벌이코노믹 로고 검색
검색버튼

모레+텐스토렌트, 엔비디아 DGX A100급 이상 성능…비용·효율 ‘다잡았다’

1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에 모레가 참여했다. '텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론'에 대한 기술적 성과를 소개했다. 사진=모레이미지 확대보기
1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에 모레가 참여했다. '텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론'에 대한 기술적 성과를 소개했다. 사진=모레
AI 인프라 솔루션 기업 모레(MOREH)가 최신 LLM 모델(GPT-OSS, Qwen, GLM, DeepSeek)에 텐스토렌트(AI 반도체 설계 전문 스타트업)의 하드웨어(반도체 칩) 시스템에 모레의 SW(MoAI 추론 프레임워크)를 적용해서 LLM 추론 성능을 테스트를 했다. 그 결과 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다. 이에 따라 기존 GPU 중심의 AI 인프라를 대체할 수 있는 수준의 경쟁력을 확보했다라는 분석이 나온다.
4일 모레에 따르면 GPU와 텐스토렌트 웜홀 칩을 결합한 ‘이종 분산 서빙(Disaggregated Serving)’ 구조를 통해 비용 효율성을 크게 개선했다는 것이다. 텐스토렌트 칩을 prefill(입력 처리) 전용 가속기로 활용함으로써, 고비용 구조의 HBM(고대역폭메모리) 사용을 줄이고 전체 인프라 비용을 절감할 수 있다.

조강원 모레 대표는 “이번 성과는 텐스토렌트 기반 시스템에서도 실제 서비스 환경에 적용 가능한 수준의 LLM 추론 성능과 안정성을 확보했다는 점에서 의미가 크다”며 “향후 이종 GPU 간 KV 캐시 전송 효율화, EP와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획”이라고 말했다.

모레는 이 같은 성과는 지난 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에서 공개됐다. 모레는 데모 부스를 운영하며, AMD GPU를 실제 데이터센터 서비스 환경에 성공적으로 운용해온 경험을 바탕으로 ‘텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론(Production-Ready LLM Inference on Tenstorrent Galaxy)’에 대한 기술적 성과를 소개했다.
모레 관계자는 “자사의 ‘MoAI 추론 프레임워크’는 엔비디아, AMD, 텐스토렌트 등 이종(heterogeneous) GPU 및 NPU를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션”이라면서 “이를 통해 기업들은 특정 벤더에 종속되지 않고, 다양한 AI 가속기를 유연하게 활용하는 인프라 전략을 구축할 수 있다”라고 설명했다.


최정호 글로벌이코노믹 기자 junghochoi5591@g-enews.com
맨위로 스크롤