이미지 확대보기4일 모레에 따르면 GPU와 텐스토렌트 웜홀 칩을 결합한 ‘이종 분산 서빙(Disaggregated Serving)’ 구조를 통해 비용 효율성을 크게 개선했다는 것이다. 텐스토렌트 칩을 prefill(입력 처리) 전용 가속기로 활용함으로써, 고비용 구조의 HBM(고대역폭메모리) 사용을 줄이고 전체 인프라 비용을 절감할 수 있다.
조강원 모레 대표는 “이번 성과는 텐스토렌트 기반 시스템에서도 실제 서비스 환경에 적용 가능한 수준의 LLM 추론 성능과 안정성을 확보했다는 점에서 의미가 크다”며 “향후 이종 GPU 간 KV 캐시 전송 효율화, EP와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획”이라고 말했다.
모레는 이 같은 성과는 지난 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에서 공개됐다. 모레는 데모 부스를 운영하며, AMD GPU를 실제 데이터센터 서비스 환경에 성공적으로 운용해온 경험을 바탕으로 ‘텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론(Production-Ready LLM Inference on Tenstorrent Galaxy)’에 대한 기술적 성과를 소개했다.
모레 관계자는 “자사의 ‘MoAI 추론 프레임워크’는 엔비디아, AMD, 텐스토렌트 등 이종(heterogeneous) GPU 및 NPU를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션”이라면서 “이를 통해 기업들은 특정 벤더에 종속되지 않고, 다양한 AI 가속기를 유연하게 활용하는 인프라 전략을 구축할 수 있다”라고 설명했다.
최정호 글로벌이코노믹 기자 junghochoi5591@g-enews.com












