Qwen3-Max, 1400만원 투자로 22.32% 수익…딥시크 4.89%, 오픈AI GPT-5는 62% 손실
"정량 데이터만 제공, 뉴스 없어"…Nof1 "운의 결과일 수도, 향후 통계적 엄격함 강화"
"정량 데이터만 제공, 뉴스 없어"…Nof1 "운의 결과일 수도, 향후 통계적 엄격함 강화"
이미지 확대보기4일 종료된 미국 리서치 회사인 Nof1의 알파 아레나에 대한 첫 번째 테스트에서 알리바바 클라우드의 Qwen3-Max 모델은 2주 동안 1만 달러(약 1400만 원)의 초기 투자에 대해 22.32%의 수익을 창출했다. 알리바바는 사우스차이나모닝포스트를 소유하고 있다.
6개 모델 중 2개만이 흑자를 냈다.
역시 중국의 딥시크의 V3.1 채팅 모델은 4.89% 상승한 반면, 오픈AI, 앤트로픽, 구글 딥마인드 및 일론 머스크의 xAI의 4개 미국 모델 모두 큰 손실을 기록했다. 오픈AI의 GPT-5는 62.66% 하락하며 최악의 성적을 거뒀다.
Nof1은 블로그 게시물에서 초기 결과가 "운의 결과일 수 있다"고 경고하면서 향후 라운드에서 경쟁에 "더 많은 통계적 엄격함"을 도입할 것이라고 덧붙였다.
모델에는 정량적 시장 데이터만 제공되고 뉴스에 대한 액세스는 제공되지 않았기 때문에 일부 관찰자들은 그 결과가 실제 투자에 얼마나 잘 반영될 수 있을지 의문을 제기했다.
Nof1은 블로그 게시물에서 "다른 것이 아니라면 알파 아레나가 보다 중요하고 현실적인 환경에서 AI를 평가하는 힘을 강조하기를 바란다"고 말했다. "우리는 이것이 프론티어 AI를 발전시키는 중요한 격차와 통찰력을 발견하는 가장 빠른 경로라고 믿는다."
특히 Qwen3-Max는 "추론" 기능이 없는 유일한 모델이었는데, 이는 결정을 내리기 전에 단계별 사고를 시뮬레이션하지 않았다는 것을 의미한다.
알리바바 AI의 암호화폐 거래 승리는 중국 AI의 실용적 응용 능력을 보여주는 또 다른 사례다. 이론적 벤치마크가 아닌 실제 금융 거래에서 성과를 증명했다는 점에서 의미가 크다.
전문가들은 Qwen3-Max가 추론 기능 없이도 최고 성과를 낸 것이 흥미롭다고 평가한다. 복잡한 단계별 사고보다 빠른 의사결정이 변동성 높은 암호화폐 시장에서 유리하게 작용했을 가능성이 있다.
한 AI 전문가는 "Qwen이 추론 없이 승리한 것은 모든 작업에 추론이 필요한 것은 아니라는 것을 보여준다"며 "빠른 시장 반응이 중요한 암호화폐 거래에서는 오히려 단순한 접근이 효과적일 수 있다"고 말했다.
딥시크도 소폭 수익을 내며 중국 AI의 강세를 확인시켰다. 반면 오픈AI, 앤트로픽, 구글 등 미국 주요 AI 모델들이 모두 손실을 기록한 것은 충격적이다.
특히 GPT-5의 62% 손실은 최신 AI가 반드시 금융 거래에 뛰어난 것은 아님을 보여준다. 언어 처리나 추론에서는 강력해도 실제 시장 거래는 다른 역량이 필요할 수 있다.
전문가들은 "AI의 벤치마크 성능과 실제 응용 능력은 다르다"며 "암호화폐 거래 같은 실전 테스트가 AI의 진정한 능력을 평가하는 데 중요하다"고 강조했다.
다만 Nof1도 인정했듯이 2주간의 단기 결과만으로 결론을 내리기는 이르다. 운의 요소가 작용했을 가능성도 있고, 더 긴 기간과 다양한 시장 조건에서 테스트가 필요하다.
또한 뉴스 정보 없이 정량 데이터만 제공된 점도 한계로 지적된다. 실제 거래에서는 뉴스, 소셜미디어, 규제 변화 등 다양한 정보를 활용하기 때문이다.
업계는 이번 실험이 AI의 금융 응용 가능성을 보여주는 중요한 사례라고 평가한다. AI가 실제 돈을 운용하며 수익을 낼 수 있다는 것을 증명했기 때문이다.
한 금융 전문가는 "AI 트레이딩은 이미 월스트리트에서 널리 사용되지만, 공개적인 비교 테스트는 드물다"며 "이번 실험이 AI 금융 응용의 투명성을 높이는 계기가 될 수 있다"고 말했다.
중국 AI의 약진도 주목할 만하다. 알리바바와 딥시크가 모두 수익을 내면서 중국 AI의 실용성을 입증했다. 미국의 제재에도 불구하고 독자적인 기술 개발로 경쟁력을 확보하고 있다.
전문가들은 "중국 AI가 실용적 응용 분야에서 강점을 보이고 있다"며 "특히 금융, 전자상거래 같은 상업적 영역에서 빠르게 발전하고 있다"고 분석했다.
업계는 향후 더 엄격한 조건에서의 추가 테스트를 주목하고 있다. Nof1은 통계적 엄격함을 강화하고 더 긴 기간 동안 테스트를 진행할 계획이다.
전문가들은 "AI 금융 거래의 안정성과 수익성을 제대로 평가하려면 다양한 시장 조건에서 장기간 테스트가 필요하다"며 "이번 결과는 흥미롭지만 시작에 불과하다"고 말했다.
신민철 글로벌이코노믹 기자 shincm@g-enews.com












