메뉴 글로벌이코노믹 로고 검색
검색버튼

"코딩도 AI가"…GPT-4.1 출시, 개발 생태계 재편 신호탄

100만 토큰 모델 공개
개발 자동화 시대 개막
사람은 기획 역량 요구

오픈AI가 14일(현지시각) 차세대 생성형 AI 모델 'GPT-4.1'을 공개했다. 이미지=연합뉴스이미지 확대보기
오픈AI가 14일(현지시각) 차세대 생성형 AI 모델 'GPT-4.1'을 공개했다. 이미지=연합뉴스

AI가 개발자 역할에 본격적으로 진입하고 있다. 오픈AI의 신형 모델 GPT-4.1이 코딩부터 문서화, 테스트까지 자체 수행해 소프트웨어 개발 생태계의 판도를 흔들 것으로 보인다.

오픈AI는 14일(현지시각) 차세대 생성형 AI 모델 'GPT-4.1'을 공개하며 소프트웨어 엔지니어링 전반에 걸친 AI 활용 가능성을 제시했다. 이번 모델은 약 75만 단어를 한 번에 처리할 수 있는 100만 토큰의 컨텍스트 윈도우를 지원한다. 이는 한 번에 약 75만 단어를 처리할 수 있는 수준이다.

GPT-4.1은 △GPT-4.1 △GPT-4.1 미니 △GPT-4.1 나노 등 세 가지 모델군으로 구성되며, 오픈AI의 API를 통해 제공된다. 다만 챗GPT에는 통합되지 않는다.

오픈AI 측은 "이번 모델은 코딩과 명령어 수행에 탁월한 성능을 보인다"고 설명했다.

이번 GPT-4.1의 출시는 구글(Google), 앤트로픽(Anthropic), 중국의 딥시크(DeepSeek) 등 경쟁사들이 고성능 코딩 특화 모델을 잇따라 공개하고 있는 가운데 이뤄져 주목된다. 앞서 구글이 100만 토큰 컨텍스트 윈도우를 지원하는 제미나이 2.5프로를 공개했는데 오픈AI가 이와 동일한 수준의 GPT-4.1을 공개했기 때문이다. 오픈AI는 올해 하반기에 출시할 코딩 전문 에이전트를 염두에 둔 듯하다.

GPT-4.1은 인간 검증 기반 테스트인 'SWE-bench Verified'에서 54.6%의 점수를 받았다. 이는 기존 모델 GPT-4o보다 21.4%, GPT-4.5보다 26.6% 향상된 수치다. 다만 구글의 제미나이 2.5 프로(63.8%)와 앤트로픽의 클로드 3.7 소넷보다는 낮은 수준이다.

또한 GPT-4.1은 멀티모달 AI로서의 확장성을 보여주는 영상 이해 평가인 'Video-MME'에서 자막이 없는 긴 문맥 72%의 정확도를 기록하며 GPT-4o보다 6.7%p 향상된 새로운 최고 기록을 세웠다.

GPT-4.1은 단순 생성형 AI를 넘어 '에이전트 소프트웨어 엔지니어'로 진화하는 전환점으로 평가된다. 오픈AI의 사라 프라이어(Sarah Friar) CFO는 "향후 AI가 전체 앱을 기획하고 구현하며 테스트, 문서화까지 담당할 수 있는 '엔드 투 엔드' 개발자가 될 것"이라고 말했다.

오픈AI 측은 "개발자들의 피드백을 바탕으로 실제 사용 환경에 맞춘 최적화를 적용했다"고 설명했다. 프론트엔드 코딩을 비롯해 포맷 및 구조 준수, 도구의 일관된 사용 등 실제 개발 업무에 필요한 요소들이 강화됐다는 분석이다.

다만 명확한 한계도 존재한다. 오픈AI의 자체 테스트인 '오픈AI-MRCR'에 따르면, 입력 토큰 수가 많아질수록 정확도가 감소했다. 입력 8000개 기준 약 84%였던 정확도는 100만 토큰에서는 50%로 떨어졌다.

테크크런치의 카일 위거스(Kyle Wiggers) 기자는 "GPT-4.1은 단순한 기술적 진화를 넘어, 개발자의 업무 방식 자체를 바꾸는 계기가 될 수 있다"며 "AI가 직무를 세분화하는 것이 아니라, 직무 간 경계를 허물고 융합형 역량을 요구하는 방향으로 전환되고 있다"고 분석했다. 이번 모델이 AI 활용의 문턱을 낮추고 있고, 동시에 인간의 기획력과 맥락 판단력, 창의적 디렉션 역량이 중요해지고 있다는 분석이다.

한편 GPT 모델별 가격이 세분화됐다. GPT-4.1은 입력 토큰 100만개 당 2달러, 출력 토큰은 8달러다. 미니는 각각 0.40달러와 1.60달러, 나노는 0.10달러와 0.40달러로 책정됐다. 오픈AI 측은 나노에 대해 "역대 가장 빠르고 저렴한 모델"이라고 설명했다.


김지유 글로벌이코노믹 기자 tainmain@g-enews.com
맨위로 스크롤