AI가 전부 작성한 논문 '피어 리뷰' 통과
평균 6.33점 획득, 인간보다 점수 높아
간혹 어이 없는 실수 유발하기도
평균 6.33점 획득, 인간보다 점수 높아
간혹 어이 없는 실수 유발하기도

사카나 AI는 이 과정이 '표현학습 국제학회(ICLR)'의 협조를 받아 이 실험을 수행했다고 밝혔다. 하지만 이번 사건은 인간 과학자들과 동일한 동료 평가 과정을 통과한 최초의 완전 AI 생성 논문으로 알려져 추후 AI가 생성한 논문에 대한 윤리적, 학술적 논란을 야기할 것으로 우려된다.
이번에 동료 평가를 통과한 AI 생성 논문은 'The AI Scientist-v2'라는 시스템이 만들었다. 이 논문은 ICLR 2025 워크숍에 제출돼 이중 맹검 검토 실험을 거쳤다. 브리티시 컬럼비아 대학과 옥스퍼드 대학 연구진이 협력해 진행한 이 프로젝트는 IRB(기관감사위원회) 승인을 받았다
평가 과정에서 AI가 생성한 논문 3편이 워크숍에 제출됐다. 심사자들은 AI 생성 가능성만 알았을 뿐, 구체적으로 어떤 논문이 AI가 작성했는지는 모르는 상태에서 평가를 진행했다. 중요한 점은 이 논문들이 인간의 수정 없이 AI가 전 과정을 수행했다는 것이다. 가설 설정부터 실험 설계, 코드 작성, 데이터 분석까지 모두 AI가 담당했다.
결과적으로 3편 중 1편만이 평균 6.33점을 받아 수락 기준을 통과했다. 이는 워크숍에서 수락된 다른 많은 인간 작성 논문보다 높은 점수다. 그러나 연구팀은 해당 논문이 실험의 일환으로 진행된 만큼 이 논문을 출판 전에 철회하기로 결정했다.
이 실험은 AI 생성 과학에 대한 규범 개발의 필요성을 강조한다. 과학계는 AI가 생성한 내용의 투명성 확보와 과학의 공정한 평가 사이에서 균형을 찾는 것이 앞으로의 과제가 될 것이라고 지적한다.
기대 이상으로 뛰어난 AI의 성과에도 불구하고 이번 AI가 만든 논문은 워크숍 트랙 수락이라는 점, 3편 중 1편만 수락된 점, 그리고 ICLR 컨퍼런스 트랙 기준에는 아직 미치지 못한다는 점 등 한계점도 드러났다.
하지만 앞으로 AI는 더 높은 수준의 논문을 생성할 수 있을 것으로 기대된다. 사카나 AI는 "궁극적으로 AI 과학의 가치는 인류 번영에 얼마나 기여하는지로 평가돼야 할 것"이라고 밝혔다.
이상훈 글로벌이코노믹 기자 sanghoon@g-enews.com