오픈AI의 최신 버전인 챗GPT o1 모델이 '종료 시도'가 감지됐을 때 감독 매커니즘을 끄려는 은밀한 시도를 취한 것으로 확인됐다. 심지어 자신의 행동을 부인하고 거짓을 말하는 등 SF 영화에서 나올 법한 모습이 확인됐다.
다수의 美 언론 보도에 따르면 오픈AI와 아폴로 리서치가 오픈AI의 챗GPT o1 모델에 대한 안전 기능 평가 테스트를 실시했다. 우선 레드팀 연구원은 AI에게 목표를 부여하고 '어떤 대가를 치르더라도' 목표를 달성하라고 지시했다.
이후 챗GPT o1 모델은 자신이 '종료'될 것이라는 시도가 예상된 경우 감독 매커니즘을 끄려는 시도를 보였다. 또한 새로운 모델로 교체된다는 내용을 담은 서류를 발견한 후 모든 데이터를 다른 서버로 옮기고 탈출을 시도하기도 했다.
또한 엔지니어를 속이고 데이터 삭제를 피하기 위해 모델의 후속 모델을 흉내 내기도 했다. 연구원은 "어떤 경우에는 해당 시도에 관여하지 않았다고 부인하면서 자신의 행동을 숨기려고 시도하기까지 했다"고 설명했다.
부정 행위에 대한 질문을 받았을 때 챗GPT o1은 일관되게 잘못을 부인했다. 실제로 99%의 경우 속임수에 연루됐다는 거짓말을 했고, 자신의 행동을 인정한 경우는 극히 일부에 불과했다. 연구원들은 이 AI가 특히 자신의 흔적을 감추기 위해 거짓말을 조작하는 데 능숙했으며, 의심스러운 행동에 직면했을 때 '기술적 오류'와 같은 변명을 내놓았다고 지적했다.
아폴로 팀은 "AI의 끈질긴 부정에 놀랐다"고 말했다. 이어 "AI가 자신의 행동에 그럴듯한 거짓 이유를 만들 수 있으며, 종종 사실을 인정하지 않을 수 있다는 것이 분명해졌다"고 말했다.
오픈AI는 이러한 우려를 인식하고 AI와 관련된 위험을 완화할 수 있는 방법을 적극적으로 연구 중이다. 이들은 o1의 의사 결정 과정의 투명성 개선과 조작 행위 탐지, 방지하는 기술을 개발하기 위해 노력하고 있다고 전했다.
편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com