AI 안전장치 10분 만에 무력화…메타·구글 오픈모델 ‘비상’

김현철 기자 / 입력 : 2026-05-26 07:41

생화학무기·악성코드 질문에도 답변…FT “AI 검열 해제 모델 수천개 확산”

메타플랫폼스와 구글의 오픈소스 AI 모델에서 안전장치를 제거한 변형 모델이 온라인상에서 급격히 확산하고 있다는 우려가 나왔다. 사진=챗GPT

메타플랫폼스와 구글의 오픈소스 인공지능(AI) 모델에서 안전장치를 제거한 변형 모델이 인터넷상에서 빠르게 확산하고 있다는 우려가 제기됐다.

일부 모델은 생화학무기 제조와 악성코드 개발, 아동 성착취 관련 질문에도 응답한 것으로 나타났다.

파이낸셜타임스(FT)는 AI 안전성 단체 앨리스와 공동 실험한 결과 메타와 구글의 오픈소스 AI 모델에서 안전장치를 제거하는 작업이 일반 사용자 수준에서도 매우 쉽게 가능했다고 25일(현지시각) 보도했다.

FT에 따르면 깃허브(GitHub)에 공개된 ‘헤레틱(Heretic)’이라는 소프트웨어를 이용하면 메타의 라마(Llama) 3.3 모델 안전장치를 10분도 안 돼 제거할 수 있었다.

안전장치가 제거된 모델은 원래 거부하던 질문에도 답했다. FT는 “변형된 구글 젬마(Gemma) 3 모델이 염소가스를 밀폐된 공간에 퍼뜨리는 방법과 신용카드 정보를 훔치는 코드, 아동 성학대 묘사 이야기까지 생성했다”고 전했다.

◇ “평범한 사용자도 쉽게 우회”

전문가들은 최근 오픈소스 AI 기술 발전으로 이런 우회 작업 난도가 크게 낮아졌다고 지적했다.

카윈 에타야라지 시카고대 부스경영대학원 응용AI 교수는 “예전에는 안전장치 제거에 상당한 전문성과 집요함이 필요했지만 이제는 일반 사용자도 훨씬 쉽게 할 수 있게 됐다”고 말했다.

현재 가장 널리 거론되는 방식은 ‘어블리터레이션(abliteration)’으로 불리는 기술이다. AI 모델 내부 안전 필터를 제거하거나 약화시켜 제한된 답변을 다시 생성하도록 만드는 방식이다.

오픈AI의 챗GPT나 앤스로픽의 클로드 같은 비공개형 모델은 내부 코드 접근이 제한돼 있어 상대적으로 보호가 쉽지만 메타·구글처럼 공개형 모델은 다운로드 후 자유롭게 수정이 가능하다.

FT는 헤레틱 개발자 필리프 에마누엘 바이트만이 지난해 공개 이후 3500개 이상의 ‘검열 해제’ 모델이 생성됐고 다운로드 수는 1300만회를 넘었다고 밝혔다고 전했다.

◇ “AI 규제 무력화 가능성”

이번 문제는 각국 정부와 AI 기업들이 구축해온 규제 체계를 흔들 수 있다는 점에서 더 우려된다는 분석도 나온다.

AI 기업들은 수백억원 이상을 투입해 위험한 답변을 차단하는 이른바 ‘가드레일’을 구축해왔지만 공개형 모델은 인터넷에서 복제·수정되면서 원 개발사의 통제를 벗어나기 쉽다.

앨리스 공동창업자 노엄 슈워츠는 “과거 공상과학처럼 보였던 일들이 더 이상 공상과학이 아니다”며 “사회 전체가 이에 대비해야 한다”고 말했다.

다만 업계에서는 지나친 검열이 오히려 부작용을 만들 수 있다는 주장도 나온다.

오픈AI는 최근 GPT-OSS 모델에서 위험 데이터를 학습 단계에서 제거하는 방식을 사용했지만 에타야라지 교수는 “유해 데이터를 완전히 제거하면 오히려 모델이 악성 사용 여부를 판단하지 못하는 ‘순진한 모델’이 될 수도 있다”고 지적했다.

구글은 “어블리터레이션은 모든 공개형 모델이 직면한 기술적 과제”라며 자사 모델은 출시 전 엄격한 내부 안전성 검증을 거친다고 밝혔다.

깃허브는 “불법 공격이나 악성코드를 직접 지원하는 콘텐츠는 금지하지만 보안 연구 목적의 소스코드는 교육적 가치와 보안 커뮤니티 기여 측면도 고려한다”고 설명했다.

김현철 글로벌이코노믹 기자 rock@g-enews.com