"AI 학습 데이터 공개하라"…저작권 분쟁 격화

편슬기 기자 / 입력 : 2025-01-14 17:00

한국방송협회, 저작권 침해로 네이버에 소송 제기
언론협회, "학습 데이터 의무적 공개 필요"
메타, 고의적 저작권 침해 데이터 학습 '발각'

AI 학습 데이터에 대한 기업과 단체들의 공개 요구가 빗발치고 있다. 사진=그록(Grok, AI 생성물)

생성형 AI에 대한 학습 데이터 공개 요구가 거세지고 있다. 저작권 침해 가능성을 이유로 해당 생성형 AI가 '어떤 학습 데이터'를 활용했는지 확인하겠다는 것이다. 빅테크들은 '기업 중요 노하우'라는 이유를 들어 학습 데이터 공개 요구에 응하지 않고 있다. 이에 업계에서는 빅테크를 상대로 저작권 침해와 손해배상 청구 등을 요구하고 나섰다. 저작권 관련 분쟁이 격화되며 '소송전'으로까지 번지는 모습이다.

국내외를 불문하고 생성형 AI 학습 데이터에 대한 '저작권 침해' 소송전이 잇따른다. 한국방송협회에 따르면 KBS·MBC·SBS 지상파 방송 3사가 네이버를 대상으로 저작권 침해 및 부정경쟁방지법 위반으로 인한 손해배상 청구와 학습 금지 등을 청구하는 소송을 제기했다.

원인은 네이버가 자사의 생성형 AI 하이퍼클로바 학습에 사용된 데이터 공개를 거부했기 때문이다. 네이버는 "학습 데이터 종류 및 상세 내용은 기업의 중요 자산인 기술 노하우에 해당돼 공개가 어렵다"는 입장을 전해왔다.

한국방송협회 관계자는 "저작권 침해 여부에 대해서는 법원의 최종 판단을 통해 밝혀질 것으로 보인다. 다만, 협회 측은 네이버의 하이퍼클로바X가 지상파 3사 자료를 허가 없이 활용해 학습 데이터로 활용한 가능성이 높다고 보고 있다"고 전했다.

이번 사례 외에도 AI 학습 데이터를 둘러싼 갈등은 점점 고조되고 있다. 한국신문협회 등 5개 언론단체가 AI 학습 데이터를 의무적으로 공개하도록 법제화해야 한다는 내용이 담긴 의견서를 정부와 국회에 전달한 바 있다.

당시 언론단체들은 "어떤 데이터를 학습했는지 불투명한 상황에서 AI 생성물의 품질을 신뢰하기 어렵다"며 "학습 데이터 공개를 의무화하지 않는 것은 기술기업의 데이터 무단 이용을 허용해 결국 저작권자의 권리를 심각하게 침해하게 된다"고 지적했다.

이어 "자신의 저작물이 어디에, 어떻게, 어떤 방식으로 사용됐고 결과물에는 어떤 방식으로 작용하게 되는지에 관해 저작권자가 알 권리를 잃게 된다"며 "저작권자는 정당한 대가 요구가 어려워진다”고 설명했다. AI 생성물의 품질에 대한 신뢰성을 높이고, 저작권에 대한 정당한 대가 요구가 이뤄지기 위해서 '학습 데이터 공개'는 필수불가결하다는 것이다.

해외 빅테크 역시 생성형 AI의 저작권 침해로 골머리를 앓고 있다. 저작권에 대한 직접적 피해를 입은 기업도 있고, 불법적으로 취득한 데이터임을 알면서도 학습에 활용하는 가해 기업도 존재한다.

페이스북과 인스타그램, 스레드의 모회사 메타(Meta)는 사라 실버먼(Sarah Silverman)과 타네히시 코아테스(Ta-Nehisi Coates)와 같은 베스트셀러 작가들에게 '저작권 침해'를 이유로 소송에 휘말렸다. 고소인들은 "메타가 인공지능 모델 훈련을 위해 저작권이 있는 자료를 허가 없이 사용했다"고 주장했다.

또한 메타는 해당 자료를 AI 학습에 사용했다는 것을 숨기기 위해 고의적으로 정보를 삭제한 것으로 전해졌다. 고소인들은 메타가 저작권 세부 정보를 삭제해 저작권 침해 사실을 숨기고 학습 데이터 출처에 대해 모든 이해 관계자들을 상대로 호도하려 했다고도 말했다.

저작권에 해박한 전문가들은 "법이 만들어지는 속도가 기술의 발전 속도를 쫓아가지 못하고 있는 상황에서 이러한 문제가 발생하고 있다"며 "AI 산업의 올바른 발전을 위해서는 법적 규제를 통해 기업과 조율을 통해 모두가 만족할 수 있는 결론을 도출할 필요가 있다"고 설명했다.

편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com

"AI 학습 데이터 공개하라"…저작권 분쟁 격화

[관련기사]

많이 본 뉴스

Headline

글로벌 슈퍼리치

김대호 진단

공유하기

텍스트 크기 조정