메뉴 글로벌이코노믹 로고 검색
검색버튼

레딧, AI검색 퍼플렉시티 '데이터 무단수집' 제소…구글 통해 수십억건 긁어가

하루 1억명 이용 플랫폼 "AI 훈련용 콘텐츠 불법 탈취"…오픈AI·앤트로픽 이어 저작권 전쟁 확산
온라인 커뮤니티 플랫폼 레딧이 인공지능(AI) 스타트업 퍼플렉시티를 상대로 사용자 게시물 불법 수집 혐의 소송을 냈다. 사진=로이터이미지 확대보기
온라인 커뮤니티 플랫폼 레딧이 인공지능(AI) 스타트업 퍼플렉시티를 상대로 사용자 게시물 불법 수집 혐의 소송을 냈다. 사진=로이터
온라인 커뮤니티 플랫폼 레딧이 인공지능(AI) 스타트업 퍼플렉시티를 상대로 사용자 게시물 불법 수집 혐의 소송을 냈다. 이는 AI 기업과 콘텐츠 제공 웹사이트 사이 데이터 분쟁이 커지고 있음을 보여준다. 워싱턴포스트는 지난 24(현지시각) 보도에서 이번 소송이 AI 서비스가 인터넷 생태계 자체를 위협할 수 있다는 우려를 경고한다고 전했다.
레딧은 지난 23일 뉴욕 연방법원에 낸 소장에서 퍼플렉시티와 데이터 수집 중개업체 3곳이 레딧의 보안 장치를 돌아가 수십억 건 게시물을 무단으로 긁어갔다고 주장했다. 레딧의 벤 리 최고법무책임자는 "AI 기업들이 양질의 인간 콘텐츠를 확보하려는 경쟁에 뛰어들면서 '산업 규모의 데이터 세탁' 경제가 만들어졌다"고 밝혔다.

구글 검색 결과 악용한 '우회 수집'


레딧은 소장에서 퍼플렉시티가 리투아니아 업체 옥시랩스, 러시아 기반 AWM프록시, 미국 텍사스 스타트업 서파피 등 데이터 수집 중개업체를 고용해 레딧 콘텐츠를 간접으로 확보했다고 주장했다. 이들 업체는 구글 검색 결과에서 레딧 페이지를 뽑아내는 방식으로 레딧의 직접 보안 장치를 돌아갔다는 것이다.

레딧은 이를 "은행 금고에 침입할 수 없는 은행 강도가 대신 현금 수송 차량을 훔치는 것"에 비유했다. 레딧은 구글을 상대로 한 별도 소송에서 받아낸 소환장으로 이런 정보를 손에 넣었다고 밝혔다.

레딧은 퍼플렉시티에 지난해 5월 사용 중지 경고장을 보냈으나, 오히려 퍼플렉시티의 레딧 인용이 "40" 급증했다고 주장했다. 레딧이 만든 '테스트 게시물'이 구글 검색으로만 접근 가능했는데도 몇 시간 만에 퍼플렉시티의 AI 응답에 그대로 나타났다는 것이다.

퍼플렉시티는 레딧에 올린 반박문에서 "레딧 게시물로 AI 모델을 훈련하는 게 아니라 단순히 요약하고 인용할 뿐"이라며 "공개 데이터가 상장 기업 비즈니스 모델의 핵심이 되면서 생긴 안타까운 사례"라고 맞섰다. 구글은 "나쁜 의도의 남용을 막으려는 강력한 기술 조치를 갖추고 있다"고 밝혔다.

AI 시대, 인터넷 생태계 위협 우려


레딧은 하루 이용자가 1억 명을 넘는 대형 플랫폼이다. 20년간 쌓인 웨일스 레스토랑부터 조용한 에어컨 추천까지 다양한 주제의 토론은 AI 서비스 훈련 데이터로 알맞다는 평가를 받는다. 레딧은 퍼플렉시티가 지난 8월 블로그에서 "레딧은 전 세계 AI 모델에서 가장 많이 인용하는 도메인"이라고 인정했다고 지적했다.
레딧은 구글, GPT 개발사 오픈AI 등과 유료 라이선스 계약을 맺고 있으며, 이로 지난해 뉴욕증권거래소 상장 자금을 마련했다. 레딧은 AI 기업들에 유료 계약을 맺고 자사의 보안 규칙을 지킬 것을 요구해왔다.

콜로라도대 법학대학원 블레이크 레이드 부교수는 "레딧이 게시물 저작권을 갖고 있지 않고 작성자가 갖고 있다는 점이 소송 결과를 예측하기 어렵게 만든다"고 분석했다.

데이터 중개업체 톨빗의 토시트 파니그라히 최고경영자는 "AI 서비스는 뉴스, 엔터테인먼트 사이트, 크루즈 업체, 가구 판매업체 등 넓은 곳에서 초고속으로 엄청난 규모의 정보를 긁어간다""기술 변화가 우리와 창작물 소유자 모두에게 이롭다는 기존 틀이 더는 맞지 않을 수 있다"고 말했다. 그는 "이는 인터넷 작동 방식을 뿌리부터 바꾸고 있다"고 덧붙였다.

레딧은 이번이 두 번째 AI 소송이다. 레딧은 지난 6AI 스타트업 앤트로픽을 상대로도 비슷한 소송을 냈으며, 이 사건은 오는 1월 공판이 열린다. 뉴욕타임스는 지난해 12월 오픈AI와 마이크로소프트를 상대로 저작권 침해 소송을 냈고, 지난해 10월에는 월스트리트저널과 뉴욕포스트 발행사인 다우존스가 퍼플렉시티를 고소했다.
업계에서는 AI 기업들의 데이터 확보 경쟁이 치열해지면서 콘텐츠 제공 사이트들의 생존을 위협한다는 분석이 나온다. 과거 유튜브, 틱톡 등이 콘텐츠 제공자들과 부딪쳤지만 결국 수익 나누기 등으로 함께 사는 길을 찾았던 것과 달리, AI는 콘텐츠 긁어가는 속도와 규모가 압도해 기존 해법이 통하지 않을 수 있다는 우려가 나온다.


박정한 글로벌이코노믹 기자 park@g-enews.com
맨위로 스크롤