“생성형 AI 기술로 챗GPT 개발
인터넷 사용자 동의·보상 없이
회사 이익에 개인 데이터 사용
AI 알고리즘이 개인 정보 쓸 때
보상받을 수 있나 법 판단 필요”
생성형 인공지능(AI) 챗GPT를 개발해 세계적으로 유명해진 오픈AI가 AI를 교육하기 위해 인터넷 정보를 무단으로 유용했다는 소송에 휘말렸다.
28일(현지시간) 워싱턴포스트(WP) 등에 따르면 미국 로펌 ‘클락슨’은 이날 캘리포니아 연방법원에 제기한 소송을 통해 오픈AI가 인터넷에서 방대한 양의 개인 데이터를 무단으로 수집·활용해 30억 달러(약 4조원)의 피해를 낳았다고 주장했다.
클락슨은 160여장에 이르는 소장에서 “오픈AI는 인터넷에서 교환할 수 있는 모든 자료를 포함해 개인 데이터를 통지, 동의 또는 정당한 보상 없이 수집했다”고 주장했다. 챗GPT가 어린이를 포함한 수억명에 이르는 인터넷 사용자들의 개인 정보를 훔쳐서 사용했다는 것이다.
이 로펌은 챗GPT가 인터넷에서 수십억개의 단어를 수집해 추론 구축 방법을 학습함으로써 인간과 복잡한 대화를 나누고, 시를 쓰며 변호사 자격시험과 같은 전문적인 시험을 통과할 수 있다고 설명했다. 또 “인터넷에 오른 수많은 글을 쓴 이들은 오픈AI가 자사의 이익을 위해 이런 정보들을 사용하는 것에 동의하지 않았다”고 지적했다.
로펌 변호사인 라이언 클락슨은 “이 모든 정보는 대규모 언어 모델에 의해 사용될 의도가 전혀 없었는데도 대규모로 수집되고 있다”며 “AI 알고리즘이 개인 정보를 사용할 때 사람들이 ‘데이터 배당금’ 등을 보상받을 수 있는지에 대해 법원 판단을 받아 볼 필요가 있다”고 집단소송 배경을 밝혔다. 클락슨은 과거에도 데이터 침해, 허위 광고 등 다양한 문제에 대한 집단소송을 제기했다.
이번 소송은 소셜미디어 댓글, 블로그 게시물, 위키피디아 등에서 AI가 언어를 수집한 것이 이용자의 권리를 침해했는지를 판단하는 새로운 법적 이론을 시험하게 된다고 WP는 분석했다. 공공 인터넷에서 퍼다 나른 데이터를 이용해 수익성이 높은 도구를 훈련하는 것이 합법인지는 명확하지 않다. 일부 AI 개발자들은 인터넷에서 정보를 사용하는 것을 ‘공정 사용’(제한적으로 저작물 사용을 허용하는 규정)으로 봐야 한다고 주장한다.
하지만 AI 기업이 인터넷 데이터를 긁어 쓰는 행위를 막으려는 시도가 이어지고 있다. 트위터를 인수한 일론 머스크는 마이크로소프트(MS)가 트위터에서 얻은 데이터로 AI를 훈련시켰다며 소송을 제기하겠다고 밝혔다. 지난 2월에는 게티이미지가 이미지 생성 AI를 훈련시키기 위해 자사의 사진을 무단 사용했다며 스태빌리티AI를 고소했다.
송한수 선임기자