생성형 인공지능(AI) 업계가 급성장하며 ‘오픈소스’가 ‘닫히고’ 있다. 무료로 공개하던 소스코드를 비공개하거나 애플리케이션 프로그램 인터페이스(API)를 유료화하는 등 정책을 폐쇄적으로 바꾸고 있다. 학습과 개발엔 큰돈이 들어가지만 수익화는 어려운 AI 업계의 현실 때문에 일어나는 현상으로 풀이된다.
매일 약 5700만명이 방문해 다양한 주제로 대화하는 미국의 커뮤니티 사이트인 ‘레딧’은 최근 초거대 인공지능 언어 모델의 학습 자료를 무료로 제공해 오던 API 접근에 요금을 부과하기로 했다. API는 특정 서버의 일부분에 접속해 그 안의 데이터와 서비스를 사용할 수 있게 해 주는 소프트웨어 도구다. 레딧 창업자인 스티브 허프먼은 “레딧의 말뭉치 데이터는 상당히 가치 있다”며 “우리가 그 가치를 세계에서 가장 큰 회사들에게 무료로 줄 필요는 없다”고 말했다.
트위터를 인수한 일론 머스크 역시 지난해 말 “앞으로 AI 기업들이 무단으로 데이터베이스에 접근하는 것을 금지시킬 것”이라고 밝혔다. 트위터는 지난 2월 데이터베이스에 접근할 수 있는 API를 유료화했다.
지적재산권(IP) 개념이 강화되는 다른 분야와 달리 활발하게 새로운 앱과 서비스를 개발해야 하는 정보통신기술(ICT) 업계에선 개발의 ‘설계도’에 해당하는 소스코드를 무료로 공개하는 오픈소스가 대세였다. 누구나 사용할 수 있는 공개 API로 외부인이 접근, 활용할 수 있는 데이터와 서비스 영역도 상당히 넓었다.
하지만 AI 기술 경쟁이 심화되면서 이런 흐름이 약해지고 있다. 대기업은 천문학적인 돈을 들여 개발한 AI인데, 후발 주자에게 주도권을 빼앗기면 타격이 크다. 중소 기술기업들은 API 판매가 살길이다. 업계 관계자는 “AI는 수익화가 어려워 스타트업들은 API를 유료화하지 않으면 수익을 내기 어렵다”고 말했다.
그런데 역설적이게도 이런 움직임은 오픈AI에서 시작됐다. 언어 모델 GPT3를 개발했을 때까지만 해도 소스코드와 API를 공개했지만, GPT4에 와서는 “‘경쟁 환경’과 ‘안정성’을 위해서”라며 소스코드는 물론 모델 크기와 학습한 데이터, 사용한 하드웨어 등 어떤 정보도 공개하지 않고 있다. GPT의 ‘T’는 ‘트랜스포머’를 의미하는데, 이는 구글이 2017년 논문으로 공개한 언어 모델이다. 구글의 기술 덕에 GPT를 개발한 오픈AI가 후발 주자에겐 어떤 것도 공개하지 않는 셈이다.
하지만 끝까지 오픈소스 정신을 고집하는 경우도 있다. 이미지 생성 모델 ‘스테이블디퓨전’으로 유명한 스태빌리티AI는 19일(현지시간) 오픈소스 기반 초거대 언어 모델 ‘스테이블LM’을 출시, 깃허브 등에 무료로 공개했다.