AI 수학능력 평가 ‘역대 최고점’
업스테이지·KT·콴다 공동개발
매스GPT, 1점 만점에 0.488점
토종 인공지능(AI) 스타트업 업스테이지와 매스프레소(콴다), KT가 함께 만든 수학 특화 언어모델이 AI의 수학 능력을 평가하는 테스트에서 마이크로소프트(MS)와 오픈AI를 뛰어넘고 세계 1위를 차지했다. 업스테이지는 지난해 12월엔 ‘솔라’라는 경량 언어모델로 세계 성능 순위표에서 1위를 차지하기도 했다.
업스테이지는 수학 특화 언어모델 ‘매스(Math)GPT’가 고난도 수학 경시 문제 1만 2500개로 구성된 테스트에서 1점 만점에 0.488점을 받아 0.481점을 받은 MS의 ‘토라(ToRA)13B’를 제치고 역대 최고점을 기록했다고 밝혔다. 매스GPT는 업스테이지의 모델 설계, 수학 공부앱 ‘콴다’를 만든 매스프레소의 학습할 데이터 제공, KT의 그래픽처리장치(GPU)와 클라우드 등 인프라 지원으로 만들어졌다.
매스GPT와 토라13B는 AI 모델의 규모를 의미하는 매개변수가 약 130억개다. 업계가 300억 매개변수 이하를 경량 언어모델(SLM)로 구분하는 만큼 두 모델 역시 SLM에 해당한다. 그럼에도 매스GPT가 획득한 점수는 매개변수 1750억개인 오픈AI의 ‘챗GPT’(GPT-3.5, 0.355점)는 물론 조 단위 매개변수로 추정되는 같은 회사의 ‘GPT-4’(0.425점)보다도 앞섰다.
매스GPT는 초등·중학교 수학 문제 8500개로 구성된 연산 테스트 ‘GSM8K’에서도 SLM 중 최고점인 0.782점을 기록했다.
업계에 따르면 GSM8K에서 매스GPT보다 점수가 높은 모델은 매개변수가 2조~5조개로 추정되는 구글의 ‘제미나이’(0.944점)와 GPT-4(0.92점)뿐이다. MS의 토라13B는 0.758점을 기록했다.
MATH와 GSM8K는 누구나 소스코드를 가져다 자신의 AI를 테스트할 수 있는 측정 도구로, 모델들이 경쟁해 순위를 매기는 플랫폼은 아니다. 업스테이지는 측정 결과를 담은 논문을 통해 매스GPT를 전 세계 개발자들과 공유할 방침이다.
김민석 기자