국산 인공지능 언어모델의 경쟁력과 R&D 예산

[칼럼] 국산 인공지능 언어모델의 경쟁력과 R&D 예산

1520

[방송기술저널=모정훈 연세대학교 교수] 지난 8월 네이버가 대화형 인공지능 언어모델 하이퍼클로바X를 공개했다. 7월에는 LG도 엑사원을 공개했다. 이외에도 엔씨, 솔트룩스와 업스테이지 등도 자사 언어모델을 개발했다. 이러한 국산 인공지능 언어모델은 경쟁력이 있을까?

언어모델 경쟁력의 원천은 데이터, 자본, 그리고 인력이다. 데이터 측면에서 구글은 가장 앞서 있다. 양질의 데이터를 장기간 구축했고 따라갈 회사는 없다. 장기적으로 볼 때, 구글의 Bard 서비스가 ChatGPT보다 경쟁에서 유리한 이유가 바로 이점이다. 한글 데이터에 국한하면 네이버가 우수할 수도 있지만, 글로벌 시장에서 네이버가 구글에 대적하기는 쉽지 않다.

둘째는 자본이다. 대형언어모델은 개발과 운영에 수천억 원 이상의 고비용이 필요하다. 오픈AI사가 ChatGPT 개발에 소요한 총비용은 정확하진 않지만 약 2조 원에 달한다고 알려져 있다. 개당 천만 원을 넘어가는 NVIDIA사의 A100 그래픽카드 수천 개면 백억 원, 만개면 천억 원이다. 전기요금을 비롯한 컴퓨팅 비용, 많은 양의 데이터 처리 비용 등이 여기에 더해진다. 개발 이후 운용비용도 적지 않다. ChatGPT의 운영비용은 하루에 9억 원으로 알려져 있고 1년이면 운영비만도 3,000억 원 수준이다.

이 정도 비용을 감당할 수 있는 국내 회사는 그리 많지 않다. 네이버의 하이퍼클로바X도 수천억 원의 비용을 들여 개발했다. LG의 엑사원도 3천억 개의 파라메타를 훈련시키기 위해서는 비슷한 규모의 비용을 소요했을 것이다. 대다수 회사는 사업모델이 불투명한 상황에서 큰 개발비와 운영비를 감당할 수 없다.

셋째는 인력이다. 많은 인공지능 인력이 미국과 중국에 몰려있다. Global AI Index에 의하면 한국의 인공지능 인재 순위는 12위이다. 1, 2위인 미국, 중국과 격차가 크다.

정리하면 데이터는 한글 부분만 우수하고, 자본과 인력 부분은 미국, 중국 부분보다 많이 떨어지는 게 현실이다. 네이버 하이퍼클로바X의 주된 홍보 포인트가 ChatGPT보다 6,500배 많은 한글 학습인 이유이다.

최근 언어모델은 클라우드와 결합하고 있다. 클라우드 시장의 글로벌 1, 2, 3위인 아마존, 마이크로소프트, 구글은 다양한 생성형 AI 솔루션을 자체 클라우드에서 사용할 수 있도록 추가 중이다. ChatGPT, 허깅페이스, Flan-T5, Claude 등의 다양한 언어모델을 자체 클라우드 안에서 바로 사용할 수 있도록 내재화하고 있다. 클라우드의 지배력을 언어모델 시장으로 전가할 수 있는데, 열위 사업자인 국내 클라우드 사업자는 최신 언어모델 유치에 어려움이 있을 수 있다. 국내 언어모델 개발사는 글로벌 클라우드와 결합해서 서비스를 제공해야 할 수 있다. 토종 클라우드 3사인 NHN, KT, 네이버클라우드사도 내재화하기 위해서 인프라 확충을 서두르고 있다.

또 다른 주목할 움직임은 언어모델의 오픈소스 소형화이다. 많은 언어모델이 GPT-3 이후로 비공개로 전환했지만, 메타사의 라마 모델은 오픈소스를 유지하고 있다. 지난 3월 스탠퍼드 연구진은 라마를 기반으로 단 600불에 ChatGPT의 90% 성능을 갖는 알파카 모델을 개발했다. 파라메터 수는 ChatGPT의 4%인 70억 개로 경량 모델이다. 그 이후 비쿠나, 구아나코, mini-GPT4 등 라마 기반의 소형모델이 연이어 출시되고 있다. 비쿠나의 성능은 Bard와 비슷하고 miniGPT4의 경우엔 멀티모달로 영상 처리가 가능하다. 국내의 중소기업 업스테이지 모델도 라마를 튜닝한 것이고 NC의 경우 출시한 모델도 소형모델이다.

오픈소스 소형모델은 고비용을 감당할 수 없는 회사나 국가를 위한 대안이다. 향후 자체 모델을 갖고 싶은 중소‧중견기업 중 저비용으로 운용하고 싶은 경우에는 오픈소스 소형모델이 하나의 대안이 될 수 있다. 이것은 운영체제 시장에서 리눅스와 같은 위치를 차지할 것으로 보이며 대형 상업용 모델의 대안이 될 수 있을 것이다.

우리의 입장에서 나쁜 시나리오는 대형모델은 경쟁력 차이가 심해져 글로벌 1‧2위가 지배하고 소형모델은 평준화하는 것이다. 국내에서 수천억 원을 들여서 개발한 모델이 해외 유수 모델과 경쟁이 안 되고 내수용 모델로 전락하고 소형모델은 세계 190여 개의 국가에서 자체 개발한 모델과 차별화가 안 되는 상황이다. 실제로 위에서 언급한 miniGPT4는 사우디아라비아에서 개발했다.

언어모델 시장에서 국내 업체는 뒤떨어져서 추격하고 있고 경쟁을 위해서 향후 많은 자본이 필요한 상황이다. 상황은 이런데 정부는 내년 R&D 예산을 16%나 줄인다고 한다. 다시 검토한다고는 하나 정부가 과학기술 R&D를 어떻게 바라보고 있는지를 보여주었다는 점에서 실망스럽다. 과학기술은 자원 없는 우리나라의 버팀목이었고 대한민국 경제성장의 원동력이었다. 차세대 글로벌 전쟁터인 인공지능 언어모델 시장에서 후발주자인 우리나라의 경쟁력을 유지할 수 있도록 정부의 과학기술에 관한 생각이 언제나 지원을 줄일 수 있는 분야가 아니라, 중요한 분야라는 인식을 잊지 않았으면 한다.