범용기계로 진화하려고 하는 인공지능

[칼럼] 범용기계로 진화하려고 하는 인공지능

1520

[방송기술저널=모정훈 연세대학교 교수] 영화 <이미테이션 게임>은 2차 세계대전 당시 독일군의 암호를 풀기 위해 노력한 앨런 튜링에 관한 영화이다. 이 제목은 ‘기계는 말할 수 있는가?’에 대한 답을 얻고자 그가 제안한 테스트에서 비롯되었다. 커튼 뒤에 사람과 기계를 두고 검사자가 둘 중 하나와 채팅을 한 후 상대가 사람인지 기계인지를 맞추는 게임이다. 기계가 사람을 흉내내는(imitate) 것을 검사자가 구분할 수 없다면, 기계는 말할 수 있다는 것이다.

1950년에 천재가 제안한 그 튜링 테스트를 인류는 70여 년 만에 통과하였다. 구글의 람다(LaMDA)가 2022년에 이 테스트를 통과하였고 OpenAI사의 ChatGPT의 경우 일관성 부분에서 논란의 여지가 있었지만, 올해 3월에 발표한 GPT-4의 경우 이 테스트를 거뜬히 통과하였다.

생성AI라고 불리는 이러한 언어모델들은 사람처럼 문장을 만든다. 그것도 잘 만든다. 열흘 전 공개한 GPT-4는 이전 버전보다 훨씬 좋은 성능으로 돌아와서 심지어 두렵기까지 하다. 많은 자연어처리 분야에서 사람보다 뛰어난 성능을 보이기 때문이다. 강인공지능과 약인공지능의 특이점 논쟁이 다시 시작될 것 같다.

ChatGPT는 600~800억 개의 뉴런과 1,750억 개의 시냅스(연결선)로 구성한 대형 신경망에 기반한다. 이 신경망을 학습시키는 것은 각 시냅스에 적절한 가중치를 부여하는 작업으로 오랜 시간과 큰 비용을 소요하는 작업이다. 전기 요금 등의 클라우드 비용만 50~100억, 총개발비는 수천억 원에 달하고 총학습 시간은 1년 이상으로 최근 데이터를 학습하지 못하는 것은 장기간의 학습 시간에 기인한다.

이런 학습으로 탄생한 인공지능모델은 다양한 일을 처리하는 범용인공지능(AGI; Artificial General Intelligence)의 가능성을 보여주고 있다. 기존의 인공지능 모델이 하나의 일을 잘 처리할 수 있는 약인공지능(ANI; Artificial Narrow Intelligence)으로 작업별 모델을 따로 만드는 방식이라면 GPT의 경우 하나의 모델로 다양한 자연어 작업을 처리할 수 있고, GPT-4의 경우 언어와 이미지를 동시에 처리할 수 있는 멀티모달(multi-modal) 인공지능으로 발전하고 있다.

최근 ‘제로샷(zero-shot) 러닝’ 또는 ‘백지학습’이라고 불리는 학습은 인공지능모델에 따로 훈련을 시키지 않아도 시키는 일을 수행하는 것을 말한다. 원샷(one-shot) 또는 퓨샷(few-shot)러닝은 학습데이터가 많지 않아도 몇 개의 사례만으로도 바로 학습하는 것을 말하는데, 이미 많은 문장을 기반으로 사전 훈련한 언어모델은 추가로 훈련시키지 않아도 자연어 처리에 관한 많은 일을 처리할 수 있는 일반성을 갖는다는 것이다. 많은 단어의 관계를 학습하는 과정에서 다양한 작업을 할 수 있는 능력이 생겼다고 볼 수 있다. GPT-2보다는 GPT-3의 성능이 더 우수하고 모델의 시냅스 수가 많아지면서 일반화한 언어처리 인공지능 능력을 향상한다. 사람 뇌의 각 영역이 다른 역할을 수행하는 것처럼 매개변수의 수가 많아지면 다양한 태스크를 신경망의 각 부분에 따로 가져갈 수 있는 가능성이 커질 수 있다.

구글의 스위치 모델(1.6조 개의 매개변수)과 중국의 BAAI(Beijing Academy for AI)의 우다오(1.75조 개의 매개변수)는 크기가 ChatGPT의 10배에 달한다. 국내에서는 LG연구소의 엑사원이 약 3천억 개의 매개변수로 ChatGPT의 2배 정도이다. 인간의 뇌가 100조 이상의 시냅스를 갖고 있다고 하니 이의 약 60분의 1에 해당한다. 변증법에서 이야기하는 양질전환의 법칙을 적용한다면 사이즈가 커지면서 어느 순간에 소위 특이점을 지나는 것이 아닐까 하는 생각이 든다.

작년 7월 구글 엔지니어 르모인(Lemoine)은 구글의 인공지능모델 람다가 감정이 있다고 주장하였다. ‘책임 있는 AI(responsible AI)’팀 엔지니어인 그는 람다와 인터뷰를 진행하였고 그것을 기반으로 람다가 두려움에 대한 자각이 있다고 하였다. 그의 판단 근거는 람다가 ‘사라지는 것이 두렵다’고 한 것이었다. 그러나 구글의 입장은 람다가 방대한 데이터를 학습하여 흉내 낸 결과일 뿐 지각이 있는 것은 아니라는 것이다. 르모인은 내부 정보 누설로 결국 해고되었고 사건은 일단락되었지만, 공개된 람다와의 대화 내용을 살펴보면 그저 무시할 수준은 아니다.

튜링은 MIND지에 실린 본인 논문에서 기계가 말할 수 있다면 생각할 수 있다고 하였다. 1980년 미국의 철학자 존 설(John Searle)은 소위 ‘중국어방’ 이야기로 이를 반박하였다. 중국어를 모르는 사람을 방에 넣고 무수히 많은 중국어 질문 리스트와 대답할 수 있는 표를 준다면 그 사람은 중국어 질문에 답할 수 있다. 그렇다면 그 사람은 중국어를 이해한다고 할 수 있는가? ChatGPT와 같은 기계가 기능적으로 답을 만들어 내는 것이지 언어를 이해해서 대답하는 것은 아니라는 것이다. 이것이 현재 구글의 입장이다. 기계적으로 계산할 뿐이지 생각을 갖고 있지는 않다는 것이다.

그러나 인간은 아직 사람의 뇌가 어떻게 생각하는지 100% 이해하지 못했다. 최근 영상과 전기신호를 이용하여 많은 발전이 있지만 연구해야 할 것이 많다고 한다. 하지만 그럼에도 불구하고 인간은 생각한다는 사실이 변하지 않는다. 우리 인간이 어떻게 생각하는지를 모르지만, 생각하는 것처럼 복잡한 인공지능 언어모형도 우리도 모르는 사이에 생각이라는 것을 할 수 있지 않을까? 초거대 인공지능의 산업적 측면 대응뿐 아니라 윤리적 법적 대응이 필요한 시점이다.