멀티 모달 AI(Multi Modal AI)

[기술용어] 멀티 모달 AI(Multi Modal AI)

3057

[방송기술저널 전숙희 기자] 멀티 모달(Multi Modal)에서 Multi는 ‘다채로운’이라는 뜻이며, Modal은 ‘모달리티(Modality)’ 즉 ‘양식, 양상’을 뜻한다. 즉 멀티 모달은 시각, 청각을 비롯한 여러 가지 양식을 통해 정보를 주고받는 것을 말한다.

기존의 AI가 텍스트나 자연어를 이행하는 데 중점을 둬 데이터 처리나 통계, 텍스트를 검색해서 보여주는 것은 가능하지만, 인간과 유사한 방식의 사고는 할 수 없었던 것과는 달리 멀티 모달 AI는 텍스트, 음성, 이미지, 영상 등 서로 다른 양식의 데이터 간 관계성을 학습하고 이해하며 표현할 수 있어 사람과 유사하게 배우고 추론할 수 있다. 우리가 ‘사과’를 안다고 할 때 단순히 텍스트를 아는 것뿐만 아니라, 사과의 형태, 냄새, 맛, 촉감, 용도 등 사과의 다양한 정보를 통합해 이해하고 있는 것과 같다.

예를 들어 ‘동화풍 일러스트레이션’을 검색한다면, 기존 AI는 ‘동화풍’, ‘일러스트레이션’이라는 텍스트를 포함하는 결과를 보여준다. 그러나 멀티 모달 AI는 동화풍의 이미지를 이해하고 있기 때문에 ‘동화풍’이라는 텍스트가 없더라도 검색 결과로 보여줄 수 있다.

네이버는 지난 2022년 검색 서비스에 멀티 모달 AI를 접목했다고 밝혔으며, 오픈AI 사의 GPT4에도 멀티 모달을 탑재하고 있다. 앞서 7월 19일 LG AI연구원은 초거대 멀티 모달 AI ‘엑사원 2.0’을 공개했다.