생성형 AI를 활용한 콘텐츠 제작, 승자는 누구인가?

[칼럼] 생성형 AI를 활용한 콘텐츠 제작, 승자는 누구인가?

308

[방송기술저널=박성환 박사, 동아방송예술대학교 겸임교수] 생성형 AI를 활용하는 산업 영역이 계속 확대되고 있다. 다양한 AI 애플리케이션이 등장한 것이다. 미디어 분야의 생성형 AI 활용도 다양하게 시도되어 미디어 콘텐츠 제작과 유통에도 더 강력한 날개 역할을 한다. 이미 1인 미디어 크리에이터들은 다양한 제품 사진 연출에 활용하고 있다. 댄스 챌린지에서도 최고수의 댄스 챌린지 영상을 참조하는 것으로 나의 솜씨인 것처럼 챌린지를 완성하기도 한다. 무료로 의상을 피팅하거나 효과음을 생성해 주는 AI 사이트도 활용한다. 옛날 사진으로 동영상을 만들어 추억을 나누기도 한다. 할리우드 배우의 목소리를 활용해 광고를 만들기도 한다. 다양한 AI 도구가 등장하면서 ‘세상의 모든 것을 바꾼다’라고 할 정도로 응용 영역이 확장된다. 도대체, 못하는 일은 무엇인가? 그렇다면 기술로 승부하던 미디어계의 엔지니어, 아티스트의 일자리는 어떻게 될까? 이런 작업을 하나의 AI가 몽땅 처리해 주는 것도 가능할까? 지금 이 세계의 제1 주자는 누구일까?

동일 프롬프트로 DALLE2와 DALLE3 비교
출처: openai.com/index/dall-e-3

생성형 AI 활용의 현주소는 혼돈 상태이다. 국제 AI 영화제가 열릴 만큼 긍정 미디어에 날개를 달아주는 분야도 있고, 다른 한편에서는 딥페이크 범죄처럼 더 깊은 지하로 숨어들거나 다크패턴(눈속임 설계)에 이용하는 무리도 있기 때문이다. 딥페이크는 딥러닝(Deep Learning)과 가짜(Fake)의 합성어다. AI 기술을 활용해 이미지, 음성, 비디오 등을 조작하여 만든 가짜 콘텐츠를 말한다. 딥페이크 콘텐츠는 최근 사회 이슈로 대두된 성 착취물 영상 이외에도 다양하다. 딥페이크 음란 동영상이 대중의 선한 정신세계를 파괴한다면, 딥페이크 금융 범죄는 여러분의 통장을 노리거나 대출 사기로 직접 돈을 갈취한다. 일론 머스크, 국내외 유명 배우, 인기 경제 프로그램 진행자를 투자 성공 모델로 등장시켜 많은 대중을 속이는 광고가 여러분들의 판단을 흐리게 한다. 그리고 선거 관련 딥페이크 영상은 유권자의 판단을 흐리게 한다.

최근 유럽 최대의 가전전시회인 IFA 2024는 행사의 5대 주제로 ①AI ②지속가능성 ③연결성 ④피트니스 및 디지털 건강 ⑤콘텐츠 제작을 제시했으며, 이 중 핵심은 AI 기술이다. 여기에서 미디어계의 핵심 키워드는 ‘생성형 AI를 활용한 콘텐츠 제작’이라 하겠다. 이 작업의 통합 기반 기술은 멀티모달 AI다. 멀티모달 AI는 텍스트 입력만으로 근사한 시를 창작해 준다. Anthropic Claude를 사용해 보면 감탄할 것이다. 물론 시적 감성을 담아서 감미로운 프롬프트를 입력할수록 더 애틋한 시로 탄생한다. 텍스트를 입력하는 것만으로도 기대 이상의 더 실사 같은 이미지를 얻을 수도 있다. 이런 일은 OpenAI의 DALLE3가 잘 한다. 다음은 이미지를 영상으로 변환시키는 일이다. 좋은 솔루션으로는 Runway GEN-2가 떠오른다. 무엇보다 영상 제작의 끝판왕은 텍스트를 영상으로 만들어 주는 선두 주자인 OpenAI의 SORA다.

생성형 AI를 활용한 영화, 드라마 등의 콘텐츠 제작 기술은 과도한 기대로 거품기를 향해서 달리는 형국이다. 어쨌든 생성형 AI를 활용한 콘텐츠 제작에서 퀄리티 문제는 아직 존재한다. 해결책은 바로 실사 촬영과의 융합이라 생각한다. 더 정교한 실사 촬영의 바탕 위에 AI 기술을 융합하는 것은 시간과 에너지를 줄여주는, 말 그대로 제작 효율을 높이는 최고의 방법이다. 이러한 방법은 영화 제작의 정교함을 향상시킨다. 텍스트를 영상으로 변환하는 것, 유명 배우의 보이스를 AI가 대신하는 것 등 다양한 툴이 존재한다. 더 나은 AI 아티스트는 표정 연기, 립싱크에서 실존을 뛰어넘는 기교를 준비 중이다.

멀티모달 AI라는 AI를 접목하면서 영화 제작이 쉽고 편해진 것처럼 보인다. 하지만 더 높은 만족도를 위해서 연구하고, 수고하는 전문가들이 필요하다. 그래서 다양한 AI 기술을 접목하기 위해 AI 개발자는 필수이다. 특히 AI로 제작한 영상의 분위기를 살려주는 음성과 음향, 음악 분야는 퀄리티를 높이는 연구가 시급한 분야이기도 하다.

외형적으로 AI가 콘텐츠를 수월하게 다 만들어 줄 것으로 기대하지만, 아직은 유명 배우들의 감정선을 그대로 살릴 수 없다. 또, 각국의 언어를 다양하게 지원하지만, 언어의 뉘앙스를 살리기는 어렵다. 2%가 부족한 것이 아니라 20%가 부족하다. 물론 ‘아직은’이라는 전제가 필요하다.

Claude 3 대비 동일 가격, 고지능 Claude 3.5
출처: anthropic.com/news/claude-3-5-sonnet

콘텐츠 제작의 선구자들은 생성형 AI를 활용하는 새로운 기법을 쌓아가고 있다. 누가 먼저 새로운 영화 제작의 문법을, 드라마 제작 문법을 만들 것인가? 결국 최고를 향해 사람들은 더 힘겨운 도전을 하고 있고, 이러한 수고는 인간 중심 미디어 세상의 발전에 기여할 것이다.

구글은 크롬 브라우저에 ‘제미나이’를 통합했다. 검색 시장에 대변혁이 올 것이다. 맥락을 이해하는 다면적인 텍스트, 영상, 이미지 결과를 알려주는 기능의 발전이 예상된다. 미디어 분야 역시 같은 방향으로 변화한다.

당신이 1인 미디어 크리에이터로서 혹은 방송사 특정 장르의 제작자로서 인기 콘텐츠 제작 도구로 ChatGPT-4o와 Claude 3.5 Sonnet을 활용한다면 누가 승자일까? 결론적으로 아직은 모든 콘텐츠 분야에서 만족할 팔방미인 생성형 AI 앱은 없다. 작가의 의도를 반영한 세밀한 표현, 전후 맥락에 맞는 말투를 얻기는 어렵다. 물론 구체적인 소재를 주고 숏폼 콘텐츠 대본을 작성하게 하고, 영상을 제작하게 한 후, 공개하여 이용자의 조회 수를 비교해 본다면 흥미로울 것이다. AI 앱의 전쟁은 계속될 것이기에, 승자는 여러 툴을 다양하게 응용하는 사람의 몫이 되어야 할 것이다.