국내외 3D Video Coding 표준화 현황

국내외 3D Video Coding 표준화 현황

793

I. 서론

수십년 전부터 3차원 비디오에 대한 연구는 꾸준하게 진행되어 왔다. 하지만 이런 꾸준한 연구 결과에도 불구하고 과거 비디오 응용 시장에서는 큰 반향을 몰고 오진 못했으며, 몇몇 특정 비디오 응용 분야에서만이 활용되어 온 것이 사실이다. 과거 시도되었던 3D 입체 비디오 응용에 대한 상업적 실패 요인은 인간의 시각 시스템이 3D 입체 비디오에서 느끼는 어지러움, 불편함 등을 극복 못한 것이 가장 큰 요인이였으며, 더불어 아날로그 비디오로 3D 입체 비디오를 재생하는데서 오는 기술적 한계가 있었다.
그러나 디지털 시대로 전환되면서 최근 2~3년 전부터 3D 입체 비디오에 대한 상업적 응용을 가능하게 하는 기술 개발 움직임이 활발하게 국내외에서 진행되고 있으며, 특히 최근에 상영되었던 제임스 카메룬의 “아바타”라는 영화는 3D 입체 비디오의 상업적 성공 가능성을 보여준 가장 좋은 예로 들 수 있을 것이다.
이러한 3D 입체 비디오의 상업화기 대중에게 보다 폭넓게 전파되기 위해서는 저장 포맷, 방송 등에 응용되어야 한다. 따라서 대용량 비디오를 이러한 저장 매체나 방송 등에 응용하기 위해서는 효율적인 코딩 기법이 필요로 한다.
본 기고에서는 3D 비디오 코딩에 대해 MPEG에서이루어지고 있는 다양한 코딩 표준에 대한 간략한 소개를 하고자 한다. 먼저 MPEG-2부터 스테레오스코픽 관련해서 프로파일을 두어 이룬 표준을 소개할 것이다. 그리고 최근 각광을 받고 있는 H.264/AVC 코딩 표준을 기반으로 한 Multiview Video Coding 표준에 대해 소개한다. 마지막으로 현재 MPEG에서 진행 중인 3DV라는 3D 비디오 코딩 표준화의 의미와 논의 사항을 정리하였다.

II. 3D 비디오 코딩 표준

1. MPEG-2 Multi-View Profile(MVP)
스테레오스코픽 비디오에서는 좌우 영상 2개만을 다루고 있다. 이 때 좌/우 영상은 인간의 양쪽 눈 간격만큼 벌어진 거리에서 촬영한 것이 가장 이상적일 것이다. 이렇게 얻어진 좌/우 영상을 코딩하기 위한 기본적인 방식은 한 개의 영상으로 다른 영상을 쉽게 예측할 수 있을 만큼 둘간의 영상이 매우 유사한 점이 많다는 사실을 이용하는 것이다.
1990년대 중반에 MPEG-2 비디오 표준는 매우 성공적으로 표준화를 끝마쳤으며 이에 바로 스테레오스코픽 영상 코딩을 위해 MPEG-2 Multi-View Profile(MVP) 표준을 완성하였다[1][2]. 이는 좌/우 비디오 코딩을 위해 기본 계층과 향상 계층을 둘 수 있는 비디오 코딩 개념을 가지고 있다. 기본 계층은 MPEG-2 Main Profile로 코딩을 하고 향상 계층은 두 비디오간의 유사성을 가지고 다른 한쪽의 비디오를 효율적으로 코딩할 수 있는 temporal scalability 툴을 사용하고 있다. 이 표준에서는 기본 계층에서 좌측 영상을 코딩하고 향상 계층에서는 우측 영상을 코딩하게 되어 있다. 당연히 기본 계층으로 코딩된 좌측 비디오 비트스트림은 일반 MPEG-2 비디오 디코더에서 디코딩 가능한 호환성을 가지고 있다.

2.  MPEG-3 Part 3(ISO/IEC 23000-3)
일반적으로 스테레오스코픽 영상을 위해서는 좌측과 우측 영상이 각각 필요하다. 이런 방식과는 또 다른 방식이 있는데, 한 쪽은 컬러 영상만 코딩하고 이 컬러 영상에 해당하는 깊이 영상란 것을 별도로 코딩하는 것이다. 깊이 영상을 이용하게 되면 디코더단에서 디코딩된 컬러 영상 및 깊이 영상을 이용하면 나머지 다른 시점의 한쪽 영상을 영상 합성 기법을 통해 영상을 합성함으로써 스테레오스코픽 영상을 디스플레이상에 렌더링할 수 있게 된다. 깊이 영상은 실제 컬러 영상과 동일한 해상도를 갖는 영상으로서 각 픽셀값이 거리값을 표현하고 있어 각 픽셀이 카메라로부터 얼마만큼의 거리를 가지고 있는지를 알 수 있게 해준다. 일반적으로 깊이값은 8비트로 표현될 수 있으며, 0에서 254의 값을 갖게 된다. 유럽 공동 프로젝트인 ATTEST(Advanced Three-dimensional Television System Technologies)에서는 깊이 영상을 코딩하게 되면 보통 컬러영상을 코딩하는 것에 비해 10%~20%의 비트율만을 할당하여 사용해도 좋은 품질의 깊이 영상을 얻을 수 있음을 실험을 통해서 밝혀냈다. 이러한 사실을 바탕으로 2007년 MPEG-3 Part 3라고 알려진 “ISO/IEC 23002-3: Representation of Auxiliary Video and Supplemental Information”의 표준이 완료되었다[3]. 본 표준에서는 깊이 영상을 위한 특별한 코딩 알고리즘을 채택한 것이 아니라 단지 깊이 영상 또는 부가 영상에 대한 정보만을 표현할 수 있는 High-level syntax와 기타 추가 정보의 표현 방식만을 정의하고 있다. 특히, H.264/AVC(ISO/IEC 14496-10) 표준에서도 부가 비디오를 담을 수 있도록 선택 사항을 두고 있으며 이때 깊이 영상 코딩은 H.264/AVC로 하게 되어 있다.
여기서의 어려운 점은 깊이 영상 획득이다. 깊이 영상은 보통 카메라로 획득할 수 없으며, 특수한 장치를 갖춘 장비로 촬영해야 하고 현재까지의 기술로는 정확한 깊이 영상을 획득하기는 많은 어려움이 존재한다. 사실 깊이 영상이 정확해야만 이를 통해 합성되는 영상의 품질이 좋아지기 때문에 좋은 품질의 깊이 영상을 얻는 것이 이 표준을 사용하기 전에 해결해야 할 선행 과제이다.

3.  Multiview Video Coding(MVC)
대부분 3DTV 방송시스템에서는 일반적으로 동일한 장면을 다시점을 사용하여 촬영한 것을 시청자에게 제공하고자 한다. 여기서 가장 간단한 방법은 실제 여러 대의 카메라를 이용하여 각기 다른 시점에서 촬영한 영상을 모두 코딩하면 된다. 다시점 비디오 코딩은 H.264/AVC를 기반으로 하여 실제 표준화는 2009년도에 완성되었다. 보통 이를 H.264/AVC기반 Multiview Video Coding이며 줄여서 MVC라고 불린다.
Multiview Video Coding에서는 모든 카메라에서 획득된 영상이 조금씩 다른 각도에서 동일한 장면을 촬영하고 있기 때문에 서로는 높은 유사성을 가지고 있다는 성질을 이용한다. 따라서 시간적인 유사성을 이용하여 예측하는 temporal prediction 방식과 함께 인접 영상간의 유사성을 이용하는 inter-view prediction 방식을 동시에 사용하여 코딩 효율을 높이고자 한 것이 특징이다. 다시점 비디오 코딩을 H.264/AVC로 독립적으로 코딩한 것과 그림 1에서처럼 temporal/inter-view prediction과 계층적 B 픽처 구조를 사용한 것을 실험을 통해서 살펴본 결과로는 최소 0.5dB에서 최대 3dB까지의 효과가 있음이 밝혀졌다. 단점으로는 복잡도가 높고 많은량의 메모리가 요구된다는 것이다.

그림 1.  계층적 B 픽처 구조에서 Temporal/Inter-view prediction 구조를 갖는 MVC

4. 3DV
2000년대 초반부터 MPEG에서는 자유시점 비디오 코딩에 대한 논의가 이루어져 왔다. 실제 자유시점 비디오라는 것은 인간이 자유롭게 어떤 시점에 위치해 있을 때 사물이나 장면을 볼 수 있도록 하는 비디오 기술로서 이를 위해서는 반드시 영상 합성이 필요하게 된다. 이렇게 다양한 시점에서 사물이나 장면을 제공하기 위해서는 영상 합성을 위한 깊이 영상뿐만 아니라 다시점 비디오로 촬영된 다시점 컬러 영상이 요구된다. MPEG 내에서는 최근 2~3년 전부터 다시 자유시점 비디오 코딩에 대한 요구가 다시 일어나기 시작했고 현재까지 논의된 결과 무안경 다시점 디스플레이를 위한 3D Video Coding이라는 새로운 표준을 위한 ad-hoc 그룹이 만들어져 표준화가 진행되고 있다.
현재까지 3DV ad-hoc 그룹에서 논의된 결과인 3D Video Coding 표준을 위한 주요 요구사항[4]을 정리하면 아래와 같다.
– Video data format: 입력으로서 좌/우 영상이 포함된 스테레오 비디오를 지원해 한다.
– Supplymentary Data: 중간 영상을 합성할 수 있는 보조 데이터를 제공해야 한다. 보조 데이터로는 깊이 영상, 폐쇄 영역 표시 데이터, 분할 정도, 투명도 등이 있을 수 있다.
– Metadata: 카메라 파라미터, 장면 데이터, 최대/최소 거리 정보 등의 메타데이터가 지원되어야 한다.
– Compression efficiency: 컬러 영상과 보조 데이터는 현재 최신의 코딩 기술로 컬러 영상을 압축한 것보다 두 배를 넘지 말아야 한다.
– Synthesis accuracy: 데이터 압축의 영향은 합성 영상의 시각적 품질 왜곡을 최소화 하도록 한다.
– Backward compatibility: 압축된 데이터는 존재하는 코딩 표준을 사용하여 디코딩할 수 있는 스테레오와 모노 비디오 출력을 위해 비트스트림 추출을 할 수 있어야 한다.

향후, MPEG에서는 3DV ad-hoc 그룹을 중심으로 2~3년 동안은 상기의 요구사항을 만족하는 3D Video Coding을 위한 표준화가 진행될 것으로 예상된다.

III. 결론
3D 비디오 코딩에 대한 표준화 현황을 살펴보았다. 여기서 언급한 3D 비디오는 주로 시청자에게 입체감을 주기 위한 비디오 기술로서 3D 그래픽 기술과는 전혀 다른 표준화 기술이다. 특히, 3D 비디오 코딩 기술을 비디오 코딩 기술과 별개의 독립적인 기술이 아니라 이를 기반으로 한 코딩 기술임을 알아야 할 것이다.
과거 스테레오스코픽을 위한 비디오 코딩 표준부터 현재 진행 중인 깊이 영상을 이용한 3DV 코딩 기술까지 추이를 보면, 향후 3D 비디오서비스는 안경식에서 점차적으로 무안경으로 시장이 생길 것을 짐작할 수 있다. 하지만 MPEG 표준화 기술 대중화는 또한 시장의 성숙도와 소비자의 선택이 많이 좌우됨을 잊지말아야 할 것이다. 

Acknowledgement
"본 연구는 산업원천기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호: 2008-F-001-03, 과제명: 차세대 DTV 핵심기술 개발]”

참고문헌

[1]  B. Haskell, A. Puri, and A. Netrevali, Digital Video: An Introduction to MPEG-2, 1997.
[2] “Generic Coding of Moving Pictures and Associated Audio Information-Part 2: Video,” ITU-T Rec. H.222.0|ISO/IEC 13818-1 (MPEG 2Systems), ITU-T and ISO/IEC JTC 1, Nov. 1994.
[3] Text of ISO/IEC FDIS 23002-3 Representation of Auxiliary Video and Supplemental Information, ISO/IEC JTC1/SC29/WG11, Jan. 2007, Doc. N8768, Marrakesh, Morocco.
[4] Video and Requirements Group, “Applications and Requirements on 3D Video Coding” ISO/IEC JTC1/SC29/WG11 N10857, London, UK, July 2009.

 

방건, 허남호, 이수인, 이호진
한국전자통신연구원 방송통신융합연구부문