[방송기술저널 전숙희 기자] 한국전자통신연구원(ETRI)은 세계 주요 24개 언어를 음성으로 인식하고 문자로 변환할 수 있는 ‘대화형 인공지능(Conversational AI) 기술’을 개발했다고 밝혔다.
ETRI가 개발한 음성인식 기술의 성능은 구글 등 글로벌 업체와 비교해 한국어에서는 우위, 타 언어에서는 대등한 수준으로 나타났다.
음성인식 기술을 개발하기 위해서는 대규모 학습 데이터가 필요한 어려움이 있으나 ETRI는 △자기 지도학습 △의사 레이블 적용 △대용량 다국어 사전 학습 모델 △음성 데이터의 오디오 데이터 생성(TTS) 증강 기술 등을 통해 이를 해결했다.
또한, 기존에 흔히 활용하던 종단형(End-to-End) 음성인식 기술의 단점을 개선해 활용성을 높였으며, 응답 속도가 느린 문제는 스트리밍 추론 기술을 개발해 실시간 처리가 가능하도록 개선했다.
이와 함께 의료와 법률, 과학기술 등 특정한 도메인에 대한 음성인식 특화가 쉽도록 하이브리드 종단형 인식 기술도 개발해 적용했다.
ETRI는 지난 2020년 종단형 음성인식 기술을 개발해 30여 개 국내외 기업에 기술을 이전했으며, ▲회의록 작성 ▲자막 통역 ▲키오스크 ▲의료·교육 ▲AI 컨택센터 등 다양한 AI 서비스에 활용되고 있다.
ETRI는 “이번 다국어 확대와 응답 속도 지연 해결 등 신기술 적용을 통해 음성인식 기술 활용 범위를 확대하고 사업화를 추진할 예정”이라면서, “특히, 올해 안으로 지원 언어를 30여 개로 확대하고, 국내외 전시 참여와 기업체 설명회를 통해 동남아와 남미, 아랍권 등을 대상으로 사업화를 적극 추진할 계획”이라고 설명했다.
김상훈 ETRI 복합지능연구실 책임연구원은 “국내 기술로 글로벌 선도 업체와 대등한 수준의 음성인식 기술을 개발했다는 데 의의가 있다”면서 “이번 기술이 우리나라 인공지능 분야의 글로벌 경쟁력을 높이고 기술자주권을 확보하는 데 큰 도움이 되길 바란다”고 말했다.
이번 기술은 과학기술정보통신부 ‘자율성장형 복합인공지능 원천기술연구’ 사업의 일환으로 개발됐다. 사업 기간 ETRI는 국내외 논문 17편, 특허 43건, 기술이전 20건과 19억 원의 기술료 수입을 거뒀다.