IT
사람의 음성을 인공적으로 생성하는, 딥보이스
딥 러닝 기술을 이용하여 사람의 음성을 인공적으로 생성하는 기술.
텍스트 음성 변환(Text-to-Speech, TTS)이나 음성 합성 분야에서 활용되는 인공지능 기술로, 인간의 음성을 정교하게 재현하는 기술을 의미한다. 초기 텍스트 음성 변환 기술은 단순히 텍스트를 음성으로 변환하는 작업에 초점을 맞췄다면, 최근의 딥보이스는 대규모의 음성 데이터 학습을 바탕으로 인간과 유사한 억양, 강세, 음색을 재현하는 고도화된 기술을 활용하고 있다. 딥보이스 기술은 콘텐츠 제작과 접근성 향상의 측면에서 혁신적인 변화를 가져오고 있지만, 악용 시 존재하는 위험성은 사회적으로 많은 우려를 낳고 있다. 음성 합성과 음성 변환 딥보이스 기술은 크게 음성 합성과 음성 변환으로 구분된다. 음성 합성은 텍스트를 입력받아 음성으로 변환하는 기술이며, 음성 변환은 특정 화자의 음성 스타일을 학습하여 해당 스타일을 반영한 음성을 생성하는 기술이다. 음성 합성의 경우, 텍스트를 입력받아 음소(Phoneme)의 시퀀스로 변환하는 음운 추출 단계가 수행된다. 이 때 텍스트의 정보나 억양을 고려하여 발음 기호와 같은 정보를 생성한다. 이후, 중간 단계에서는 추출된 음소 시퀀스를 소리 구체화된 정보를 생성하고, 마지막으로 이를 실제 파형을 생성하는 방식으로 이루어진다. 음성 변환은 텍스트가 아닌 음성을 입력받아 화자 독립적인 콘텐츠 정보를 추출하는 과정을 거친다. 이는