본문 바로가기


DIGGING/Insight

[AIDEA] 쓰기만 하면 내 목소리로 말해준다고? AI VOICE

 

글 AI 스튜디오 고유진 CⓔM

 


 

* ‘AIDEA’는 AI와 IDEA의 합성어로 크리에이티브 아이디어에 AI를 결합한 사례를 다룹니다. 이번 글에서는 롯데어워즈에서 상영했던 창업주 격려사 사례를 통해 Voice 생성 AI인 ‘Eleven Labs’를 소개합니다.

 

대홍기획 AI 스튜디오는 국내 최초, 국내 유일의 Non-shooting film 제작 스튜디오입니다. AI를 어떻게 크리에이티브에 녹여낼지, 더 크리에이티브한 활용 방안은 없는지, AI가 끼칠 수 있는 선한 영향력은 없을지 고민하며 다양한 클라이언트와 함께하고 있습니다.

롯데어워즈는 매년 도전과 혁신 정신으로 고객가치를 창출한 성과를 격려하고 전파하기 위해 개최됩니다. 올해 행사를 위해 신격호 창업주의 목소리로 전하는 격려사 영상을 AI STUDIO에서 제작했는데요. AI 기술로 신 창업주의 목소리를 복원해 임직원들에게 도전과 혁신을 이어가자는 응원의 메시지를 담았습니다.

 

대홍기획 AI 스튜디오에서 AI 기술을 바탕으로 롯데 신격호 창업주의 목소리로 전하는 격려사 영상을 제작했다. 영상 내 48분 26초부터 들을 수 있다. 

 

AI가 구현해내는 자연스러운 목소리, Eleven Labs

 

거의 완벽한 보이스 복제 AI로 많은 우려와 함께 발전하고 있는 Eleven Labs를 소개합니다. Eleven Labs는 발렌시아가 버전의 해리포터 영상에서부터 활용됐던, 꾸준히 개발 중인 AI입니다. 당시만 해도 목소리에 약간의 일반 TTS처럼 부자연스러움이 있었지만 현재로서는 거의 완벽하게 자연스러워진 상황입니다.

Eleven Labs의 압도적인 성능은 다양한 언어로 구동된다는 데서 드러납니다. 영어 보이스를 학습시켜 한국어로 출력하는 것도 가능하고 반대도 가능합니다. 대략 29개의 언어가 서로 호환됩니다. 다른 언어인데도 불구하고 말투가 재현되는 기술이 대단합니다.

Eleven Labs 자체에서 제공하는 목소리들도 있지만 무엇보다 Eleven Labs를 주목받게 만드는 기술은 Voice Cloning입니다. 특정인의 목소리를 10 문장에서 20 문장 정도, 더 정교하길 원한다면 30초에서 1분 정도의 스피치를 Eleven Labs에 입력해줍니다. 잠시 후면 Eleven Labs가 이를 분석하고 목소리를 복제하는데요. 이때부터는 기존의 TTS처럼 어떤 문장이든 읽도록 할 수 있습니다. 한 번에 원하는 결과물이 나오진 않지만, 여러 번 읽도록 하면 몇 번 지나지 않아 자연스러운 목소리가 생성됩니다.

 

 

Voice Cloning은 다른 방식으로도 가능한데요. 기존의 Text to Speech 방식이 아닌 Speech to Speech 기능입니다. 목소리를 통째로 변환하는 기술로 녹음 파일을 입력하면 다른 목소리로 바꿔줍니다. 기존의 음성 변조 기술처럼 높낮이를 조절하거나 누구인지 못 알아보게 하는 기술이 아닙니다. 아예 다른 사람의 목소리인 것처럼 바꿔주는데요. Text to Speech 보다 더 유용한 점은 목소리의 강약이나 맥락을 좀 더 원하는 대로 조절할 수 있다는 점입니다.

Voice Cloning 기술이 나레이션에서는 유용하지만 아직 연기나 리액션 등 감정을 담기에는 부족함이 있는데 Speech to Speech 기능을 사용하면 이를 보완할 수 있습니다. 다만 단점은 원본 음성의 발음이 정확해야만 AI가 바르게 인식한다는 것입니다.

AI 보이스 기술의 활용에는 많은 고민과 사회적 합의, 각 개인의 윤리의식 제고와 실천이 필요합니다. 연예인, 성우 등의 목소리를 악용하거나 타인의 목소리를 복제해 이용하는 시대를 대비해야 합니다. 목소리 복제를 실현하는 비용도, 시간도, 난이도도 매우 낮아졌기 때문에 자신이 하지 않은 말이 마치 자신이 한 것처럼 인터넷을 돌아다닐 수 있는 날이 눈앞에 다가왔습니다. AI STUDIO에서도 이와 같은 문제들을 미연에 방지하기 위해 임직원 스스로의 목소리로 테스트하거나 꼼꼼하게 감수를 받고 있습니다.

 

이런 팁을 적용해보세요!

Eleven Labs에서 뜻대로 결과물이 생성되지 않는다면 쉼표와 마침표, 느낌표와 물결표 등의 기호를 적극 활용해보세요. Eleven Labs는 그 어조 차이를 인식합니다. 예를 들어서 “안녕하세요” “안녕하세요~” “안녕하세요!” 이 셋 모두가 일레븐 랩스에서 전혀 다른 톤으로 출력됩니다.

또 하나의 팁은 발음 그대로 입력하는 것입니다. 일레븐 랩스가 한국어와 한글을 굉장히 잘 인식하지만, 한국인만 알 수 있는 차이를 반영하지 못한다면 연음이나 두음법칙, 구개음화 등을 직접 입력해주세요. 예를 들면 “국물을 국자로 떴다”와 같은 문장을 “궁무를 국짜로 떴다” 이렇게 입력해주는 겁니다. 한 음절, 한 음절 세세하게 신경쓸수록 더 자연스럽게 한국인이 말하는 듯한 보이스가 완성됩니다.

 

프로젝트를 마치며

AI가 더 잘할 수 있는 일, AI라서 할 수 있는 일, AI가 해서 의미가 있는 일의 세 가지 모두에 해당했던 프로젝트였습니다. 롯데어워즈의 창업주 격려사 영상은 신 창업주의 목소리를 복원하는 것으로 시작됐는데요. 생전의 목소리를 재현하는 과정이 흥미롭고 의미 깊었습니다. 이 프로젝트를 진행하면서 이제 세상에 없어서 그리운 분들의 목소리를 다시 들려주는 방식으로도 보이스 AI가 긍정적으로 활용될 수 있다는 것을 알았습니다. AI 보이스의 영역은 점점 더 넓어질 것으로 예상됩니다. 이번 롯데어워즈 창업주 격려사 프로젝트처럼 새로운 기술이 새로운 감동을 줄 수 있는 계기가 되도록 AI STUDIO도 더욱 노력하겠습니다.

 

앞으로도 다양한 AI 툴을 크리에이티브에 접목한 사례를 소개할 예정이니 많은 관심 부탁드립니다. 사용팁이 궁금한 생성형 AI, 혹은 제작 과정이 흥미로운 AI 스튜디오의 결과물이 있다면 메일로 보내주세요. 글의 소재에 최대한 반영하겠습니다.

 

 

 


top