본문 바로가기
취미공간/AI 관련

AI 목소리 학습 시켜서 노래 커버 만들기 #3

by 현명한 올빼미 2023. 11. 7.
728x90

안녕하세요 ~ 잡동사니 모으는 블로그입니다!

 

오늘은 저번에 이어서 데이터 전처리하는 방법 중에 Ultimate Vocal Remover를 이용해 목소리에 잡음을 제거하는 방법을 포스팅해보도록 하겠습니다.

 

굳이 프로그램을 깔지 않아도 가우디오 스튜디오를 이용하면 웹에서도 분리 하실 수 있는데요~

 

퀄리티도 높고 사양을 타지 않지만 분리할 때 시간을 많이 잡아 먹기 때문에 UVR5를 직접 깔아서 해보겠습니다.

 

 

Ultimate Vocal Remover 다운로드

 

우선 UVR을 먼저 다운로드하여봅시다~

 

https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6

 

Release v5.6 - UVR GUI · Anjok07/ultimatevocalremovergui

General Release Information UVR Version 5.6 includes the following: Full Demucs v1, v2, v3, & v4 compatibility. Full MDX23C compatibility. Brand new MDX23C models available via the Download Cent...

github.com

 

위에 링크를 들어가 신다음 윈도우용 Main Download Link를 클릭해 줍니다.

 

1.6기가 정도의 파일이 다운로드되는데요~

 

 

 

다운로드한 파일을 실행해서 인스톨해줍니다~

 

저는 한번 다운로드했었기 때문인지 바로 D드라이브에 설치가 됐네요!

 

 

자 이렇게 무사히 실행을 시켰으니 쓰는 방법을 알아봅시다!

 

 

UVR5 사용법

 

우선 UVR5을 이용해 사용할 수 있는 모델이 여러 개가 있는데요~

 

MR과 보컬을 분리할 때 가장 많이 사용한다는 Kim Vocal 1 모델을 다운로드하여 보겠습니다!

 

다운을 다 받았으면 써봐야겠죠? 

 

저는 전에 포스팅에서 만든 노래 부르는 목소리 데이터의 MR을 분리해 보겠습니다.

 

 

1. Select Input 버튼을 눌러서 분리할 오디오파일을 넣어줄게요~

 

그리고 그 밑에 Output 버튼을 눌러서 분리된 파일이 나오는 위치를 설정해 줍시다!

 

2. 다운로드한 모델이 종류에 따라 프로세스 메서드탭에서 나뉘는데요~

 

아까 다운로드한 Kin Vocal은 MDX-Net 탭에 있으니깐 찾아서 선택해 주세요!

 

3. 그리고 Start Processing 클릭

 

그 외에 설정들은 다 디폴트로 놓으시면 되고 GPU Conversion 만 체크해줍시다.

 

 

 

 

이렇게 분리가 끝났는데요~ 

 

한번 어떻게 분리 됐는지 짧게 올려드리겠습니다!

 

 

 

 

이렇게 MR과 목소리가 잘 분리가 됐습니다~

 

하지만 이대로 쓰면 안 되고 아직 남아있는 에코까지 제거해 보겠습니다!

 

Kim Vocal 다운로드하였던 것처럼 Reverb HQ를 다운로드하여서 분리해 봅시다.

 

 

 

MDX-Net 탭에서 다운받아서 아까 MR을 제거한 보컬 부분을 한 번 더 분리합시다~

 

 

 

자 분리가 끝났으니 한번 들어보겠습니다!

 

 

생각보다 잘 분리가 됐는데요~

 

저는 중간중간에 제대로 분리 안된 부분이 섞여있어서 한번 더 필요 없는 부분을 잘라내서 쓰도록 하겠습니다.

 

UVR로 먼저 잡음을 제거한 다음 음성을 편집하면 굳이 두 번 하지 않아도 되겠죠?

 

Kim Vocal랑 Reverb HQ 말고도 화음을 제거해 주는 Karaoke2도 있는데요~

 

전체적으로 지지직 거리는 부분이 완화되기 때문에 사용해 주는 게 좋습니다!

 

추가적으로 VR Architecture나 Demucs 탭에서도 똑같은 기능을 가진 분리모델들이 있습니다~

 

만약 분리된 데이터가 맘에 안 들면 이쪽 모델을 써보셔도 됩니다!

 

조금이지만 부분마다 차이가 있습니다.

 

 

그 외로 목소리로 코러스가 들어간 부분은 없애기 힘들기 때문에 편집할 때 과감하게 쳐내주시면 됩니다.

 

 

 

(분리의 흔적..)

 

 

나머지는 다음 포스팅에서

 

다음 포스팅에서는 이제 작업한 데이터를 가지고 목소리를 학습시켜 볼 건데요~

 

코랩 데이터 학습 모델을 이용하기 때문에 코랩 프로 결제와 긴 학습시간이 필요합니다!

 

학습할 때 저는 (말하는 목소리 80% +노래목소리 20%) 데이터와 (노래 목소리 80% + 말하는 목소리 20%) 두 가지 버전으로 데이터를 학습시켜서 다음 포스팅에서 비교해 보겠습니다.

 

끝!

 

 

댓글