본문 바로가기
취미공간/AI 관련

AI 목소리 학습 시켜서 노래 커버 만들기 #1

by 현명한 올빼미 2023. 11. 2.
728x90

 안녕하세요~  잡동사니 모으는 블로그입니다!

 

요즘 유튜브에 ai 노래커버 영상이 많이 올라오고 있는데요~

 

저도 좋아하는 트위치 스트리머의 목소리로 AI 노래 커버를 만들고 싶어서 하는 방법을 찾아봤습니다!

 

그 과정에서 알게 된 내용과 팁을 공유해 드리겠습니다~

 

그럼 바로 포스팅 시작하겠습니다!

 

 

 

준비물

 

 

적당한 사양의 컴퓨터 :

저 같은 경우 라이젠 3500X  RTX2070 16기가 사용하고 있는데 별 문제없었습니다~

음성 편집 프로그램을 써서 퀄리티를 높이려는 경우 사양을 조금 타지만 나머지는 코랩 GPU를 쓰기 때문에 낮은 사양이 딱히 애로사항이 되진 않을 것 같습니다!

 

많은 시간 :

학습시킬 목소리를 준비하는 시간과 학습시키는 시간이 제일 많이 걸리는데요~

저는 2시간 정도 목소리를 준비했고 학습시키는데 10시간 정도 걸렸네요!

학습은 컴퓨터가 해주기 때문에 다른 일을 하고 있어도 되지만 너무 오래 가만히 두면 자리비움 경고가 뜨기 때문에 중간중간 확인해 주어야 했습니다.(대략 4~5시간?)

 

COLAB 프로 가입할 돈 :

아쉽게도 코랩에서 무료로 할 수 없게 해 놔서 코랩 프로를 결제해야 하는데요~

9.99$로 지금 한화로는 13500원 정도를 결제를 해야 하네요!

결제 후에 100 컴퓨팅 단위를 주는데 통신사 4G랑 비슷하게 100 컴퓨팅을 소진하면 느린 속도의 GPU와 메모리가 배정되는 것 같습니다.

 

적당한 저장공간 :

결과물 퀄리티를 높이기 위해 프로그램을 사용할 정도의 공간이 필요합니다~

 

 

 

 

순서

 

 

1. 학습데이터 준비 :

 

우선 목소리 데이터가 필요합니다.

 

스트리머의 유튜브 다시 보기를 통해 5~20분 정도 분량의 오디오파일을 준비합니다.

 

2. 데이터 전처리 :

 

작업 퀄리티를 높이기 위해 오디오 편집 작업을 해줍니다.

 

3. RVC Creape v2 코랩 목소리 학습 :

 

코랩에서 준비된 목소리 데이터를 가지고 학습을 시킵니다.

 

이 구간에서 시간이 많이 소요됩니다.

 

4. 노래 음성 분리하기 :

 

합성할 노래를 정하고 보컬 부분과 멜로디를 분리합니다.

 

 

5. EAEY GUI 코랩 음성 합성하기 :

 

코랩을 통해 분리된 보컬과 학습시킨 목소리 데이터를 합성합니다.

 

합성음성을 다시 멜로디와 결합시키면 끝!

 

 

 

 

 

1. 학습데이터 준비

 

우선 좋은 목소리 데이터를 준비해야겠죠?

 

노래하는 목소리를 가져와도 되고 평소 말하는 목소리를 가져와도 되는데요~

 

노래를 잘 부르시는 사람의 경우 노래하는 목소리를 가져와서 전처리 후에 사용하면 되고 평소 목소리 특색을 가진 결과물을 얻으려면 평소 목소리를 사용하면 됩니다!

 

노래하는 목소리와 평소 말하는 목소리가 다른 경우 두 목소리를 같이 쓰면 결과물이 이상해지니깐 참고하세요~

 

 

그럼 먼저 목소리를 가져오기 위해 유튜브에서 적당한 영상을 찾아봅시다~ 

 

저는 찾은 뒤에 YT-DIP를 이용해서 오디오로 잘라 왔는데요~

 

가장 오디오 손실을 적게 내서 추천 합니다!

 

(YT-DIP 쓰는 방법은 추후 포스팅 해보도록 하겠습니다)

 

 

웹을 이용한 간단한 방법도 있는데요~

 

밑에 사이트를 통해서 오디오 부분을 추출해 올 수 있습니다!

 

https://yout.com/

 

위에 사이트에 들어가 신다음 유튜브 주소를 넣고 구간을 설정해서 WAV 형식으로 다운로드하면 됩니다~

 

 

 

제목을 적어 주시고 다운로드를 해줍니다~

 

저는 bgm이 없는 저챗 영상을 찾기 힘들어서 게임소리가 작은 온리업 플레이 영상을 통으로 다운로드하여서 필요 없는 부분을 잘라서 써보도록 하겠습니다!

 

만약 저챗으로 오로지 음성만 들어있는 구간을 찾아서 쓰신다면 따로 전처리를 하실 필요가 없습니다~

 

 

 

2. 데이터 전처리

 

사용할 수 있는 전처리 TOOL

 

 

1. premiere pro나  DaVinci Resolve 같은 편집 프로그램

 

필요 없는 구간의 음성을 잘라서 없애는 프로그램입니다~

 

Davinci Resolve는 무료로 사용이 가능하기 때문에 추천합니다!

 

 

 

2. UVR

 

목소리와 그 외 소리로 나누어 줄 수 있는 프로그램인데요~

 

목소리 외 잡음을 없애주고 노래음성 분리 할 때도 잘 써먹을 수 있습니다!

 

 

데이터 전처리를 잘해야 좋은 결과물이 나옵니다~

 

 

 

나머지는 추후 포스팅..

 

생각보다 너무 길어질 것 같아서 구간별로 나눠서 글을 쓸 건데요~

 

다음에는 제가 프로그램을 써서 전처리하는 과정을 보여드리겠습니다!

댓글