概要

前回安定バージョンの RVC WebUI を動かし音声データからモデルを生成するところまでやりました
今回は作成した音声モデルを使って音声の変換をしてみたいと思います

環境

macOS 14.4.1 (M2Pro Mac mini)
Python 3.9.18
RVC WebUI (updated1006v2)

準備

音声を変換する音源を準備しましょう
何でも OK ですができれば単純な文章読み上げがいいかもしれません
自分は適当な歌を mp3 ファイルとして用意しました

声の変換

RVC WebUI を起動してアクセスします

「Model Inference」タブを選択します
そして「Inferencing voice」に前回作成した音声モデルファイル (pth) を設定します
更に音声を変換したいファイルを「Enter the path of the audio file to be processed (default is the correct format example)」にフルパスで指定します

動作確認

成功すると以下のようなログが流れて RVC WebUI 上で音声を再生できるようになります
ダウンロードも可能で audio.wav というファイル名で保存されます

2024-05-10 09:06:14 | INFO | infer.modules.vc.pipeline | Loading rmvpe model,assets/rmvpe/rmvpe.pt
2024-05-10 09:06:52 | INFO | httpx | HTTP Request: POST http://localhost:7865/api/predict "HTTP/1.1 200 OK"
2024-05-10 09:06:52 | INFO | httpx | HTTP Request: POST http://localhost:7865/reset "HTTP/1.1 200 OK"

聞いてみると学習させた音声モデルで変換されていることが確認できると思います

トラブルシューティング

ValueError: mode must be 'r', 'w', or None, got: rb

音声を変換するファイルを指定した際にエラーになりました
av ライブラリのバージョンを下げるとうまく動作するようです

. ./.venv/bin/activate
pip install --force-reinstall -v "av==11.0.0"
deactivate
./run.sh

参考

最後に

RVC WebUI で音声変換できるところまでやってみました
基本の流れは今回紹介した方法なのであとはモデルを生成するときのチューニングや学習させる音声データのクリーニング、分割をしてモデルの精度をあげましょう
できれば学習させる際の音声データは歌などではなく会話が良いかなと思います
そして変換/推論する際にもパラメータがいくつかあるのでこれもチューニングしましょう
推論する際は歌などでも全然 OK ですができれば推論もアカペラなど BGM がない音源を準備できると良いかなと思います

参考サイト

https://toranoana-lab.hatenablog.com/entry/2023/12/22/120000

hawksnowlog

2024年5月11日土曜日

RVC WebUI を使って音声の変換をする

概要

環境

準備

声の変換

動作確認

トラブルシューティング

最後に

参考サイト

0 件のコメント:

コメントを投稿