2024年5月9日木曜日

概要

Retrieval-based-Voice-Conversion-WebUI というツールを見つけたので使ってみました
自分の音声から音声モデルを使って喋らせることができるようです

環境

自動で Python3.8 がインストールされます
試しに Python 3.10 以上で試したのですがライブラリのインストールでエラーになったので3.8を使います http://localhost:7865/ で起動します

なぜか hubert_base.pt やらいろいろ足りていないのでモデルをダウンロードします

https://github.com/RVC-Project/RVC-Models-Downloader/releases から rvcmd_darwin_arm64.tar.gz をダウンロードします
展開し Retrieval-based-Voice-Conversion-WebUI のルートに配置します

警告が出る場合は一度 Finder からクリックで起動して Open を選択することでターミナルからも実行できるようになります
実行すると必要なモデルを必要なパスに自動でダウンロードしてくれます

assets/hubert/hubert_base.pt がない場合は https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/hubert_base.pt こちらからダウンロードして配置してください

なぜか足りなかったので作成します

何でも OK です

パラメータはいろいろとチューニングできますが今回はデフォルトのままでいきます
まずは Train タブを選択します

UI 上にステップが記載されているのでそのステップ通りに進めます
ステップ1では名前とパラメータを設定します (基本はそのままで OK)
準備した音声ファイルを「Enter the path of the training folder」に入力し「Process data」を実行します

ステップ2の部分はそのままで OK です
あとはステップ3の「One-click training」を実行すれば OK です

これでモデルが生成できます

とりあえずモデルは生成できたので次回はこのモデルを使って話をさせてみます