概要
Bark は事前に学習された音声モデルを使って与えた文章を読み上げることができる transformers で扱えるツールです
今回はデフォルトの音声モデルを使ってとりあえず文章を読ませてみました
最終的には音声データが作成できます
環境
- macOS 14.4.1 (M2Pro Mac mini)
- Python 3.12.2
- bark 0.1.5
インストール
- pipenv install bark
サンプルコード
import os
from bark import SAMPLE_RATE, generate_audio, preload_models
from IPython.display import Audio
from scipy.io.wavfile import write as write_wav
# AppleSillicon上で動作させるための設定
os.environ["SUNO_ENABLE_MPS"] = "True"
# 事前学習済みの音声モデルのダウンロード(全部10GBほどあるので注意
preload_models()
# 音声モデルに喋らせる文章の準備
text_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
# 音声モデルから実際に音声を作成する
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
# 音声の再生
Audio(audio_array, rate=SAMPLE_RATE)
モデルは ~/.cache/suno/bark_v0/fine_2.pt
などにダウンロードされます
動作確認
サンプルコードを実行すると自動で音声が再生されます
サンプルコードは英語ですが日本語でも普通に再生されました
最後に
bark で TTS をとりあえず試してみました
これを応用して自分の声の音声モデルを作成すれば自分のクローンが作れます
また歌を歌ってもらうこともできるようです
初回にダウンロードするモデルのデータがかなり大きいのでディスクの容量に注意してください
M2 Mac の場合 GPU 対応していないので少し時間がかかります
低スペックのマシンだと音声を生成するのにかなり時間がかかるかもしれません
喋らせる文章が長ければ長いほど実行にも時間がかかります
成功した場合の音声ファイルは 1MB 弱ですが失敗すると100MBほどになりビープ音みたいな感じになることもあったので失敗する場合は再度実行してみてください
0 件のコメント:
コメントを投稿