介绍

GPT-SoVITS 是花儿不哭大佬开发的低成本AI音色克隆软件,我们可以利用这个工具,克隆任何人的声音。
Github 项目地址:https://github.com/RVC-Boss/GPT-SoVITS
本地部署参考教程:https://www.bilibili.com/video/BV1P541117yn
Google Colab 参考教程:https://www.bilibili.com/video/BV1pb4y1N79s

部署

我是在自己的物理服务器上面部署的,配置是 E5 2670v2 + GT1030,操作系统是 Windows Server 2022 DataCenter。
先去 Github 下载预打包文件,解压到任意目录。注意:路径中不能有中文。
运行 go-webui.bat 文件,等几分钟,会自动打开浏览器。

勾选“是否开启UVR5-WebUI”,然后会打开一个新的窗口。

在“待处理音频文件夹路径”输入音频文件所在路径。
模型选择“H2_all_vocals”,自行指定输出文件夹,点击转换。
转换完成后,就可以关闭这个窗口了。
回到第一个窗口,
在“音频自动切分输入路径”填写处理好的人声音频所在路径。开启语音切割,显示切割结束就可以了。

然后点击“开启离线批量ASR”,等一下会提示“ASR”任务完成。

在“打标数据标注文件路径”填写打标文件路径,打标文件默认在 \output\asr_opt 文件夹内,勾选“是否开启打标WebUI”,然后会打开一个新的窗口。

在新窗口中,可以调整音频的文本,有错误的直接改就行了。
改好之后,点击“submit text” 保存结果,再点击 “save file” 保存文件,然后就可以关闭窗口。
切换到 GPT-SoVITS-TTS 选项卡,填写实验名称,名称不能有中文。然后填写标注文件路径和切割后音频文件的路径。

然后移动到网页最下方,开启一健三连。等一会就好了。

切换到“1B-微调训练”,开启 SoVITS 训练,完成之后,再开启 GPT 训练。

我在这一步卡住了,因为我的显卡很垃圾,爆显存了。
这时候,就需要用到 Google 的免费 GPU 服务器了。
在使用 Google Colab 之前,需要先注册一个 Google 账号,然后进入一键训练笔记本,链接地址:https://colab.research.google.com/github/KevinWang676/Bark-Voice-Cloning/blob/main/notebooks/GPT_SoVITS.ipynb
进入后点击“代码执行程序”,再点击“全部运行”,等几分钟,会输出 public URL。

然后,打开小写的“gpt-sovits”文件夹,上传音频文件,在点击 public URL,打开 WebUI。
重复上述步骤,有了 Colab 的帮助,我们就可以很轻松的训练模型了。
完成“SoVITS训练”和“GPT训练”之后,点击“1C-推理”,刷新模型路径,选择“GPT模型”和“SoVITS”模型,两个都是选择数值最大的。

然后勾选“开启TTS推理WebUI”,等几分钟,Colab 会输出新的 public URL,点击进入TTS推理。

然后上传参考音频,输入参考音频文本,填写需要合成的文本,点击合成语音,等一下就会输出合成的语音了。
有了 Colab 训练的模型,我就可以在我自己的物理服务器上面合成音频了。

最后修改:2024 年 01 月 30 日
如果觉得我的文章对你有用,请随意赞赏