本文简单记录介绍一下VITS-fast-fine-tuning。
VITS-fast-fine-tuning是一个VITS的微调训练库,可以快速克隆出想要的角色声音。
快速克隆音频中角色的声音。
在模型所包含的任意两个角色之间进行声线转换;
对自定义角色声线进行中日英三语TTS。
支持多种方式微调:
制作数据
使用Google Colab在线训练
或者本地训练,查看教程,需要Cuda相关依赖,下载项目代码和预训练模型,比较麻烦,直接用Colab训练简单
下载微调好的模型和config文件
下载最新的Release包(在Github页面的右侧);
把下载的模型和config文件放在 inference
文件夹下, 其文件名分别为 G_latest.pth
和 finetune_speaker.json
;
一切准备就绪后,文件结构应该如下所示:
inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth
运行 inference.exe
, 浏览器会自动弹出窗口, 注意其所在路径不能有中文字符或者空格;
请注意,声线转换功能需要安装ffmpeg
才能正常使用。
项目降低了微调自定义角色声音的难度,对于微调好的模型也提供了打包好的程序直接调用,非常易用。
参考文章:
本文仅作为个人学习记录。
本文与HBlog保持同步。