hughie·2 years ago

前言

本文简单记录介绍一下VITS-fast-fine-tuning。

VITS-fast-fine-tuning是一个VITS的微调训练库，可以快速克隆出想要的角色声音。

正文

一、什么是VITS-fast-fine-tuning

快速克隆音频中角色的声音。

二、VITS-fast-fine-tuning功能

在模型所包含的任意两个角色之间进行声线转换；
对自定义角色声线进行中日英三语TTS。
支持多种方式微调：
- 从10条以上的短音频克隆角色声音
- 从3分钟以上的长音频克隆角色声音（单个音频只能包含单说话人）
- 从3分钟以上的视频克隆角色声音（单个视频只能包含单说话人）
- 通过输入bilibili视频链接克隆角色声音

三、VITS-fast-fine-tuning使用与训练

微调自定义角色

制作数据
使用Google Colab在线训练
或者本地训练，查看教程,需要Cuda相关依赖，下载项目代码和预训练模型，比较麻烦，直接用Colab训练简单

使用与推理

下载微调好的模型和config文件
下载最新的Release包（在Github页面的右侧）；
把下载的模型和config文件放在 inference文件夹下, 其文件名分别为 G_latest.pth 和 finetune_speaker.json；
一切准备就绪后，文件结构应该如下所示:

inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth

运行 inference.exe, 浏览器会自动弹出窗口, 注意其所在路径不能有中文字符或者空格；
请注意，声线转换功能需要安装ffmpeg才能正常使用。

四、总结

项目降低了微调自定义角色声音的难度，对于微调好的模型也提供了打包好的程序直接调用，非常易用。

最后

参考文章：

官方项目

声明

本文仅作为个人学习记录。

本文与HBlog保持同步。

xLog

54641-35

Drag and drop your files here

Loading comments...

Crossbell Chain

Transaction details

0x44c6a43cc60dea131ae2647a651a327e2e4a5d5ae0cd9b3e348c60846c7defef

Author address

0xa869a52bc01f2de7f9e32f6b0f3cd8ee85e31d2e

IPFS

IPFS address

ipfs://bafkreih5vgtbstzyga64j3pcp7bgyxpgccjxngob6tfmjx2ussavquueyq

Source

前言

正文