现阶段而言,我非常,非常,非常,十分的不建议用大伴奏声音,快节奏,女声、高音的歌手尤其是这些debuff叠在一起的时候,用来人声分离去训练模型,这完全是在折磨自己,而且也不会有一个好的结果
我已经试过四次了,别再试了
2023-09-03 我试着批量转换了一些歌曲结果是Kim_vocal_2人声部分出现了大量的伴奏人声混合、变闷、杂音的问题,反而伴奏是完美的。我怀疑这个模型演我,除了下面试验那些歌曲其他的大多数都不行就离谱,浪费时间
:p[本文具有时效性,未来可能不会及时更新]{.center}
由于之前训练过RVC模型,但是效果不是很好,demucs v4模型虽然分离效果比较好,但是人声会有概率变闷。
本文不会使用付费产品测试。虽然团子ai效果真的不错,堪称灾难级的歌都能完美分离
没发现十几天前RVC更新了,更新提取音高算法新版破音情况会减少,结果我几天前以为用不到了直接把模型删了,还得重新训练
:p[本测试使用人耳试听得出的结果,不同歌曲不同参数可能会导致不同结果,如果有更好的参数欢迎在评论区纠正]{.center}
:p[注意!!!本文中使用的女声不一定为女性歌手😹,当然男声也是一样的😹]{.center}
:p[满分100分,但分数不可能会是满分,因为分离后和录制原声一定会有差别]{.center}
:p[有些音乐找不到了,没办法放出 怕DMCA]{.center}
去人声仅伴奏,除了旧模型,多数模型效果都很好,本文不测试了
采用网上广受好评的几个人声模型
MDX23参数参考MVSep榜
:p[无人声时总会有些伴奏声音,剪掉即可,下文不再说这个问题]{.center}
使用colab运行
电脑跑不动,炸显存,colab运行占13.8g显存
BigShifts_MDX = 21
overlap_MDX = 0
overlap_MDXv3 = 20
weight_MDXv3 = 6
weight_VOCFT = 5
weight_HQ3 = 2
overlap_demucs = 0.8
output_format = 'FLOAT'
vocals_instru_only = True
if vocals_instru_only:
vocals_only = '--vocals_only true'
else:
vocals_only = ''
chunk_size = 1000000
其他模型使用UVR默认参数
不抱希望了已经
测试音频,高BPM,长时间爆音,部分时间伴奏比人声音量大,人声伴奏完全混在一起,也许找到的是音乐音质有点低。林檎音乐卖204日元(没买)。debuff叠满了属于是
这首歌比较神奇的是,伴奏人声混在一起听是没问题的,拆分后人声就会有音质低的问题,伴奏倒是啥事没有,可能是伴奏声音太大了罢
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 50 | 混着乐器声音,声音变闷 |
MDX23 | 70 | 轻微混着乐器声音,伴奏音量大时声音有杂音 |
htdemucs_ft | 40 | 混着伴奏声音,声音变闷,杂音 |
Kim_vocal_2 | 65 | 比较严重的声音变闷,杂音 |
4_HP_Vocal_UVR | 35 | 混着很大伴奏声音,声音变闷,杂音 |
主要乐器为吉他,在RipX分离效果已经很不错了
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 80 | 混着乐器声音 |
MDX23 | 90 | 轻微混着乐器声音 |
htdemucs_ft | 90 | 轻微混着乐器声音 |
Kim_vocal_2 | 85 | 长时间轻微混着乐器声音 |
4_HP_Vocal_UVR | 85 | 混着乐器声音 |
使用了同一首歌,伴奏有些许不同 笑死,根本找不到一样的 虽然不知道为什么BPM变得这么高
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 95 | 近乎完美 |
MDX23 | 98 | 近乎完美 |
htdemucs_ft | 93 | 部分轻微伴奏 |
Kim_vocal_2 | 97 | 近乎完美 |
4_HP_Vocal_UVR | 96 | 近乎完美 |
不同版本的心做し和恋愛裁判
恋愛裁判伴奏相同
不同歌曲可能🤔歌手不同
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 80 | 少部分声音变闷 |
MDX23 | 95 | 近乎完美 |
htdemucs_ft | 95 | 近乎完美 |
Kim_vocal_2 | 95 | 近乎完美 |
4_HP_Vocal_UVR | 85 | 轻微伴奏 |
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 75 | 轻微伴奏,轻微杂音 |
MDX23 | 90 | 轻微伴奏 |
htdemucs_ft | 80 | 人声混伴奏 |
Kim_vocal_2 | 90 | 轻微伴奏 |
4_HP_Vocal_UVR | 85 | 轻微伴奏,轻微杂音 |
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 75 | 轻微伴奏,轻微杂音 |
MDX23 | 95 | 近乎完美 |
htdemucs_ft | 85 | 轻微伴奏,也许有些变闷 |
Kim_vocal_2 | 95 | 近乎完美 |
4_HP_Vocal_UVR | 70 | 伴奏人声混在一起 |
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 70 | 开始伴奏被识别为人声,轻微伴奏,偶尔声音变闷 |
MDX23 | 90 | 轻微伴奏 |
htdemucs_ft | 80 | 人声混伴奏 |
Kim_vocal_2 | 85 | 轻微伴奏,有时突然出现较大伴奏声音,伴奏部分被识别为人声 |
4_HP_Vocal_UVR | 65 | 开始伴奏被识别为人声,轻微伴奏,杂音 |
这首歌伴奏声音较小
????居然出奇的不错
模型 | 分数 | 注释 |
---|---|---|
RipX软件内置 | 65 | 部分伴奏被识别为人声,有时伴奏人声混在一起,有些变闷 |
MDX23 | 95 | 有时纯伴奏部分被识别为人声,可以剪掉 |
htdemucs_ft | 80 | 伴奏混人声 |
Kim_vocal_2 | 90 | 偶尔轻微伴奏 |
4_HP_Vocal_UVR | 50 | 部分伴奏被识别为人声,较长时间伴奏人声混在一起 |
MDX23目前为最强模型,按运行日志来看,貌似是(htdemucs_ft) (demucs MDXv3) (UVR-MDX-NET Voc FT) (UVR-MDX-NET inst HQ 3) 这几个模型混合得出的结果,但是速度非常慢,用colab T4 5分钟音乐要处理17分钟
htdemucs_ft是比较均衡的模型,如果既要保留人声又要伴奏可以选择htdemucs_ft,比 MDX Main效果好一些
Kim_vocal_2用于分离人声也很不错,速度很快,如果为了节省时间大量处理可以选这个
还是老老实实用htdemucs_ft或者MDX23罢