南+ South Plus AI交流 (beta) sovits的一些疑惑

| 浏览器收藏 | 打印

荀彧

GF 2024-03-16 09:29

（祥瑞御免）

只看GF | | 小中大

sovits的一些疑惑

目前版本4.1，家用1660s速度太慢，用云端训练的。想问一下loss值真的不重要吗？目前自己从抠的数据集，大概70多分钟，裁剪5-15s，训练的时候loss总在30和40之间，训练三四万步，最好的也才29左右- -，config设置的学习率0.0001，bs 12。试推理的时候带上了浅扩散和聚类模型，出来的音频感觉还是有点怪怪的，是原始数据集不够好吗？数据集没有歌声文件，基本都是说话的干声，AU去除了大部分呼吸声以及匹配了响度QAQ，有大佬解答一下吗

顶端

Mni

B1F 2024-03-16 09:51

（快乐炼丹人）

只看该作者 | | 小中大

数据集的质量是最重要的 loss数值当然也重要根据loss值能看出ai学得怎么样了可以找一下相关训练的视频看一下他们的loss值在多少

顶端

荀彧

B2F 2024-03-17 04:43

（祥瑞御免）

只看该作者 | | 小中大

回 1楼(Mni) 的帖子

看了一下，loss值有影响但还是得综合看fm，mel和kr值，目前的15w的step的部分效果没有11w左右的好，同一首干声会有哑音，据说还得看数据集，我的才360m

顶端

南+ South Plus AI交流 (beta)

[-- 查看移动版 --]