-
Notifications
You must be signed in to change notification settings - Fork 4.8k
[Help]: 底模训练时长求助 #112
Comments
你好,其实你很可能是over-fitting了,你看loss/g/fm图,他中间有一个很明显的先下后上,当时我曾经甚至以为这个越大越好,其实不是,你的训练应该在20k时就停止。我的第一个模型训练大约38min的干声素材,一开始训练了10w多step,电流音很明显,而我重新训练时,训练到1w多step时停了一下,导出后发现模型效果很好。你把tensorboard的smoothing拉到最大再看看loss怎么样,我看看能不能截个我的tensorboard的图 |
训练底膜和 finetune 是不一样的, 就经验而言, 一般起吗要 20-30w 步 |
请问如果 loss 出现不降反升的情况,继续增加训练步数会有帮助吗 |
@Popo-Neko 请教下,上面这个图是用什么工具绘制的,数据源在工程中哪里哈,感谢~ |
原来是这样啊,一开始的G_0.pth和D_0.pth是底模,然后其实我是在这个基础上再继续训练,我搞错了 |
这个是tensorboard,你查查你的深度学习框架支不支持它,tensorflow和pytorch里面都有,后面那句没理解什么意思,数据源要自己找然后来训练吧 |
可能会好, 也可能会 NaN, 建议拜一下九尾狐 ( |
我的Batch size为32,训练了200K步,效果仍然不理想 |
你得放点输入和输出的 sample 上来 |
@Popo-Neko 请问G_0.pth 和 D_0.pth 可以分享下吗?innky 那个项目的pretrained 被删了。 |
请勾选下方的确认框。
系统平台版本号
Ubuntu
GPU 型号
3090
Python版本
3.9
PyTorch版本
1.13
sovits分支
4.0(默认)
数据集来源(用于判断数据集质量)
多个开源的单人歌声数据集,质量较高
出现问题的环节或执行的命令
训练
问题描述
我需要训练一个16K采样率的底模,使用了混合说话和歌声数据集,总共30000多条数据,训练到200K步,Mel loss到了在14左右,推理时有电流音。请问一下底模训练时使用了多大规模的数据,训练了多久,Mel loss到了多少呢
日志
无
截图
so-vits-svc
、logs/44k
文件夹并粘贴到此处补充说明
hop size = 320
upsample = 10,4,2,2,2
sigment size = 8960
The text was updated successfully, but these errors were encountered: