面向小白的低成本的VITS模型训练教程及注意事项

作者: 欧皇张大千分类: 软件应用 发布时间: 2023-03-19 17:24:26 浏览:7953 次

面向小白的低成本的VITS模型训练教程及注意事项

pevernow:
一个新手小白的几个建议: 1.建议用vits_chinese项目,用了更新的技术,加速推理,而且生成语音带有情感,效果更好 2.不要用22500或者16000采样率的,音质太差,建议自己调48000(需要改代码),或者比较懒就用sovits svc(自带48000) 3. 预训练底模不能混用,每个仓库的vits代码都有差别,无脑混用,不是效果差,就是报错 4. 音频一定要清洗干净,尤其是录下来的音频(或者qq截下来的语音),每个字的音量大小都要尽可能一致,中间不能有故意的长停顿,不然会干扰结果的语速,每段话开始和结尾都要完整的音,不完整宁可截去不要。不然会干扰语调。 5. 不要以为40轮训练就够了。40轮已经基本能听了,但实际上,对于好的数据,直到2000轮前效果的改进都很明显。 最高可以跑满2w-5w轮,随后效果基本上不会再有改变。 目前就这些,希望各位大佬继续补充[脱单doge]

【回复】vc的不能识别英语[笑哭]
【回复】看了vits_chinese项目,但是根本看不懂怎么部署,数据集都不知道放哪[笑哭]
爱摸鱼的zzc:
顺带一提,那个数据集不是我弄的,是网上找的[笑哭]

violet赛高高:
大佬们能帮忙看看是什么问题吗,到第二步的时候报错

Zzzjin:
从 0 就开始训练了 2000 迭代,但是合成的音频没有声音,这个是什么问题

【回复】可能你中间哪一环搞错了 你在检查检查
少年你有些皮:
本地装机要一万多的配置……能不能出一期用飞桨线上训练线上推理的教程啊[笑哭]

【回复】百度飞桨用juputer一步步执行就行了,把脚本文件上传到飞桨,一直点下一步即可。
yanshao404:
终于找到这种面向小白的教程还能涉及技术相关的了,等暑假学了[doge]

爱莉光辉照大地:
up您好,请问一下我出的模型推理出来的音频只有呼呼呼(哼哼哼?)的声音……这算是过拟合了吗[笑哭]

【回复】回复 @爱莉光辉照大地 :最好还是用那个脚本去去燥,他不仅去燥 波长啊之类的。既然用,那就用全套。这样才不容易出奇奇怪怪的问题
【回复】回复 @爱莉光辉照大地 :去噪了没,要先去噪。然后再用whisper进行语音转文本。
【回复】回复 @欧皇张大千 :我看了一下自动生成的训练集和验证集,怎么全都是乱码,不知道您那里是怎样?我私信发您一下
我要摸鱼鱼:
3.5有问题 勾选ADD_AUXILIARY就NameError: name 'langs' is not defined 不勾选的话就FileNotFoundError: 【Errno 2】 No such file or directory: './configs/finetune_speaker.json'也不知道这个啥问题,跑了一百轮中途断了换个Google账号跑到3.5就报错了,求大佬捞捞[星星眼]

【回复】github作者脑抽了,把config下modified_finetune_speaker. json复制一份重命名为finetune_speaker.json就行
【回复】你用的是Colab训练的吧?
【回复】回复 @pevernow :我不是大佬哦,不过这个so vits4.0效果还不错,另一个没用过
铃木里沙:
能搞个v2的整合包?所有版本都能推理训练,就v2报错,连官方的笔记本都报错,鬼版本

【回复】官方笔记本是他依赖那里出了问题,我之前也遇到过。 关于整合包的话,整个训练过程很简单,不行回头我显卡回来了,再对每个脚本讲一下,顺便告诉大家在哪调参。
30岁了我还是二十几:
训练好的模型怎么分享呢,我是在云训练的,想拿到本地使用

天降之物 模型 VITS模型训练 注意事项 训练 文本转语音 vits 必剪创作 科技猎手2023

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

更多相关阅读