面向小白的低成本的VITS模型训练教程及注意事项

作者: 欧皇张大千分类: 软件应用发布时间: 2023-03-19 17:24:26 浏览:7953 次

pevernow:
一个新手小白的几个建议： 1.建议用vits_chinese项目，用了更新的技术，加速推理，而且生成语音带有情感，效果更好 2.不要用22500或者16000采样率的，音质太差，建议自己调48000（需要改代码），或者比较懒就用sovits svc（自带48000） 3. 预训练底模不能混用，每个仓库的vits代码都有差别，无脑混用，不是效果差，就是报错 4. 音频一定要清洗干净，尤其是录下来的音频（或者qq截下来的语音），每个字的音量大小都要尽可能一致，中间不能有故意的长停顿，不然会干扰结果的语速，每段话开始和结尾都要完整的音，不完整宁可截去不要。不然会干扰语调。 5. 不要以为40轮训练就够了。40轮已经基本能听了，但实际上，对于好的数据，直到2000轮前效果的改进都很明显。最高可以跑满2w-5w轮，随后效果基本上不会再有改变。目前就这些，希望各位大佬继续补充[脱单doge]

【回复】vc的不能识别英语[笑哭]
【回复】看了vits_chinese项目，但是根本看不懂怎么部署，数据集都不知道放哪[笑哭]
爱摸鱼的zzc:
顺带一提，那个数据集不是我弄的，是网上找的[笑哭]

violet赛高高:
大佬们能帮忙看看是什么问题吗，到第二步的时候报错

Zzzjin:
从 0 就开始训练了 2000 迭代，但是合成的音频没有声音，这个是什么问题

【回复】可能你中间哪一环搞错了你在检查检查
少年你有些皮:
本地装机要一万多的配置……能不能出一期用飞桨线上训练线上推理的教程啊[笑哭]

【回复】百度飞桨用juputer一步步执行就行了，把脚本文件上传到飞桨，一直点下一步即可。
yanshao404:
终于找到这种面向小白的教程还能涉及技术相关的了，等暑假学了[doge]

爱莉光辉照大地:
up您好，请问一下我出的模型推理出来的音频只有呼呼呼（哼哼哼？）的声音……这算是过拟合了吗[笑哭]

【回复】回复 @爱莉光辉照大地 :最好还是用那个脚本去去燥，他不仅去燥波长啊之类的。既然用，那就用全套。这样才不容易出奇奇怪怪的问题
【回复】回复 @爱莉光辉照大地 :去噪了没，要先去噪。然后再用whisper进行语音转文本。
【回复】回复 @欧皇张大千 :我看了一下自动生成的训练集和验证集，怎么全都是乱码，不知道您那里是怎样？我私信发您一下
我要摸鱼鱼:
3.5有问题勾选ADD_AUXILIARY就NameError: name 'langs' is not defined 不勾选的话就FileNotFoundError: 【Errno 2】 No such file or directory: './configs/finetune_speaker.json'也不知道这个啥问题，跑了一百轮中途断了换个Google账号跑到3.5就报错了，求大佬捞捞[星星眼]

【回复】github作者脑抽了，把config下modified_finetune_speaker. json复制一份重命名为finetune_speaker.json就行
【回复】你用的是Colab训练的吧？
【回复】回复 @pevernow :我不是大佬哦，不过这个so vits4.0效果还不错，另一个没用过
铃木里沙:
能搞个v2的整合包？所有版本都能推理训练，就v2报错，连官方的笔记本都报错，鬼版本

【回复】官方笔记本是他依赖那里出了问题，我之前也遇到过。关于整合包的话，整个训练过程很简单，不行回头我显卡回来了，再对每个脚本讲一下，顺便告诉大家在哪调参。
30岁了我还是二十几:
训练好的模型怎么分享呢，我是在云训练的，想拿到本地使用

天降之物模型 VITS模型训练注意事项训练文本转语音 vits 必剪创作科技猎手2023

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！