【半小时内无需标注训练任意角色的TTS和变声器!】支持中日英三语的VITS快速微调教程

作者: 茳氵茗分类: 计算机技术 发布时间: 2023-02-18 08:40:25 浏览:144012 次

【半小时内无需标注训练任意角色的TTS和变声器!】支持中日英三语的VITS快速微调教程

单字一个礼_Ulian:
上传了一条大约六分钟的纯人声视频,30次epochs后出来的声音非常诡异,这时候需要加大训练时长吗,是不是因为语音样本太少了呀[tv_流泪]

【回复】回复 @茳氵茗 : 我把视频换成短音频后效果立刻变好了!期待模型的中文突飞猛进[星尘_比心]
【回复】辅助训练数据勾一下试试
【回复】回复 @单字一个礼_Ulian :感谢提供思路,正苦于声音诡异的问题
cole_er科尔:
有种日本人说中文的感觉,奇怪但合理[doge]

【回复】中国有句古话叫作:食石雾者为俊杰[doge]
【回复】回复 @老银c : 应该是菌国又句古话[doge]
【回复】回复 @老银c :象鼻一下的个钟行句,已定能敲开阁下zhui[doge]
妖慕心:
用ai可以当赛博人了。 ai皮套,aicos,ai声音。

【回复】已经有了,neurosama[笑哭]
【回复】你是否在找neurosama[脱单doge]
希蒂尔:
开始听着像大佐味,后面越听越像丁真

【回复】不止我一个这样觉得[笑哭]
秋江澪:
大佬请问第三步生成配置文件的部分无法进行该怎么办啊,一直提示"no speaker found", 不知道是哪里出错了,太菜了心态好炸(((

【回复】一开始我也不行,我双压缩,和谷歌云盘就可以了
【回复】回复 @晓曦Yukie : 试试上传短音频,我也遇到这个问题了 长音频不行短音频可以
【回复】我也是[大哭]上传的是长视频文件 命名格式也没错GPU也开了就是卡在这一步[大哭]
BV1si4y1x7rG:
@茳氵茗 现在API因为连接超时或者要调用的服务器没开或者挂了,导致语音合成请求停止处理(自停止处理开始就有290个请求滞留,应该是今天才失效的,求修复!)

【回复】不想要colab可以下到本地自己配环境训练
【回复】回复 @茳氵茗 :这个用p104应该螚训练吧
【回复】我可不想用合成超慢的Colab,而且要VPN
側佴K:
太强了,大佬,这个项目半小时爆杀了小白之前训练两千多次的VIT语音,终于实现了数字老婆的第一步[打call][打call][打call]

【回复】好像vits上限会比较高一点
无尽Immeasurable:
佬,有推荐的训练集大小和步骤数吗;我现在是37句日文训练30步,出来勉强可以用但是喘的厉害,唱歌完全不在调上;增加到50步会不会好一点?

【回复】可以减到10或者20轮试试
【回复】这模型唱歌不行的,只能合成说话,唱歌最好还是用sovits
松实馆的小白:
说起来请教一下,目前练成功了一个模型,原音是日语,但个人感觉说中文比日语好听很多也清楚很多.....是不是有过拟合的原因在里面,练了大概30个epoch

【回复】你这种情况说明对于这个声线 中文泛化很好
【回复】过拟合不是这种情况,过拟合是只有测试集转换的很准而其他情况都不准
【回复】这个真挺玄学的,咱也不是很懂😥,可能和角色的音色也有关
且看糸雨迷蒙:
up,想请问一下,训练出来后在gradio输出语音时有方法调节语气感情吗,比如日语让它变降调和升调啥的。我用我的训练模型尝试,发现语句末符号用感叹号或问号能表达出激动和疑问语气,但是我使用句号时却不是陈述的平淡语句,也一样是升调的语气,这是我的训练模型的原因吗,以及有没有方法调节语气呢

【回复】回复 @且看糸雨迷蒙 :可能是自动标注的问题,解决起来可能比较困难了😢
脑补剑士:
想问一下我用autodl跑这个项目,在安装依赖的时候提示Could not find a version that satisfies the requirement openai-whisper,是因为网络的问题吗?还是别的问题

【回复】回复 @茳氵茗 : 多谢,昨天那个问题确实是网络导致的,我换个国内的镜像地址就能正常安装whisper了[藏狐]
【回复】回复 @脑补剑士 :colab内置了很多安装好的环境,autodl就不太一样了,可能需要对原来装环境的代码做一些修改才能跑通
天音凤梨:
大佬求助,研究了一下午, Warning: no short audios found, this IS expected if you have only uploaded long audios, videos or video links. this IS NOT expected if you have uploaded a zip file of short audios. Please check your file structure or make sure your audio language is supported. 到了第三步会弹这个提示,之后在划分最终标注和生成配置文件的时候会报AssertionError: No audio file found. Please check your uploaded file structure. 这个问题该怎么解决?我只上传了一段40分钟左右的长音频

【回复】回复 @天音凤梨 :长音频切到20分钟以内就可以解决了,太长了colab内存会爆
【回复】回复 @茳氵茗 :阿婆主,我是用的短音频,执行标注python scripts/short_audio_transcribe.py --languages "{CJ}" --whisper_size large 报no short audio found这个
【回复】回复 @茳氵茗 :怎么解决[大哭]
xxAp2005:
运行时报错写着缺少finetune_speaker.json怎么办

【回复】回复 @紫苏丸子酱 : 预训练模型体验&下载那个网址里面点files,然后finetune_speaker.json在config文件夹找那个config,把它改名;模型在pretrained_model文件夹,也是需要改名
【回复】和模型一起下载下来的那个.json文件要一起扔进去,文件名要改成finetune_speaker.json
【回复】回复 @茳氵茗 :把下载的模型和config文件放在 inference文件夹下, 其文件名分别为 G_latest.pth 和 finetune_speaker.json。这个文件在哪下载呀没找到模型文件下载地址
养生主播:
谢谢分享,就是这个生成的还是有很重的日本口音能否消除呢!

【回复】用源语言是中文的角色说中文就没有日本口音了,日语角色说中文的大佐腔暂时没有解决方案
【回复】就是要很重的口音 我要用来给公司打卡 天杀的公司
【回复】回复 @茳氵茗 :不要解决[doge][星星眼]我太喜欢了

人工智能 VITS 软件分享 语音合成 赛马娘

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!