【半小时内无需标注训练任意角色的TTS和变声器！】支持中日英三语的VITS快速微调教程

作者: 茳氵茗分类: 计算机技术发布时间: 2023-02-18 08:40:25 浏览:144012 次

单字一个礼_Ulian:
上传了一条大约六分钟的纯人声视频，30次epochs后出来的声音非常诡异，这时候需要加大训练时长吗，是不是因为语音样本太少了呀[tv_流泪]

【回复】回复 @茳氵茗 : 我把视频换成短音频后效果立刻变好了！期待模型的中文突飞猛进[星尘_比心]
【回复】辅助训练数据勾一下试试
【回复】回复 @单字一个礼_Ulian :感谢提供思路，正苦于声音诡异的问题
cole_er科尔:
有种日本人说中文的感觉，奇怪但合理[doge]

【回复】中国有句古话叫作：食石雾者为俊杰[doge]
【回复】回复 @老银c : 应该是菌国又句古话[doge]
【回复】回复 @老银c :象鼻一下的个钟行句，已定能敲开阁下zhui[doge]
妖慕心:
用ai可以当赛博人了。 ai皮套，aicos，ai声音。

【回复】已经有了，neurosama[笑哭]
【回复】你是否在找neurosama[脱单doge]
希蒂尔:
开始听着像大佐味，后面越听越像丁真

【回复】不止我一个这样觉得[笑哭]
秋江澪:
大佬请问第三步生成配置文件的部分无法进行该怎么办啊，一直提示"no speaker found", 不知道是哪里出错了，太菜了心态好炸（（（

【回复】一开始我也不行，我双压缩，和谷歌云盘就可以了
【回复】回复 @晓曦Yukie : 试试上传短音频，我也遇到这个问题了长音频不行短音频可以
【回复】我也是[大哭]上传的是长视频文件命名格式也没错GPU也开了就是卡在这一步[大哭]
BV1si4y1x7rG:
@茳氵茗现在API因为连接超时或者要调用的服务器没开或者挂了，导致语音合成请求停止处理（自停止处理开始就有290个请求滞留，应该是今天才失效的，求修复！）

【回复】不想要colab可以下到本地自己配环境训练
【回复】回复 @茳氵茗 :这个用p104应该螚训练吧
【回复】我可不想用合成超慢的Colab，而且要VPN
側佴K:
太强了，大佬，这个项目半小时爆杀了小白之前训练两千多次的VIT语音，终于实现了数字老婆的第一步[打call][打call][打call]

【回复】好像vits上限会比较高一点
无尽Immeasurable:
佬，有推荐的训练集大小和步骤数吗；我现在是37句日文训练30步，出来勉强可以用但是喘的厉害，唱歌完全不在调上；增加到50步会不会好一点？

【回复】可以减到10或者20轮试试
【回复】这模型唱歌不行的，只能合成说话，唱歌最好还是用sovits
松实馆的小白:
说起来请教一下，目前练成功了一个模型，原音是日语，但个人感觉说中文比日语好听很多也清楚很多.....是不是有过拟合的原因在里面，练了大概30个epoch

【回复】你这种情况说明对于这个声线中文泛化很好
【回复】过拟合不是这种情况，过拟合是只有测试集转换的很准而其他情况都不准
【回复】这个真挺玄学的，咱也不是很懂😥，可能和角色的音色也有关
且看糸雨迷蒙:
up，想请问一下，训练出来后在gradio输出语音时有方法调节语气感情吗，比如日语让它变降调和升调啥的。我用我的训练模型尝试，发现语句末符号用感叹号或问号能表达出激动和疑问语气，但是我使用句号时却不是陈述的平淡语句，也一样是升调的语气，这是我的训练模型的原因吗，以及有没有方法调节语气呢

【回复】回复 @且看糸雨迷蒙 :可能是自动标注的问题，解决起来可能比较困难了😢
脑补剑士:
想问一下我用autodl跑这个项目，在安装依赖的时候提示Could not find a version that satisfies the requirement openai-whisper，是因为网络的问题吗？还是别的问题

【回复】回复 @茳氵茗 : 多谢，昨天那个问题确实是网络导致的，我换个国内的镜像地址就能正常安装whisper了[藏狐]
【回复】回复 @脑补剑士 :colab内置了很多安装好的环境，autodl就不太一样了，可能需要对原来装环境的代码做一些修改才能跑通
天音凤梨:
大佬求助，研究了一下午， Warning: no short audios found, this IS expected if you have only uploaded long audios, videos or video links. this IS NOT expected if you have uploaded a zip file of short audios. Please check your file structure or make sure your audio language is supported. 到了第三步会弹这个提示，之后在划分最终标注和生成配置文件的时候会报AssertionError: No audio file found. Please check your uploaded file structure. 这个问题该怎么解决？我只上传了一段40分钟左右的长音频

【回复】回复 @天音凤梨 :长音频切到20分钟以内就可以解决了，太长了colab内存会爆
【回复】回复 @茳氵茗 :阿婆主，我是用的短音频，执行标注python scripts/short_audio_transcribe.py --languages "{CJ}" --whisper_size large 报no short audio found这个
【回复】回复 @茳氵茗 :怎么解决[大哭]
xxAp2005:
运行时报错写着缺少finetune_speaker.json怎么办

【回复】回复 @紫苏丸子酱 : 预训练模型体验&下载那个网址里面点files，然后finetune_speaker.json在config文件夹找那个config，把它改名；模型在pretrained_model文件夹，也是需要改名
【回复】和模型一起下载下来的那个.json文件要一起扔进去，文件名要改成finetune_speaker.json
【回复】回复 @茳氵茗 :把下载的模型和config文件放在 inference文件夹下, 其文件名分别为 G_latest.pth 和 finetune_speaker.json。这个文件在哪下载呀没找到模型文件下载地址
养生主播:
谢谢分享,就是这个生成的还是有很重的日本口音能否消除呢!

【回复】用源语言是中文的角色说中文就没有日本口音了，日语角色说中文的大佐腔暂时没有解决方案
【回复】就是要很重的口音我要用来给公司打卡天杀的公司
【回复】回复 @茳氵茗 :不要解决[doge][星星眼]我太喜欢了

人工智能 VITS 软件分享语音合成赛马娘

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！