[Atri亚托莉]实时语音交互（ChatGLM+Vits+科大讯飞实时语音转字api+百度翻译api ）

作者: ゛喜多郁代分类: 日常发布时间: 2023-04-05 17:28:35 浏览:47661 次

REMlLIA:
同为了atri选了这方面专业可惜竞争不过别人自己也懈怠了[兔年吉祥東雪蓮_哭哭]

【回复】高三党还在奋战高考[doge]大学必选AI（为了爷的Lucy（露西·瓦伦汀）[给心心][给心心][给心心]）
【回复】回复 @rayL丶Lucy :我超，3202年还能看的露西，泪目了
【回复】数字生命派集合(ﾟ⊿ﾟ)ﾂ
゛喜多郁代:
视频封面在空间的，有需要的自取～另外这个项目暂时还得不到推进，最近在准备找工作的事[灵魂出窍]各种面试笔试准备太费时间了，给期待后续的朋友们抱歉啦～找到工作之后如果有时间我会继续弄弄的

【回复】谁想要封面啊，我想要源码啊啊！
【回复】回复 @无mingg :ai相关的方向吧，我是搞cv多模态的，至少python和深度模型框架得学学，然后就能触类旁通了
【回复】upup，做这个要学哪些具体方面的知识呀[委屈][委屈][委屈]
碧落琉琴:
glm几句话就失忆了吧，而且对话相当有局限，我的话果然还是去尝试gpt的api调用

【回复】换个思路，做艾拉，说几句就失忆算是还原剧情了（
【回复】你说的是只用prompt的情况，微调模型就能获得长记忆了
【回复】回复 @CharlieDreemur : github有官方教程：https://github.com/THUDM/ChatGLM-6B
祈麓KITO:
说真的，如果AI只是模仿人类的思维方式的话，那永远没办法有真正的心，亚托莉是有心的，跟其他的机器人不一样，正因如此，我们想要看到一个有心的她，就必然不能只是用AI，故，我们需要先搞清楚我们自己是什么，我们自己是一种什么样的存在，才可能从物质的角度，再现一个她，一个和我们一样有心的她，或许说的不太清楚，总之，想要实现那个愿望，需要我们对自身更清楚的认知，以及一些技术上的突破[奋斗]

【回复】有时候我觉得ai是否具有智能这个界限，现实和游戏里面展现的应该是一样的，都很难以辨别，或许今后的人类真的造出了这样的ai但是却不自知是很有可能的，所以未来究竟会发展出什么样的技术我现在也很期待[tv_doge]（没错俺就是降临派的！为了见证和亚托莉一样的仿生人！）当然我这个demo和亚托莉差远啦，人家萝卜子可是高性能的嘛！
【回复】人类创建的智能只要能让人觉得和人无异就行了
【回复】回复 @゛喜多郁代 :我也这么认为(｀・ω・´)也许有人会认为人自己都没有弄清楚情感从何而来，所以也就无法创造出真正的智能。但我觉得既然原始人不明白火是怎么产生的，更不清楚原子的运动和热能的转换，却不妨碍他们使用火，那也许在人们没有察觉的情况下，到了某个阶段人工智能就自然诞生了也说不定，而好多人觉得人是感性的机器是理性的，但是实际上这两者原本也没法清楚的划分，人也不是任由情绪控制毫无理性的生物。
夜刀神十香つ゛:
百度实时语音转换也可以，glm还是太慢了，没有好显卡

【回复】百度的api我只用来中翻日了，实时语音转文字这块科大还是强的基本没延迟，先白嫖了5小时看情况要不要继续用，主要延迟确实还是glm吧，但也总比挂chatgpt快多了。vits我后面又继续调了下，转语音速度也比视频要快很多
灰蛊风暴伊蕾娜:
有没有办法让萝卜子说出标准的中文[doge]

【回复】回复 @菲酱就是我哒 :高性能不应该会个百八十种语言吗[doge]
【回复】回复 @灰蛊风暴伊蕾娜 :正确的。不过从现实角度看，你也不想亚托莉用日译中的翻译腔和你说话吧[doge]
帅_天:
只可惜啊，ai未来致使再聪明，再智能，她也不会像亚托莉一样拥有一颗拥有感情的心😭

愛吃肉丸の大橘貓:
头像是萝卜子，名字是归去来兮女士，你到底是谁[tv_冷漠]

【回复】我是guitar hero！[脱单doge]
【回复】现在他头像也是归去来兮女士了[原神_哇]
【回复】腿上装机关枪的刺客[doge]
-Farail-:
很好奇，up是怎么实现实时文字转语音的？[2233娘_疑问]自己做的同类型程序目前卡在这步了（悲）如果有可用的api可以介绍一下吗？

【回复】同问不知道选用什么框架什么接口天天各种搜索尝试愁死了
【回复】VITS模型，这一步不是api要本地部署的哦
【回复】回复 @゛喜多郁代 :[2233娘_吃惊]渣机落泪了属于是…不过还是谢谢up[以闪亮之名_针不戳]
碧落琉琴:
微调用的数据集是游戏里和萝卜子的对话吗

【回复】回复 @碧落琉琴 :lr、epoch还有其他参数都有调节的，但效果都不尽人意，而且数据集实在不好弄，我是觉得微调做的数据集很蠢都必须是一问一答的形式，和游戏的带逻辑性的多轮问答很不一样，所以做出的数据集可想而知效果不会很好，而且我翻过很多教程目前也是没有很好的办法解决这个问题。就算数据集问题解决了，还有个根本性的lora结构性问题没办法，llm不像是ai作图那样用lora之类的微调模型效果好，ai作图本身数据集图像所带有的信息量是很大的不用担心，少样本也能训练出个一二来，llm这面我推测是微调会把原先网络的参数偏向给改掉的情况下少样本带有的信息密度也不够，搞得网络在回答原先能回答的问题的时候都被导向数据集语料了，数据集没有的东西就开始胡言乱语
【回复】回复 @゛喜多郁代 :另外有没有可能是数据集准备不够，或者epoch训练太多过拟合，或者太少导致没效果呢
【回复】回复 @゛喜多郁代 :微调只是让她模仿语气和说话方式的，就这点来看，也不尽人意吗?
怎么可能会后悔:
我刚刚拿chatglm去微调一个从gal中爬取的对话，结果发现效果十分一般，完全无法对人物进行还原

【回复】一样的，视频只使用了prompt，这个不如ai作图的微调，训练样本包含信息太少了会让它忘记之前训练的其他信息而不是把其他信息当作默认值
【回复】个人观点哈，少样本并不适合直接微调LLM。不过样本量达到一定程度在特定领域拿来训练或许效果会好些
AY夏疏影:
upup，对于一名志在写出自己的聊天机器人的高中生，在选专业上有什么建议吗？[拥抱]

【回复】选计算机相关专业就行了呀，ai本科应该不好做，不过你只要有兴趣也可以大学自学哦
【回复】“写出自己的聊天机器人”是什么意思，是想用别人的模型的api封装成自己的软件（up这种），还是自己炼一个语言模型？如果是前者选什么专业都无所谓，自己学点python就行。如果是后者也跟专业关系不大，看你买得起几张a100
【回复】回复 @゛喜多郁代 :本科选人工智能不好吗？[以闪亮之名_哎？！]
天行神狙zZ:
已关注三连[热词系列_三连]啦 UP能求个封面嘛球球啦[给心心]

人工智能测试交互记录实时 ATRI

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！