中文互联网的凋零,正在杀死中国人工智能的未来【为什么我们搞不出ChatGPT】

作者: 图灵的猫分类: 科学科普 发布时间: 2023-03-31 13:11:40 浏览:2393714 次

中文互联网的凋零,正在杀死中国人工智能的未来【为什么我们搞不出ChatGPT】

机械天文:
1、语言鸿沟 案例:以GPT-4为首的自回归大模型 其语言性能在英文和中文上存在较大差异; 对于英文语境下的写作、表达和理解普遍更好; 原因:OpenAI...

【回复】那能不能训练一个可以把大量罗曼语系资源“本地化”的ai,然后其他ai再用这个ai的成果来进行训练其他ai……
【回复】别国内了,马斯克联合几个硅谷大佬在国外也提出限制倡议了![吃瓜]人家也在修护城河,而且是之前吃了开源亏的一些觉得版权被侵犯的人主动要修护城河!所以未来你越搞AI,人反而选择越封闭,不知道之前的国外画师抵制AI盗图运动你了解过没?
【回复】起码能操作,互联网的中文化本身就是一个浩大的工程,分边走呗就和以前操作系统没中文一样,先用英文追上进度,边追边用另一套体系建设并翻译中文化本地化互联网上的所有信息与资源不管是开源的还是别的,耗钱但是可以本地化,商用可以用英文的操作,其主要分布在工业生产与商务用途之类的东西里,民用的进行本地化中文化虽然落后一代但是民用的话已经足够了,chatgbt这类民用的,类似追到最后民用虽然会永远差一截但是工业生产与各项商用ai的训练完全不耽误,这样不就好了……
缘力法师云桑:
中国互联网企业最后都变成了金融行业,而且赚钱后不愿意反哺研发

【回复】那叫“技术为业务服务,业务为先”[doge]
【回复】正确的,这才是问题的本质,生产力不会带动生产关系发展,但生产关系会限制生产力发展
姐姐的村雨有妖气:
中文的高质量博客近些年真的越来越少了,就拿计算机技术类的讲,csdn上到处都是广告和抄袭,大学四年下来真的觉得国内的互联网资料垃圾的不行,后来全上谷歌搜了,大四的时候实在看不下去就自己开了个博客写点学习笔记,也算尽一份力了

【回复】真正高质量的博客都在大佬自建的博客站,以及知乎、简书、掘金等网站上。csdn真的,不要钱的是垃圾,好的文章要钱
【回复】回复 @HPDellASUSLenovo : csdn的问题是,从国外抄过来机翻的,抄过来人工翻译的,互相抄的,从国内其他网站抄的,我基本就没看到什么原创的东西,整个网站像个爬虫数据库一样,还不带筛选那种
【回复】我都不知道怎么说了,已经数不清多少次在百度上搜一个报错被气到笑出来,csnd就不说了,经常搜出来乱复制的人,连代码块都没有纯文本乱贴。甚至还有搜出来只有一个标题而网站上根本不存在这篇文章的网站,我都不知道原理是什么,感觉是在骗点击量。碰到这种情况搜半个小时都不一定能解决,但是换用谷歌几分钟就能搜到。在这种环境下我对中文语料真的持很悲观的态度。
爱学习的momo人:
冷知识:有时候在b站,抖音,知乎搜索,比百度更好。

【回复】确实,我是百度,知乎,b站一起用。抖音就算了没装,最近加上了bing。前几我网站升级了mysql版本提交时有个出错提示,我小白看不懂,百度搜了几篇也没解决,最后是问了new bing说出了关键才解决[支持]
【回复】确实 优秀的垂直类作者 就是优秀的数据库
荒诞虚空:
就拿我最近的经历来说,因为想做点视频所以对blender产生了兴趣,在自学blender的期间我发现我们的自学成本太高了,在搜索知识方面。想要找到一套优质的系统的中文教程简直太难了,更多的是搬运外网教程的;讲着讲着图穷匕见让你报班的;甚至有洗稿国外免费教程拿到国内卖钱的。后来我决定干脆直接去外网学,但光是搜怎么使用魔法就花了一段时间。管中窥豹,我想大多数自学国外软件的人都遇到过类似的难题,时间都花在怎么获取知识的途径上了,由此也可以看出中文互联网与外网优质内容的差距。

【回复】图穷匕见登陆可怜花钱vip单独购买sssssssvip
【回复】主要是语言门槛高,找到了看不懂是最难受的
【回复】一般情况是花一个月时间学习使用魔法不成功遂放弃,只好花钱买了35元某宝教程,八月后凑巧被好心的老哥老姐介绍终于翻了出去,结果发现搜到的第一条免费内容就是你买的某宝教程…[呆]
啊湫湫r:
每当想说点什么的时候,打出来的字思考再三最后还是删除了,不想说,没意义,随它去[奥比岛_搬砖]

【回复】同意,刚刚想在社交平台发点感叹和想法,打完了看了看又删了,发了也没用
【回复】甚至有时候打完了发出去了刷新一看没了,失望地直接关闭页面
【回复】回复 @隔壁村村長 : 好过你发了结果不见了
地球公司:
我表弟实习完说互联网公司的尽头就是网贷

【回复】[吃瓜]中国的所有互联网企业本质上都是金融企业,因为搞互联网多半都是亏钱的,玩金融才能大赚特赚
【回复】所有行业的最终尽头都是金融,没有比钱生钱更快的
【回复】回复 @无头骑士斯诺丽 : 补充:其实还是广告公司!整个互联网行业就是一个广告公司。
bili_7344812:
在各种大厂app上,你不知道哪个字会触发到系统,即使是友好和善的交流下也会被夹掉一些内容。 纯兴趣爱好的搞论坛或者博客的作者们可能只是分享资源或者所见所闻,也有可能触犯到审查机制,本来不赚钱还惹得一身骚,导致个人网站越来越少 以前在简中互联网上找资源真的是“百度一下你就知道”,现在你得躲开一堆答非所问的百家号,躲开本来开源免费的程序在csdn下载还得收费的坑,躲开一堆广告,最后使用某404引擎找到了。 大家越来越抽象是因为不喜欢正常说话吗?

【回复】不能更认同,大家应该都会有打了几百字莫名其妙发不出去的情况,甚至有时候,我连我自己的话有没有说出来都不知道。。。时间久了,那我肯定只打单字输出情绪了。现在跟人说百度一下就是害别人,让人遨游在几十页还有各种官方弹窗广告里我都怕被人喷。
【回复】没错,我现在已经有了打完回复,先复制粘贴存档再发送的习惯了。但即便如此,吞了我改,改了还吞,再改再吞。反观别人,骂人话随便发出来,那还能说啥。 大家越来越抽象是因为说话抽象更有逼格吗[doge]
【回复】回复 @蔡大圣 :没错,洋洋洒洒几百字莫名其妙就被审核,发不出去。[脱单doge]所以语言越来越精简,越来越情绪化。
MantingLinch:
APP化小程序化的互联网是越来越封闭的,各领域圈地自萌,国内互联网都在通过APP,分析用户,精准推送

【回复】突然想到现在看个什么详情页都要下载软件,还有很多奇奇怪怪的限制不让你访问正文[辣眼睛]
【回复】回复 @Skating曾 :国外用app但不会对PC用户或者网页版用户赶尽杀绝,不会动不动就"在app内打开"
【回复】回复 @Ber栗 :弄个一半的标题吊你胃口进去让你下app下了以后要冲会员[doge]
我-是-你-爸-爸yahu:
这么说吧,有时候我用小红书搜的内容比百度好用。如果拿谷歌和百度比我甚至觉得这是对谷歌的一种侮辱。

【回复】多少年没用过百度了,搜百度还不如搜b站[抠鼻]
【回复】回复 @rushhhour :买家电我全用B站搜百度搜出来的都是诈骗。。。。
【回复】搜索引擎拉胯除了百度不干人事,也和中文互联网产出的枯竭也脱不开关系,现在各大内容平台基本都是个发泄情绪的窗口,而不具备生产严肃内容的氛围和条件
星河潜溪:
核心问题是数据孤岛,博客、论坛、问答网站衰落,公众号、微博、视频网站崛起,后者都是不能被搜索引擎索引、爬取的。

【回复】回复 @Leo_Schky :搜不了是因为微信公众号做了反爬虫,你看到的正常的文字,背后都是以各种奇葩的方式拼起来的。
【回复】关掉的论坛里面那些存留在硬盘上的中文知识早已抹灭了。
【回复】确实浏览器很难搜索一些微信公众号的内容
abot01:
国外的很多网站,都是靠各种兴趣爱好建立起来的,所以氛围也比较好,也可以讨论很多事情,但中文互联网,各种繁琐的备案绝对会打消你的兴趣,要是带评论功能还得额外备案,剩下愿意开网站的都是为了赚钱去开的,能有什么好的氛围。

【回复】我开个个人博客都得给我打n趟电话,还得把类型改成别的才行
【回复】回复 @帕金森也要玩游戏 :个人博客,尤其是带评论区的基本上是不允许的。还会有人来查你的备案号是不是规范的。
【回复】回复 @SDFhou :你这个把因果搞反了。基本通识教育里面逻辑学被人为的阉割掉了。逻辑是个坏东西,要不得[doge]
福林菌:
现在中文互联网还存在一个比较重要的问题是,好的知识会变成视频,因为没有人会去慢慢的看一篇长篇大论的文章,快餐式的知识成为了主流,自然优质的文字媒介就会凋敝,难搞哦

【回复】中文搜索引擎表面是百度,实际上是各大山头APP站内搜索
【回复】XS,你发视频还能发,发文字就是秒吞
【回复】贴吧祖安语料库,微博bot语料库... 最后还剩一个:聊天记录
二七谢赫的Pinata:
想回到数年前大家都友好交流的优质内容输出氛围已经不可能了,事实是巨量的汉语词汇被网络环境污染,想要输出优质的文章内容需要在用词用句上花更多的成本,还要面对被同话题下抖机灵内容抢走注意力的风险,换句话说优质内容的输出成本越来越高,收效的期望值越来越低,目前也没有可见的趋势去遏制这个情况的恶化,与此同时现在这个信息时代,每一个人的注意力已经是一种稀缺资源了,大部分盈利为主的内容为了想尽办法夺取这种稀缺资源,换着法的上刺激用各种标题党抬头,所有人的注意力在以流量盈利为导向的内容中迅速耗散,留给优质内容的注意力总量越来越少,这两个前提很难不让人悲观。[大哭]

【回复】主要是现在机器人真的真的太多了,一点小事都能吵起来,其实除了知乎,b站的视频内的优质内容其实不少,但要转换成文本。
【回复】你说的在理啊。稍微乐观点看,现在国外也是这样的趋势。但是,国外和国内优质内容的积累差距太大了,而且国外开放的文字社区比中文社区多太多,国内平台少,门槛高,进一步拉开差距。长期以往,都用不着悲观了,中文数据的衰落铁板钉钉。尤其是现在抖机灵的越来越多,更多人甚至更习惯用玩笑话输出观点,用反讽和嘲弄表明态度,并且一点点异议都很容易发展成无意义的争吵和自证……我们严肃正经的文字内容正在减少,老实说,能改变这个的,唉,我只能期望国家早点注意到这个严重的问题
【回复】回复 @narcisssus :感觉所谓黄金时代其实就是无版权时代,想发什么都随便发,盗版资源到处都是,现在管得严了,国外其实也一样,甚至更严下盗版歌会进局子,以前都是种子现在都是网盘
二零醚酱:
感觉好像up说得有点偏了,是『当今中文互联网环境』无法诞生出研发类chatgpt的土壤,而不是『中文』导致的……换句话来说,就算我们完全改用别的语言,现有的互联网环境不改变,依然不能解决问题。 况且对于AI来说,输入的材料好坏才最终决定出训练模型的好坏,与其使用的语种无关……反正电脑个二进制的玩意也只能读懂0和1,非要往汉语拉丁化角度去想的都掉坑里了[笑哭][笑哭]

【回复】补充:突然想到另一个方向……中文的高质量语料数据 更多的存放在各种纸制书籍里🤔……或许让AI从互联网上“学习”,倒不如以“读书”的方式“学习”能得到更好的结果
【回复】回复 @二零醚酱 : 书的样本量太少太少了。和网络差好几个数量级。
【回复】回复 @二零醚酱 :书太少了。现在你把所有英文书加起来,撑死2TB大小,5千多亿个token(目前训练数据中书最多的gopher模型也就只用了那么多其他模型远小于这个数),跟动辄数万亿token的总训练量比起来,不够。
守温:
我是一名中文老师。真的可以感受到下一代在汉语语言方面的倒退,他们现在落笔写下的很多都是网络用语。传统的语言环境正在遭受冲击,我们的语言发展甚至正在倒退,当我们感受到“美”的时候如果只会用“绝绝子,谁懂啊家人们”这种东西来表达,真是一种悲哀。

【回复】额,中文网络问题不在这,毕竟英文也有这个问题
【回复】这是时代潮流,是大数据时代的短视频的兴起导致的。除非优质博主能大于那些短视频博主,但这是不可能的,劣币驱逐良币,中文互联网正在持续低龄化。
【回复】回复 @棉花上的点点星光 :并不觉得用现在的“套话”表达得很好,网络用语大多数是没有什么深层内涵的。不是说不允许出现和使用,只是这种现象对学生,尤其是年纪小的学生来讲一定是负面的。当代仍旧有作家在写作,不能否认的是短视频网络时代对此产生了冲击,当我要求学生写一个拟人句,而学生写出的是“蜘蛛正在唱跳rap篮球”时,当我希望学生在作文中描述自己的感受,而写出来的是“我真的会谢”时,当我叫他们订正他们却不会用别的语句来表达时,真的会觉得,如果这一代学生都被如此荼毒,那我们的优秀文化能否得到传承?
会装x的汤姆猫:
我突然理解了林语堂为什么倾家荡产也有把中文打字机造出来......

【回复】回复 @皂邺氩 :智能拼音更适应时代,让用户可以不用先期学习就能得到自己想要的输出,本身是进步[笑哭]
【回复】但是最后拆字法输给了智能拼音 ,先行者只剩下可悲可怜
【回复】但就算是林语堂有这个觉悟但最终还是被造价高昂的原型机给打败了,更别说如今的互联网时代了,商人可没有林语堂的觉悟
-行三:
我觉得视频分析的虽然好,但还是不够全面。一个很简单的问题,那就是每个领域的人,都认为自己的领域,是最重要的领域。人工智能的确是重要,但问题是,它到底重要到一个什么程度?为什么国内的搜索引擎会变成今天这样,是一个非常复杂的问题,以至于超出了单纯的技术、甚至是商业问题,很明显的是,决策者认为有比这更重要的事。时过境迁,这门技术如今到底重要到一个什么程度,是否重要到足以改变现状,以及在那些决策者眼中重要到什么程度,这些都应当在考虑范围内。不然今天这个人喊,啥啥啥很重要,下面一群观众高呼是是是。明天那个人喊,啥啥啥很重要,又一群观众喊是是是。长此以往,哪儿还有人分得清,到底什么东西重要,什么东西更重要。

【回复】[微笑]数据分析不重要吗? 这东西和核能不是一个级别的重要性?
【回复】回复 @-行三 :人工智能和元宇宙可不一样,这是可以提升产出生产资料的效率的,区块链和元宇宙只是概念股罢了。
【回复】回复 @UDYudy :这话说的跟没说一样,因为如果我没记错,元宇宙、区块链还有那个3d打印机,用得都是这套说辞。问题是,到底多重要,得有个比较的对象,比谁重要,没谁重要,这么说才能让人知道到底什么情况。
图灵的猫:
更正一下,英语严格意义上来说是属于日耳曼语族的,和罗曼语族同属印欧语系。原文中应该是“英文和与英文同属印欧语系的...”,录的比较匆忙,大家见谅~

【回复】这事中国互联网大佬们都心里明的跟镜似的,但是他们一个个脑子里面都在想什么?怎么把别人的数据弄到自己手里,自己的数据被别人哪怕用一丁点都是做梦,这么说有点囚徒困境的意思,不过现实就是如此。这种情况即便是国家牵头了个大公司的话事人也未必买账,什么时候结束各自为战的局面,个人认为只有到了他们生死存亡的时刻,这个日子不会太远,技术革命比预计中来的要快的多的多!
【回复】【国内外IT技术圈完全是两个世界-哔哩哔哩】 https://b23.tv/dQfU9Zb
【回复】现在的人在就业前就已经因为内卷内耗消磨掉了大量的精力和心力,曾经的热情也不知被阉割掉多少,卷到有影响力的位置了能够安逸了自然会伐于“用爱发电”推动高新技术发展,说白了就是把本该用在实业里的精力分了一大块给早期内卷排名,卷完了一千万大学生还有八百万没什么事好干,只能做和自己学历完全不符的工作,社会是投入了,但自己又把回报过滤掉了,同时现在的市场和就业环境内卷也导致大量普遍焦虑,有合理的也有盲目焦虑甚至是虚假焦虑,网络环境也由此日益趋败

人工智能 GPT-4 Chatgpt 文心一言 互联网 ChatGPT来啦

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!