让汉字进入电脑有多难?全世界都失败了,这群中国人成功了

作者: 量子位分类: 科学科普 发布时间: 2021-11-25 11:47:30 浏览:549227 次

让汉字进入电脑有多难?全世界都失败了,这群中国人成功了

青椒大虾:
虽然电脑识别汉字费劲,但人看字母更费劲,让电脑去费劲吧,汉字阅读快极了[喜极而泣]

【回复】回复 @SwimmingDragon :知道英美为啥没有弹幕网吗,可读速度和单字传达效率不如东亚文字
【回复】汉字神奇的是排列错误依然看懂[呲牙]
【回复】回复 @Healerのreview :确实能看懂,不过是另一个单词
tigertttttt:
其实我倒是很感谢汉语拼音的发明。让我在使用电脑的时候可以几乎零成本的进行文字输入,而且到了手机时代依然可以继续发扬光大。 最神奇的是,汉语拼音发明的时候,Windows都还没有诞生,真的是无心插柳的一大创举。

【回复】汉语拼音之父——周有光,2017年去世,享年112岁。
【回复】回复 @框儿啊 :五笔虽然速度快效率高,但学习成本比拼音高太多可拼音小学就会了!而普通人除了工作和口吐芬芳不需要这么快的打字速度!
【回复】回复 @美国在线 :中文的音节是固有的 很早就被古人发现了 至少据我所知 东汉的说文解字就已经能用当时的注音系统来注音了 比如“天”的注音是“他前切” 即天(tian)是把他(ta)的声母(t)和前(qian)的韵母(ian)给拼起来。值得一提的是,这种标注法还标注的声调,默认与第二字同声调,即天和前同声调(古音与今天的音有区别)。这是我所知道的最早的注音方式,后来历代都有发展。汉语拼音相当于把中文会有的这种拼读音节总结出来并且给了字母去代表。
非林_喵0w0:
我愿把《施氏食狮史》送给尊崇拼音的他/她[doge]

【回复】没必要,拼音效率确实不如五笔,但是作为一个小学就学完拼音的人,你觉得是重学一遍五笔好还是直接上手就能打字的好,没有特殊需求的肯定会选择后者,这也是为什么五笔逐渐脱离主流
【回复】回复 @猫猫酱Pro :还有个二笔输入法埋在了历史长河中。和拼音一样好学,会写字就行。键盘只需要5个键位,横竖撇捺折。挺好用的,还能治疗提笔忘字。 我觉得二笔输入法死于它的名字。
青龙幻影大号被封:
五笔字型是神一样的发明。未来还会回来的

【回复】主要是五笔学习成本比拼音高,除非从下一代小时候就开始培养,不然不可能推广开来的
【回复】回复 @Ezaaa :不不不,智能联想。使用机器记忆算法和大数据,五笔字型可以预判你输入的句子
【回复】双拼效率也很高,学习成本只比拼音高一点
Go明天:
我记得张维为教授曾经说过,汉字的信息传递效率远高于英文拉丁等拼音形式语言。

【回复】但输入就很麻烦,大多人都需要用键盘先输字母来转换。但看起来可以很快。听和读区别不是很大。
【回复】回复 @cyldsyp2 :直接语音输入就很快,现在讯飞的技术已经非常非常成熟了[滑稽][滑稽][滑稽]
【回复】感觉这么说有点笼统,个人觉得汉字主要是空间利用率和阅读速度占优势。但实际写起来或者输入起来,在时间上的占用其实是相似的(拉丁字母拼出一个单词需要写很长,但是汉字笔画很多),对于电脑显示空间的占用其实也差别不大(拉丁字母8*8,一个单词平均有五六个字母,还包含大量空格,某些特殊单词会非常长。中文则是至少16*16,但中文很少有空格,句子长度也更短)。 所以说既然都是被地球上绝大多数人接受的文字,肯定都是各有优缺点的,没必要非得踩一捧一。或者另一个角度说,汉字达成如此高的阅读效率的一大负面,就是汉字的学习成本相比其他拉丁文字高的离谱。(不过我还是更接受这种高学习成本带来的高阅读效率)[doge]
丁隐k:
英文字母总共二十六个,重复率太高,识别拼写的过程容易看花。汉子相当于一个方块里的二维码,形象直接传递到脑部就可以抽取出含义,而英文则需要先识别字母拼写再从脑部反应含义。举个例子,手机里的app若只有文字是不是从一堆app里点开你要的那个要找半天,但每个app都有一个图标就可以迅速找到你要的那个,因为图标比文字的信息传递更直观,所以更快。汉字比英文更高效也是这个道理。这只是汉字的其中一个优势而已,如果你看过说文解字,每个汉字的构成都有其深度的内涵,不细说了,总之汉字比拼音文字领先不止一个时代。

【回复】汉字是象形+会意+形声,所以表达意思的效率高多了。并且单个字有明确的意义(基本上),其他的就是组合了。英语要不停地造词,不然去医院看个病都看不明白。汉语就方便多了,比如我知道炎一般是表示炎症的意思,只要和别的字连起来,即便以前没有听说过,但是也能知道大约的意思。比如肺炎,胃炎等等,可以做到举一反三。
【回复】回复 @很难不是个懂哥 :理论上汉字是有优势的,现实中看起来不是这么回事是因为我们计算机科学起步太晚,各大生态系统已经被英文主导的编程语言占据了,所以显得中文没用,这不是尬吹。
【回复】回复 @小精灵2003 :英语也有词根,比如你说的炎症,它的词尾是-itis,hepat是“肝”的词头,所以hepatitis就是“肝炎”。-logy是“学科”的后缀,医院里hepatology就是“肝病科”。你能知道大概的意思是知道字的含义,同理,知道词根也能猜出单词的意思
SakihataRimi-:
施氏食狮史和季姬击鸡记是赵元任为反证汉字罗马字母化可行而创作的,很多人都歪解了他的意思

【回复】赵元任曾编了一个极“好玩儿”的单音故事,以说明语音和文字的相对独立性。故事名为《施氏食狮史》,通篇只有“shi”一个音,写出来,人人可看懂,但如果只用口说,那就任何人也听不懂了。
【回复】回复 @吃花椒的汪桑 :在他看来,这就说明了完全同音最多存在于文言文中,而在白话文中是不可能存在的,从而又证明字母可行论
徐曹全:
就前两年,贴吧还有人在吹汉字拼音化

【回复】回复 @起翦颇牧 :也或许是行走的50w
【回复】回复 @越后汤泽 :[笑哭]鲁迅不一样,他是因为白话文推行受阻,所以发文要废除汉字,把自己立成靶子给顽固派攻击,这样攻击推行白话文的人就少了。
なろう系読者:
谷歌搜索,搜汉字,搜索内容基本符合,搜搜日文假名,很多结果不符合,搜拉丁字母,基本100%不符合。搜索引擎对英文基本是无效的[喜极而泣][抱拳]

【回复】汉字和汉字之间没空格,但是英文以及类似的拉丁语言里面,单词与单词之间有空格,搜索引擎默认空格是“和、或、与”的逻辑,所以搜索引擎不能识别拉丁语音的一整句话,但是能识别汉语的一整句话
【回复】回复 @v东风夜放花千树v :真实了,每次我在英文网站搜东西的时候出来的总是东一个词西一个字的[tv_晕]搜汉字时就准确多了 (百度之类的另论,垃圾玩意儿前排全是广告
【回复】因为搜索引擎中,被空格隔开就相当于一个新的独立的关键词[喜极而泣]
友人奇衡三:
我又来了,这次我想问: 假如我能手捏3nm芯片,我能专升本吗?[星星眼]

【回复】你如果能实现这件事,,那你的未来只有两条路,要么,成为院士搞研究,要么,被院士研究
【回复】成神就行了,你都不用上学了,你已经远远超脱人类的。懂吗?你知道这种难度有多高吗?就在一个99%纯度的硅晶片上建造一座城市一样!不是平面的,是立体的!
【回复】你会被关在装满营养液的罐子里[doge]
一格板子:
计算机语言只有1和0,越简单的语言越能让计算机理解

【回复】人话,汉语因为太高深电脑看不懂[doge][doge][doge]
【回复】[doge]大家都用电报说话,滴滴滴,这样计算机就能听懂了
【回复】汉字和其他语言的文字对于计算机来说没有本质区别
苟文手天:
王永民先生并不是独立发明五笔输入法的,在早期他曾与后来发明了郑码输入法的郑易里教授交流过,郑教授向他介绍了尚在研究过程中的郑码输入法的基本思路,王永民先生受到很大启发,之后发明了五笔。当然,五笔的思路与郑码有明显差别,并没有抄袭的嫌疑。

【回复】感谢科普 以及:打破惨案
【回复】五笔诞生时期有一千多种输入法可以用
【回复】我比较喜欢和赞同其他up主的介绍思路,不突出五笔,而是重点讲『拼音输入法和字形输入法两类』,这样可以避免一些无谓的争端(当然代价就是,事实上,从结果来看,拼音和语音输入占绝对优势,五笔粉肯定觉得我这种介绍方式是在阴阳)
青鲨:
这就提现了汉字简化的重要性,如果当年没有进行简化汉字,以繁体字的复杂程度,在那个年代下很可能就无法研发出将汉字输入电脑的办法

【回复】繁体字本身就是文言文时期使用的,文言文用字少。换用白话文后再不简化根本说不过去。
【回复】回复 @空之海蓝Neo :简化汉字合并了很多汉字的,也会造成词义混乱。利弊都有
【回复】那也不是,最简单的四角码就能输入绝大多数汉字[藏狐]这个繁体简体都是一样的输入[藏狐]
喪心病狂のc70:
zhen de hen gan xie qian bei men rang han zi jin ru dian nao bu ran wo men kan dao de ping lun sha de jiu dou shi zhe yang de le[脱单doge]

【回复】真的很感谢前辈们让汉字进入电脑,不然我们看到的评论啥的就是这样的了
【回复】一字一顿看完了,浪费了我十几秒
【回复】虽然读懂了,可是,很费劲
小巷茶楼:
当时日本想过放弃使用汉字吗?如果没有他们想怎么解决?

【回复】回复 @Resfzdfdz :听说有的日本人全部用片假名来进行打字交流,搞得另一些人还得郎读一遍才能知道他可能写了啥
【回复】片假名啊,没看见现在日语片假名多泛滥吗[doge]
【回复】其实在中国人解决汉字录入计算机之前,日本人已经部分“解决”了这个问题,因为日语里也有汉字,并且当时日本在计算机领域的技术远比中国高。 但是日语的常用汉字数量远低于中文,进而需要的存储空间也更少,再加上日语还有假名系统,即使有打不出的汉字也可以先用假名来凑合,所以他们的解决方案仅仅是提供了一个参考。
淳帅二代:
gbk 编码导致的乱码问题是程序员心中永远的痛。

【回复】Unicode来了,青天就有了
【回复】回复 @njgfll :GB 18030(GBK的扩展)是部分强制标准(其中GBK中的部分是强制标准。 而GB/T 13000(unicode)是推荐标准[吃瓜]
【回复】回复 @猛火Fierflame :主要是Unicode内容太多了,很多是国内日常生活基本上遇不到的。但是18030如今也是吸纳了Unicode,采用不同的码位排列方式而成的,所以其实也差不多了。(18030会给用不上的字符安排码位,但不会强制相关行业支持该部分。)此外,之前发了征求意见稿的新版18030已经收到了cjkui的扩f区,实现级别3要求全部支持(级别1同上一代强标部分,也就是到扩A,级别2要加通规字表中不在cjkui基本区和扩A里的字。
仨丁鱼:
一切难题随着内存的发展灰飞烟灭[doge]

【回复】回复 @幼蓝蓝的臭DD :其实现在的汉字字体也没有几个g的了,毕竟当年王选院士徒手画矢量的狠活实在是太有启发性了[呲牙]。矢量字体即便是复杂的也很难超过200MB,大部分也只是十几MB而已。而且矢量字体可以任意缩放,在巨型海报和小标签上一样清晰,对印刷业有很大的帮助。
【回复】手机内存8个g,汉字占去几个g,剩下几个g跑系统和程序[doge]
【回复】回复 @高林造林人 :老黄历了,矢量字库了解一下,现在除了图省事的嵌入式系统直接拖个点阵字库拿来用(那小屏幕也不需要花里胡哨的字体),字库里的矢量信息现算现用就行
按翻到苞谷地:
五笔好处就是匹配快,打文章输出快。弊端就是聊天盲打时候遇到不会书写和笔画忘了,就不知道怎么打出来了!五笔至少要两个笔画才能联想出来……

【回复】拼音跟五笔都有利有弊,但是现在是拼音的胜利,因为学习成本极低,而且可以一打一大串句子出来了。拼音的弊端只有不会读的要手写跟,写字会遗忘笔画怎么写
【回复】拼音是只要会读就OK。五笔必须会写……
【回复】这也是五笔不会想拼音一样,提笔忘字的原因[OK]
lol_troll:
这说法其实有点问题。 因为如果拼音没人想出来,迟早我们在鼠标键盘外还会拥有一个画板。甚至鼠标键盘也不用了,直接进入手触画板时代。

【回复】回复 @古明地恋をする :拼音大家觉得简单其实是因为从幼儿园就开始学了,直接拿来用就可以了,而当年一些老年人没有学过拼音的,他们更喜欢学五笔,最后呢如果你经历过按键机时代就应该知道当时手机上还有一种输入法直接用笔画,横竖撇捺这些笔画,你只用按照字的书写笔画打出来就行了
【回复】有五笔输入,而且效率不逊于拼音(有说法是五笔比拼音还快),但缺点是学习门槛高很难上手
【回复】回复 @古明地恋をする :我妈会五笔,打字非常快,她经常笑我拼音打字慢[笑哭]
dongyishaonv:
记得小时候:不会写的字可以用拼音代替,别写错别字。 现在:不敢写的字得用拼音或者是错别字代替。

【回复】回复 @YumeKara :有没有一种可能,这是希望大家不要摆烂,以前识字意味着有学识,现在识字和吃饭一样是最基本的社会技能,还搁这张牙舞爪凭什么[辣眼睛]
【回复】然而小学的教学法是错误的。汉字本身就存在大量同音假借字。遇到不会写的字就写同音字是中国人几千年来的做法。凭什么现在的就不对了?
【回复】回复 @林登万w :通假字大多数时候是古人懒得写那个字。如果是不能写的话,一般会用近义字替换,而不是近音字替换。 比如“嫦娥”本名是“桓娥”。为了避汉文帝讳才改成了“常娥”。“桓”和“常”算是近义词。最初“嫦娥”的“嫦”是没有女子旁的,就是普通的“常”。这个女子旁是后来才加上去的。另外“桓娥”也可以写成“姮娥”。 “开封”以前叫“启封”。为了避汉景帝的讳才改成了“开封”。“开”和“启”算是近义词。

知识分享官 计算机 中文 字体 科普 输入法 拼音 汉字

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!