汉语,是世界上效率最高的语言:骄傲到跺脚!

发布者:隔水望伊人 2025-12-9 10:13

以上是本期音频∧

以下是本期文稿∨


咱们汉语是世界上效率最高的语言。

一个字,就能表达很多意思。

比如,“整”这个字,声调不同,意思大不一样。

01

太优秀

同样一本小说——英文小说,翻译成中文就变薄了。

我们汉语的字词承载的信息量大,不需要那么多字。

比如《哈利波特与魔法石》,英文版300多页,中文版200多页。

咱们中文就是简洁有效!

你可能会说:作为中国人说这话,有骄傲的成分。

然而,在数学上,也是如此。

02

信息熵

香农公式是用来描述信息熵的,熵是香农从热力学里借用的概念。

在热力学里,熵是指一个系统的混乱程度。

说一个系统总是从有序到混乱,越混乱熵越大这就是熵增。

现在很多领域都引入了“熵增”这一概念来描述系统变得混乱。

而香农的信息熵,描述的是一个信息的不确定性。

信息熵越大,信息的不确定性越大;信息熵越小,信息的不确定性越小。

比如,沙漠地区,经常不下雨,如果天气预报说明天沙漠地区无雨——

这句话信息熵就很小,因为这条信息几乎是确定的。

而我们这里明天到底下不下雨,不确定。

不确定,也就是信息熵更大。

本质上信息熵是对不确定程度的描述。

再举个例子,比如,一张纸上,我就写一个【水】字。

这张纸可以说是一个系统,这个系统只有一个符号。

那这个符号出现在这个系统的概率就是百分百,也就是说:

“水”这个字出现在纸上的概率就是百分百。

——很确定,信息熵小。

香农衡量信息熵的数学公式,(下面有图)这个公式的显著特点是对概率取对数。

一张纸写个水字,这个系统只有一个信息,出现这个水字的概率是百分百,也就是1.

那么它的信息熵就是log₂1 ,而log₂1= 0,信息量为0。

意味着这个系统的信息是确定的,不混乱。

如果一个系统有两个信息,比如扔硬币。

正面的概率和反面的概率都是0.5,log₂0.5=-1.

但这个系统的信息熵就不是-1,还得加起来。

但不是直接加,而是正面出现的概率乘以-1,反面出现的概率乘以-1——

0.5×(-1)+0.5×(-1),然后这个式子前面再加个负号:

即-【0.5×(-1)+0.5×(-1)】=1。

因为概率取对数总是负的,所以前面就要加负号,让这个信息熵是正的。

进一步,一篇文章3000字,一个字出现了5次,那么这个字出现的概率就是5÷3000.

文章肯定还有别的字,你、我、他、的、得、地……

把这些字出现的概率全都统计出来;再把概率取对数;然后,对数结果再乘以出现的概率;最后加在一起——就能算出这个系统的信息熵。

03

信息量

信息熵越大,越混乱,说明什么呢?信息多吗?

是的。

一个系统,只有一个“水”字,信息熵为0——意味着这个系统啥信息也不能传递。没意义。

有2个符号就不一样了。

扔硬币,正反两种结果,相当于两个符号出现的频率都是50%,结算结果就是:1

这个系统的信息熵是1,我们可以说成每个符号可以传递1bit的信息。

等于信息熵越大,越混乱,传递的信息越多。

到这里我们总结一下,影响一个系统信息熵的因素有2个:

符号的多少,还有符号出现的概率。

一个系统,符号少信息就少,如“水”字的例子;符号出现的概率,也是参与公式的计算的。

到这儿,你可以隐约感觉出来,中文的信息量是很大的。

因为中文符号多,也就是字多。

2019年的时候,一个数学博主做过统计,单个汉字的信息熵是9.5,单个英文字母的信息熵为3.9.

他这个计算的文本可能选的不对,我们国家的学者用大数据统计,得出的是每个汉字信息熵9.71。

很高了!

中文使用的字符多——也就是字多,且每个字符之间的关联度也不大。

关联度不大就意味着每个字出现的频率高且均匀。

先说字符多。

汉字有很多个,等于我们创造的符号本身就多,而英语只有26个字母。

其实我们的汉字和他们的字母都相当于积木块。

我们用积木拼在一起表达意思:

英语是用字母拼在一起成为单词和词组还有句子;我们是用汉字拼在一起组成词组和句子等。

等于说都是用“符号”拼到一起表达意思。

那么,符号多,信息熵就高,传递的信息量就大。

● 再说概率。

我们中文字符关联度不大。

关联度不大就意味着,在一篇文章中省掉一些词一些字,意思就不一样了。

比如:

我今天想去上班,你省略了不字,意思就不一样了。或者,我不想去上班——时间模糊,你省掉了今天、昨天这些时间词。

我们这些积木块,省掉一块,就不一样。

那就意味着:每个字都很关键!

你也很关键我也很关键,那么我们使用的频率就不会差别过于大。

所以,每个字出现的频率相对英文字母来说是很均匀的。

英语单词是很多字母组合是在一起的,丢一些也不影响理解。

经常读英文文章的人会知道,一些单词拼写错误,不影响整体意思。

那么英文的字母频率就不均匀。

就好比你算平均数的时候,如果不均匀结果就没有均匀的结果好。

就好像方差特别大,一个运动员不稳定,那么他的数据就不好看。

在公式这里,不均匀,代入公式就会发现,计算结果就是:

信息熵小。均匀,信息熵大。

整体来说:中文用到的字符多,字符之间关联不大,所以信息量大。

完全符合香农的公式。

你看,数学上给出了很好的解释。

04

高效率

信息熵大,信息量就大,信息量大,效率就高?

这一点还差个逻辑闭环。

咱们再举个例子,你开车回老家,高速路上没人,就你一辆车,你能说自己充分利用了高速公路吗?

不是的,有一些资源是浪费的。

车多,又不至于拥堵的时候,叫高效利用了高速公路。

现在咱们信息熵高,就意味着车多,不是只有你一辆车;车多了在信息传递的时候,利用信息通路的效率就高;

无论这个通路是打电话还是一本书还是说几句话,发电报,如果用中文,就是效率高。

比如开头说的整字,整字发四声,“开动”这个信息就到位了——

效率高,每个字携带的信息量在这儿放着呢!

这里有个香农公式——对,真正意义上的香农公式。

这个公式描述的是信道容量的理论上限,属于信息论的核心公式。

信道利用率高,效率就高——同样传递信息,用信息量高的中文更划算。

附图,感兴趣自己去延伸探索一下,这里不再详细说了。

05

题外话

仓颉是个穿越者吗?

没准儿还真是——开个玩笑。

上篇讲汉字的数字化之旅时说过,好多古文明最初都用象形文字,汉字也是象形字。

汉字的数字化之旅

上古时期,人类的字体大致都这个路数,因为认知水平在这儿呢。

但是后来有些文明断代了,有些文明改进了。

比如腓尼基商人,他们因为贸易需求,书写象形字比较困难——象形字符号太多了,不容易记。

没有大规模的教育系统,让许多人都能识别象形字符是没办法完成的。

学起来难呐。

我们一直都在使用汉字,是因为我们的文化没断代。而且我们的教育一代一代的,一直在拷贝和复制汉字。

这在一个大国里、一个有强大政府系统的社会里,相对来说容易推广实行。

而腓尼基人不行——

他们就改进了象形字,去掉了好多符号,发展成最初的字母。

后来又被希腊人借鉴,再后来演变成了今天的英文字母。

然而,刚开始难,往后就不难了。

认识了常用字之后,你就可以顺利阅读了。

英语不行,必须懂语法。

英语属于屈折语,屈折语用的符号不多。

符号不多又要表达很多意思,你就要弥补符号不多的缺点。

比如,组成更多的英语词汇——英语单词非常多。

比如,葡萄,grape,但葡萄酒、葡萄干,葡萄架、葡萄酒瓶、葡萄酒桶……这些都要发明新词。

现在英语词汇就有100万个,普通人一辈子都记不完。

而汉语是分析语,分析语词型固定。

比如葡萄就是一个固定搭配,那么:

配上一个干字,就是葡萄干;配上一个架字,就是葡萄架……

——很容易理解,而且认知负担小。

哪怕一个新词,比如电脑,人工智能,这些都是我们认识的字组成的。

哪怕再来一些新词,依然可以用3500个常用字搭配出来。

适应性特别强!

等于,越往后,汉语越好学。

季羡林就说:汉语是世界上最简练的语种,同样一个意思,汉语5秒钟搞定,英语得60秒。

大可以因为会中文而骄傲。

中文系统,上完小学,阅读没问题——基本95%的书你都能读。

除了特别难的专业书籍,比如讲高等数学的。

意思你不理解,最起码每个字你都认识。

而英语世界,好多成年人连莎士比亚都读被不下来。

莎士比亚属于古英语,里面好多词跟现在不一样,且英语单词太多了,好多人也就记几个常用的。

而我们汉语是延续的,象形字没有太大变化:

现在我们还能读懂2000年前的屈原;还能读四大名著,这是汉字给的能力。

到现在,英语世界初中毕业,基础水平的学生,只能读简单的材料。

所以他们的学生要上大量阅读课,而我们其实没必要——

如果语文考试不那么玄乎的话。

中文世界,小学四年级结束,只要愿意读书,读肯定没问题。

而读出来什么东西,搞点输出,要看个人阅历,跟技巧关系不是很大。

我这么说可能会断了一些阅读辅导班的财路。

反正我没有经过阅读训练,我觉得我读的比很多、很多人都好。

汉字早就赋予了我们基础能力,这个基础能力在阅读能力上,让我们超越了世界其他地方。

不过,咱也不能一味骄傲,中文也有缺点。

就比如,我们的影视剧都配字幕。

我们中文同音字太多了,比如一个“mu”就有很多很多的字。而英文相对好很多:英文是表音文字,一个音,基本上对应一个词。

当然也有重复的,远没咱们重复的多。

咱根据语境,其实也能理解,比如我说伐木,你大概率上不会理解为别的意思。

但习惯性的要看一下字幕,看看自己理解的是不是准确。

另外,我们国家大,各地方的方言不一样,如果某个剧说方言,不配字幕——

大家听不懂,理解不了意思。

哪怕是说普通话的剧,也因为演员咬字问题,会产生一些歧义,也得配。

另外一些语言类节目老玩梗,你不看字,梗就听不懂。

比如脱口秀就老有谐音梗。

还有小品,相声,诗歌等等——不配字幕不行。

慢慢的咱们也习惯了,没有字幕反而觉得缺点啥。

而英语配字幕,那么一大串字,大脑还没读完呢,就翻页了,反而造成焦虑。

他们听音就够了——再说,看的话,他们也不一定都认识那些单词。

开个玩笑啦~

总结

这篇从数学上讲了为啥咱们中文效率高:

数学允许这事发生。

下次再有人问,中文为啥效率高?

大家就可以说,数学说的。

大家都在看

  • 雅鲁藏布江——世界最高的通航大河

    雅鲁藏布江——世界最高的通航大河 一、河流概况:高原巨川的水文特征雅鲁藏布江干流在中国境内全长2057公里,约占全河流程的2/3;中国境内流域面积约24.05万平方公里,多年平均流量达每秒4425余立方米。作为一条高海拔河流,其河床高程普遍在3000米以 ... 世界最高01-28

  • 海拔5299米!紫金矿业按下全球海拔最高铜选矿厂启航键!

    海拔5299米!紫金矿业按下全球海拔最高铜选矿厂启航键! 2026年1月23日,西藏墨竹工卡县,海拔5299米。寒风刺骨,氧气稀薄,这片“生命禁区”的心脏却强劲搏动——巨龙铜业二期投产仪式正在举行。厂房前红毯如炬,来自各方的代表与数百名脸庞泛红、眼含激动的建设者齐聚于 ... 世界最高01-28

  • 世界冷知识:世界上最高的建筑有多高

    世界冷知识:世界上最高的建筑有多高 828米!人类建筑史上的巅峰之作在阿联酋迪拜的沙漠之中,一座银色的巨塔直插云霄,这就是目前世界上最高的建筑——哈利法塔。这座建筑奇迹高达828米,拥有162层,自2010年建成以来一直保持着世界第一高楼的纪录,成 ... 世界最高01-28

  • 世界最高电压,中国突破

    世界最高电压,中国突破 世界最高电压,中国突破。江苏亨通高压海缆成功研制正负525千伏直流海缆,攻克深远海风电长距离输电的世界性难题。其独特的“瓦楞式”型线结构与极致工艺,实现百公里级高效电力传输,为全球提供更低碳的能源解决方 ... 世界最高01-28

  • 世界最大的岛屿:格陵兰岛

    世界最大的岛屿:格陵兰岛 格陵兰,世界第一大岛的名字却源自“绿色土地”的期许。这片被丹麦管辖的自治领土,如同北极冠冕上的钻石——其超过80%的面积被平均厚度超过1500米的巨大冰盖覆盖,储存着全球约8%的淡水资源,是地球气候系统至关重 ... 世界最高01-27

  • 世界上只有中国广西才有的全球独一无二的10大奇景

    世界上只有中国广西才有的全球独一无二的10大奇景 作为走遍广西山水的旅行爱好者,我一直坚信,广西藏着中国最独特的风光密码。这片土地上,有着10处全球独一份的奇景,皆是亿万年地质雕琢与民族文化交融的瑰宝,这份只属于中国广西的独家美景清单,此生打卡一处便觉 ... 世界最高01-27

  • 探访世界海拔最高的铁路信号工区

    探访世界海拔最高的铁路信号工区 ⬆️1月23日,扎加藏布信号工区信号工成格乐在整治轨道电路箱盒引接线。 海拔4886米的扎加藏布信号工区,坐落于西藏那曲市安多县岗尼乡,是世界上海拔最高的铁路信号工区。这里常年朔风凛冽、酷寒彻骨,冬季气温常跌 ... 世界最高01-26

  • 复杂科技手段“托起”桥身,全球最大跨度混合梁V型墩连续刚构桥通车

    复杂科技手段“托起”桥身,全球最大跨度混合梁V型墩连续刚构桥通车 长江日报大武汉客户端1月22日讯 1月22日11时38分,昌南大桥正式通车。这座由南昌市公路事业发展中心投资、中交二航局承建的大桥,在“夹心饼干”一般的地质中稳立根基、以“白鹭展翅”雄踞赣江,成为南昌又一地标性 ... 世界最高01-24

  • 从欧洲最矮到世界最高,荷兰人是如何实现身高逆袭的?

    从欧洲最矮到世界最高,荷兰人是如何实现身高逆袭的? 关注我,获取每天的精彩科普知识 【趣味莲花科普】从欧洲最矮到世界最高:荷兰人两百年身高逆袭密码。 在全球身高版图上,荷兰是一个堪称“奇迹”的存在。两百年前,荷兰人还是欧洲平均身高垫底的“矮个子民族”,男 ... 世界最高01-24

  • 全球最大IPO,有新消息

    全球最大IPO,有新消息 马斯克旗下火箭制造商SpaceX正在为一场可能创下全球纪录的IPO做准备,选定四家华尔街投行担任主承销商。据英国《金融时报》援引知情人士透露,SpaceX的高管们最近几周与美国银行、高盛、摩根大通和摩根士丹利的银行 ... 世界最高01-24