汉语,是世界上效率最高的语言:骄傲到跺脚!

发布者:隔水望伊人 2025-12-9 10:13

以上是本期音频∧

以下是本期文稿∨


咱们汉语是世界上效率最高的语言。

一个字,就能表达很多意思。

比如,“整”这个字,声调不同,意思大不一样。

01

太优秀

同样一本小说——英文小说,翻译成中文就变薄了。

我们汉语的字词承载的信息量大,不需要那么多字。

比如《哈利波特与魔法石》,英文版300多页,中文版200多页。

咱们中文就是简洁有效!

你可能会说:作为中国人说这话,有骄傲的成分。

然而,在数学上,也是如此。

02

信息熵

香农公式是用来描述信息熵的,熵是香农从热力学里借用的概念。

在热力学里,熵是指一个系统的混乱程度。

说一个系统总是从有序到混乱,越混乱熵越大这就是熵增。

现在很多领域都引入了“熵增”这一概念来描述系统变得混乱。

而香农的信息熵,描述的是一个信息的不确定性。

信息熵越大,信息的不确定性越大;信息熵越小,信息的不确定性越小。

比如,沙漠地区,经常不下雨,如果天气预报说明天沙漠地区无雨——

这句话信息熵就很小,因为这条信息几乎是确定的。

而我们这里明天到底下不下雨,不确定。

不确定,也就是信息熵更大。

本质上信息熵是对不确定程度的描述。

再举个例子,比如,一张纸上,我就写一个【水】字。

这张纸可以说是一个系统,这个系统只有一个符号。

那这个符号出现在这个系统的概率就是百分百,也就是说:

“水”这个字出现在纸上的概率就是百分百。

——很确定,信息熵小。

香农衡量信息熵的数学公式,(下面有图)这个公式的显著特点是对概率取对数。

一张纸写个水字,这个系统只有一个信息,出现这个水字的概率是百分百,也就是1.

那么它的信息熵就是log₂1 ,而log₂1= 0,信息量为0。

意味着这个系统的信息是确定的,不混乱。

如果一个系统有两个信息,比如扔硬币。

正面的概率和反面的概率都是0.5,log₂0.5=-1.

但这个系统的信息熵就不是-1,还得加起来。

但不是直接加,而是正面出现的概率乘以-1,反面出现的概率乘以-1——

0.5×(-1)+0.5×(-1),然后这个式子前面再加个负号:

即-【0.5×(-1)+0.5×(-1)】=1。

因为概率取对数总是负的,所以前面就要加负号,让这个信息熵是正的。

进一步,一篇文章3000字,一个字出现了5次,那么这个字出现的概率就是5÷3000.

文章肯定还有别的字,你、我、他、的、得、地……

把这些字出现的概率全都统计出来;再把概率取对数;然后,对数结果再乘以出现的概率;最后加在一起——就能算出这个系统的信息熵。

03

信息量

信息熵越大,越混乱,说明什么呢?信息多吗?

是的。

一个系统,只有一个“水”字,信息熵为0——意味着这个系统啥信息也不能传递。没意义。

有2个符号就不一样了。

扔硬币,正反两种结果,相当于两个符号出现的频率都是50%,结算结果就是:1

这个系统的信息熵是1,我们可以说成每个符号可以传递1bit的信息。

等于信息熵越大,越混乱,传递的信息越多。

到这里我们总结一下,影响一个系统信息熵的因素有2个:

符号的多少,还有符号出现的概率。

一个系统,符号少信息就少,如“水”字的例子;符号出现的概率,也是参与公式的计算的。

到这儿,你可以隐约感觉出来,中文的信息量是很大的。

因为中文符号多,也就是字多。

2019年的时候,一个数学博主做过统计,单个汉字的信息熵是9.5,单个英文字母的信息熵为3.9.

他这个计算的文本可能选的不对,我们国家的学者用大数据统计,得出的是每个汉字信息熵9.71。

很高了!

中文使用的字符多——也就是字多,且每个字符之间的关联度也不大。

关联度不大就意味着每个字出现的频率高且均匀。

先说字符多。

汉字有很多个,等于我们创造的符号本身就多,而英语只有26个字母。

其实我们的汉字和他们的字母都相当于积木块。

我们用积木拼在一起表达意思:

英语是用字母拼在一起成为单词和词组还有句子;我们是用汉字拼在一起组成词组和句子等。

等于说都是用“符号”拼到一起表达意思。

那么,符号多,信息熵就高,传递的信息量就大。

● 再说概率。

我们中文字符关联度不大。

关联度不大就意味着,在一篇文章中省掉一些词一些字,意思就不一样了。

比如:

我今天想去上班,你省略了不字,意思就不一样了。或者,我不想去上班——时间模糊,你省掉了今天、昨天这些时间词。

我们这些积木块,省掉一块,就不一样。

那就意味着:每个字都很关键!

你也很关键我也很关键,那么我们使用的频率就不会差别过于大。

所以,每个字出现的频率相对英文字母来说是很均匀的。

英语单词是很多字母组合是在一起的,丢一些也不影响理解。

经常读英文文章的人会知道,一些单词拼写错误,不影响整体意思。

那么英文的字母频率就不均匀。

就好比你算平均数的时候,如果不均匀结果就没有均匀的结果好。

就好像方差特别大,一个运动员不稳定,那么他的数据就不好看。

在公式这里,不均匀,代入公式就会发现,计算结果就是:

信息熵小。均匀,信息熵大。

整体来说:中文用到的字符多,字符之间关联不大,所以信息量大。

完全符合香农的公式。

你看,数学上给出了很好的解释。

04

高效率

信息熵大,信息量就大,信息量大,效率就高?

这一点还差个逻辑闭环。

咱们再举个例子,你开车回老家,高速路上没人,就你一辆车,你能说自己充分利用了高速公路吗?

不是的,有一些资源是浪费的。

车多,又不至于拥堵的时候,叫高效利用了高速公路。

现在咱们信息熵高,就意味着车多,不是只有你一辆车;车多了在信息传递的时候,利用信息通路的效率就高;

无论这个通路是打电话还是一本书还是说几句话,发电报,如果用中文,就是效率高。

比如开头说的整字,整字发四声,“开动”这个信息就到位了——

效率高,每个字携带的信息量在这儿放着呢!

这里有个香农公式——对,真正意义上的香农公式。

这个公式描述的是信道容量的理论上限,属于信息论的核心公式。

信道利用率高,效率就高——同样传递信息,用信息量高的中文更划算。

附图,感兴趣自己去延伸探索一下,这里不再详细说了。

05

题外话

仓颉是个穿越者吗?

没准儿还真是——开个玩笑。

上篇讲汉字的数字化之旅时说过,好多古文明最初都用象形文字,汉字也是象形字。

汉字的数字化之旅

上古时期,人类的字体大致都这个路数,因为认知水平在这儿呢。

但是后来有些文明断代了,有些文明改进了。

比如腓尼基商人,他们因为贸易需求,书写象形字比较困难——象形字符号太多了,不容易记。

没有大规模的教育系统,让许多人都能识别象形字符是没办法完成的。

学起来难呐。

我们一直都在使用汉字,是因为我们的文化没断代。而且我们的教育一代一代的,一直在拷贝和复制汉字。

这在一个大国里、一个有强大政府系统的社会里,相对来说容易推广实行。

而腓尼基人不行——

他们就改进了象形字,去掉了好多符号,发展成最初的字母。

后来又被希腊人借鉴,再后来演变成了今天的英文字母。

然而,刚开始难,往后就不难了。

认识了常用字之后,你就可以顺利阅读了。

英语不行,必须懂语法。

英语属于屈折语,屈折语用的符号不多。

符号不多又要表达很多意思,你就要弥补符号不多的缺点。

比如,组成更多的英语词汇——英语单词非常多。

比如,葡萄,grape,但葡萄酒、葡萄干,葡萄架、葡萄酒瓶、葡萄酒桶……这些都要发明新词。

现在英语词汇就有100万个,普通人一辈子都记不完。

而汉语是分析语,分析语词型固定。

比如葡萄就是一个固定搭配,那么:

配上一个干字,就是葡萄干;配上一个架字,就是葡萄架……

——很容易理解,而且认知负担小。

哪怕一个新词,比如电脑,人工智能,这些都是我们认识的字组成的。

哪怕再来一些新词,依然可以用3500个常用字搭配出来。

适应性特别强!

等于,越往后,汉语越好学。

季羡林就说:汉语是世界上最简练的语种,同样一个意思,汉语5秒钟搞定,英语得60秒。

大可以因为会中文而骄傲。

中文系统,上完小学,阅读没问题——基本95%的书你都能读。

除了特别难的专业书籍,比如讲高等数学的。

意思你不理解,最起码每个字你都认识。

而英语世界,好多成年人连莎士比亚都读被不下来。

莎士比亚属于古英语,里面好多词跟现在不一样,且英语单词太多了,好多人也就记几个常用的。

而我们汉语是延续的,象形字没有太大变化:

现在我们还能读懂2000年前的屈原;还能读四大名著,这是汉字给的能力。

到现在,英语世界初中毕业,基础水平的学生,只能读简单的材料。

所以他们的学生要上大量阅读课,而我们其实没必要——

如果语文考试不那么玄乎的话。

中文世界,小学四年级结束,只要愿意读书,读肯定没问题。

而读出来什么东西,搞点输出,要看个人阅历,跟技巧关系不是很大。

我这么说可能会断了一些阅读辅导班的财路。

反正我没有经过阅读训练,我觉得我读的比很多、很多人都好。

汉字早就赋予了我们基础能力,这个基础能力在阅读能力上,让我们超越了世界其他地方。

不过,咱也不能一味骄傲,中文也有缺点。

就比如,我们的影视剧都配字幕。

我们中文同音字太多了,比如一个“mu”就有很多很多的字。而英文相对好很多:英文是表音文字,一个音,基本上对应一个词。

当然也有重复的,远没咱们重复的多。

咱根据语境,其实也能理解,比如我说伐木,你大概率上不会理解为别的意思。

但习惯性的要看一下字幕,看看自己理解的是不是准确。

另外,我们国家大,各地方的方言不一样,如果某个剧说方言,不配字幕——

大家听不懂,理解不了意思。

哪怕是说普通话的剧,也因为演员咬字问题,会产生一些歧义,也得配。

另外一些语言类节目老玩梗,你不看字,梗就听不懂。

比如脱口秀就老有谐音梗。

还有小品,相声,诗歌等等——不配字幕不行。

慢慢的咱们也习惯了,没有字幕反而觉得缺点啥。

而英语配字幕,那么一大串字,大脑还没读完呢,就翻页了,反而造成焦虑。

他们听音就够了——再说,看的话,他们也不一定都认识那些单词。

开个玩笑啦~

总结

这篇从数学上讲了为啥咱们中文效率高:

数学允许这事发生。

下次再有人问,中文为啥效率高?

大家就可以说,数学说的。

大家都在看

  • 汉语,是世界上效率最高的语言:骄傲到跺脚!

    汉语,是世界上效率最高的语言:骄傲到跺脚! 以上是本期音频∧以下是本期文稿∨咱们汉语是世界上效率最高的语言。一个字,就能表达很多意思。比如,“整”这个字,声调不同,意思大不一样。01太优秀同样一本小说——英文小说,翻译成中文就变薄了。我们汉语的字 ... 世界最高12-09

  • 全球最大冰淇淋帝国独立上市:梦龙三地敲钟开启新征程

    全球最大冰淇淋帝国独立上市:梦龙三地敲钟开启新征程 财联社12月8日讯(编辑 赵昊)周一(12月8日),联合利华分拆出来的梦龙冰淇淋公司(The Magnum Ice Cream Company N.V. )分别在阿姆斯特丹、伦敦和纽约上市,成为一家三地挂牌的上市公司。截至发稿,梦龙股票已经 ... 世界最高12-09

  • 中国在世界最高矿井(海拔5600米)上试验无人驾驶卡车

    中国在世界最高矿井(海拔5600米)上试验无人驾驶卡车 在新疆和田县火烧云铅锌矿,一场静悄悄的技术革命正在海拔5600米的昆仑山深处展开。中国自主研发的无人矿用卡车成功完成矿石装载与运输测试,标志着全球最高海拔无人矿井的技术验证取得突破性进展。这一高度超越了秘 ... 世界最高12-09

  • 全球最大LED影厅屏幕将亮相成都

    全球最大LED影厅屏幕将亮相成都 【环球网科技综合报道】12月8日消息,“成都发布”信息显示,成都简阳东来印象综合运营项目首波体验亮点——太平洋影城,装修进度已完成90%以上,预计今年12月17日正式开门迎客。届时,目前全球最大的LED影厅屏幕将 ... 世界最高12-09

  • 受客户群易变等因素影响,全球最大冰淇淋上市首日股价受挫

    受客户群易变等因素影响,全球最大冰淇淋上市首日股价受挫 【环球网财经综合报道】日前,全球最大冰淇淋公司、联合利华旗下梦龙冰淇淋公司在阿姆斯特丹泛欧交易所、伦敦证券交易所和纽约证券交易所同时上市交易。公开数据显示,2024年该公司实现营收79亿欧元,占据全球冰淇淋 ... 世界最高12-09

  • 早安广东

    早安广东 打卡广东 潮州广济桥。温亿中 摄广东要闻“世界最大蝙蝠”首次亮相广州长隆近日,“世界最大蝙蝠”首次亮相广州长隆飞鸟乐园,包括马来大狐蝠与印度狐蝠。作为国内目前唯一展示马来大狐蝠、印度狐蝠的保育机构,广州 ... 世界最高12-08

  • 世界最大的城市重庆!你知道他到底有多牛吗?

    世界最大的城市重庆!你知道他到底有多牛吗? 最大的城市重庆,有人说它太牛了。这里是全世界最大的城市重庆,你知道重庆到底有多牛?今天让我们一起走进山城重庆,感受它的独特魅力。重庆简称"渝",总面积82402平方公里,相当于5个北京、13个上海,总人 ... 世界最高12-08

  • 世界最大的10个国家,它们的首都却很少靠海?

    世界最大的10个国家,它们的首都却很少靠海? 全球大国首都都“跑偏”了?真相藏着大智慧你有没有过这种感觉摊开世界地图,盯着面积最大的那些国家总觉得它们的首都长错了地方。俄罗斯的莫斯科贴在西边国境线,离东边足足7000多公里;加拿大的渥太华几乎挨着美国 ... 世界最高12-08

  • “世界最大蝙蝠”首次亮相广州长隆飞鸟乐园

    “世界最大蝙蝠”首次亮相广州长隆飞鸟乐园 12月5日,广州长隆飞鸟乐园首次向公众集中展出“世界最大蝙蝠”——马来大狐蝠(Pteropus vampyrus)与印度狐蝠(Pteropus medius)。作为国内目前唯一展示马来大狐蝠、印度狐蝠的保育机构,广州长隆已成功建立起国 ... 世界最高12-08

  • 还是中系排面!坦克世界单发最高口径最大重坦BZT-70登陆圣诞活动

    还是中系排面!坦克世界单发最高口径最大重坦BZT-70登陆圣诞活动 要说哪个军武游戏的中系最排面,《坦克世界》绝对有一席之地。之前2.0版本更新时,首发的11级重坦中就有中系的身影——那台BZ-79算的上T0梯队强度,堪称11级重坦上限最高的存在。而昨天上线的假日行动中,《坦克世界 ... 世界最高12-07