语言学家揭秘:世界上最快的语言是哪一种?出乎你的意料!

发布者:留在记忆中 2024-4-11 11:22

#科普##语言##速度#

在一个阳光明媚的午后,年轻的语言学家弗朗索瓦·佩莱格里诺坐在他位于小镇中心的研究室里。他不是一个普通的语言学家,而是一个专注于解开世界语言之谜的定量语言学家。今天,他对着他的笔记本,思索着一个深奥而又有趣的问题:“世界上最快的语言是什么?”

对于这个问题,有太多的变数,因为“最快”可以有多种不同的定义。是指在单位时间内说出的单词或音节的数量?还是指传达的信息量?或者是用最少的单词或音节表达一种陈述的语言?这个问题复杂而又有趣。

作为一名定量语言学家,佩莱格里诺经常涉及测量语言之间的差异,并探索这些差异背后的奥秘。他曾进行过多次关于语言速度的研究,其中一项研究比较了17种不同语言在各种指标上的表现。

然而,想要回答这个问题,不仅仅是简单地数音节数,还要考虑到信息的密度。对于每个音节,有两种方式来看待它们。一种是考虑它们的发音及传达的信息,另一种是通过听一些未知的语言,然后询问听者是否感觉这种语言听起来很快。这些都是他研究的指标之一

有一系列指标用于衡量语言的表达效率。比如,每单位时间的音节总数,看似简单,但实际上并不容易测量;佩莱格里诺的团队选择依赖“规范”的发音,即使说话者将“probably”发音为“probly”,也会被记为三个音节。

另一个指标是“信息密度”,理论上指的是每秒传达的信息量。这更加复杂;要准确定义它是一场噩梦。克劳德·香农提出了一种技术含义,涉及听者如何快速减少对正在接收的信息的不确定性。这需要计算一种语言中可能的音节数量、每个音节的相对流行度,以及某个音节跟随另一个音节的概率。这些都涉及到相当多的数学,令人头疼。

语言的相对信息率通常为0.90或更高,其中英语最高,日语最低

像佩莱格里诺这样的语言学家发现,音节每秒的速率和信息密度存在反比关系。例如,日语每秒说出的音节数量很高,但每个音节编码的信息却较少。因此,尽管日语输出速度更快,但要传达与一种慢语言如越南语相同的信息量,则需要更多的音节。

然而,并不是说像越南语甚至英语这样的语言更有效率。日语的音节大多包含一个辅音后跟一个元音,而英语的元音音数量则更多。仅仅通过在不同的位置使用“A”,我们就能够形成“cat”、“can”、“cane”、“calm”等单词。英语中的单个音节可以非常复杂,例如,“strength”一词涉及大量繁琐的辅音群。越南语更进一步,增加了音调,因此音节的音调或音高也可以携带信息。总的来说,音节的复杂性越高,携带的信息就越多。因此,虽然日语比英语说得更快,但如果英语可以用更少的音节传达相同的信息,则日语真的“更快”吗?

“信息”的概念在某种程度上也相当模糊。语言充满了混乱、不一致和冗余。例如,英语句子“I am”直译成西班牙语为“Yo soy”,但“Yo”这个词是多余的,通常会省略。

在希伯来语中,没有“to be”的动词,所以要表达“我饿了”,你会说“אני רעב”,意为“我饿”。这个希伯来语是一个很好的例子,因为“饿”的单词实际上涉及到了性别;女性会说“אני רעבה”,这增加了一个额外的音节,但也增加了额外的含义。因此,虽然英语和希伯来语在音节数上相同,但要传达希伯来语中的所有信息,英语必须更像“我,一个男人,饿了”,这就更长了。

有时甚至信息量可以更加密集。在潘美斯语中,这是在瓦努阿图的一个岛上说的语言,所有格可以包括说话者和对象之间的关系信息。“我的椰子”不仅仅是“我的椰子”。 “我的”这个词可以表示“我打算吃的我的椰子”,或者“我种的我的椰子”,或者“我打算在我的家庭中以某种方式使用的我的椰子,而不是吃或喝”。这比英语版本更有效地利用了空间!因此,在某种意义上,它“更快”吗?

即使在英语中,我们也可以将“I am”缩写为“I’m”,尽管许多缩写实际上并没有减少音节数(例如,“shouldn’t”和“should not”都是两个音节)。在所有语言中,都有可能删除相当数量的音节,仍然能够传达信息。语言往往被编码成大量的冗余,但这确实有一个目的。冗余允许即使听者不熟悉说话者的口音,或听不清说话者,或缺乏注意力,也能理解。如果你将一个句子编辑到绝对的最小限度,它将需要相当大的注意力和正确的环境才能理解,甚至可能需要一些有根据的猜测,以了解说话者试图传达的内容。

考虑到这么多的变量,可能无法断定哪种语言是最快的。但是,通过从不同角度审视这个问题,就像为客户量身定制一样,我们可以得到一些非常有趣的信息。

佩莱格里诺和其他一些研究人员在2019年发表了一篇论文,该论文在少数理解克劳德·香农数学的人群中引起了很大关注。他们的研究发现,在纯音节每秒的速率方面,日语、西班牙语和巴斯克语是研究对象中最快的语言。而汉语、越南语和泰语是最慢的。

然而!需要解释一下:最快的三种语言只有五个元音,而最慢的三种语言有20个以上,并且都是声调语言,这意味着这些语言中可能的音节数量巨大。

佩莱格里诺发现,总体而言,当考虑到所有因素时,所有语言传达信息的速度大致相同:每秒约39比特。音节每秒的速率越高,信息密度就越低,这导致了一种权衡,使得所有语言在信息传输速率方面大致相等。

佩莱格里诺没有研究到一些相当显著的语言群体中的任何语言。斯瓦希里语和阿拉伯语的缺席引起了一些观察者的注意,尽管测量大约7000种语言可能并不可行。此外,一个基本问题是,实际上确定“意义”包含什么非常困难。他所使用的香农的概念不完全涉及“意义”,而是涉及“信息”的一个非常具体的定义,与不确定性有关,这……嗯,有点不完美,也让我头疼。

另一个可能提供额外数据的元素是语言学家所说的“韵律”,即语音的语调和节奏。我们是否应该在分析中考虑暂停?(佩莱格里诺没有考虑;暂停不适用于他正在研究的特定类型的速度。)节奏呢?一些语言,比如日语和西班牙语,每个音节占用相同的时间长度。但日语也有一些相当复杂的方式来填补不确定的空白。

由于语言有太多的元素,像“速度”这样的单一指标无法涵盖所有方面。这有点像问“哪个国家最好?”答案会根据问题中没有指定的各种变量而改变。这并不是说尝试回答这个问题没有一定的价值。

综上所述,最快的语言可能是日语(速度越快,信息率越低),但要理解这个问题,我们必须从多个角度来审视语言的表达效率。

大家都在看

返回顶部