西西河

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163 新:
全看分页树展 · 主题
家园 【原创】为什么汉语是世界上最先进的语言(上)

首先要承认标题只是个噱头。总看到有人在争论到底汉语是先进还是落后。虽然我不是专业人士,但是就用点通讯和存储上的概念来聊聊为什么汉语是一种非常先进的语言。需要注意的是,虽然以下的论证都是基于实际的实验数据,但是计算都很粗糙,而且实验的规模都不大。换句话说就是,虽然在这里汉语占优,但是换一批实验参与者,可能就倒过来了。现在实在没有什么特别全面的测试。所以下面的数字大家看看就行,不必太过认真。世界主要语言的效率其实都已经达到当前人脑的一个瓶颈了,总体看差异不大。我的目的也主要是打击一下逆向民族主义者。

一、语言水平高低的评判准则

口语,放在今天来分析,实际上是一种通讯协议。就是说,语言实际上是把人的思想通过发音器官变成一串频率不同、波形不同的声波,然后有另一个个体的听觉器官和相关的脑部组织重新转变回思想。通讯协议,就是一个规则,一个规定了应该如何把思想/信息转变为易于传输的信号的规则。计算机上,通讯协议基本上有这么两个评判标准:传输效率和抗噪能力。所谓传输效率,是说,在单位时间里,按照该通讯协议能够传输多少信息。所谓抗噪能力,是说这种通讯方式能够在多大的噪音下仍然保证绝大多数信息正确传输。

传输效率又有两个方面,一个是编码效率,一个是传输速度。编码效率是说,这个通讯协议能够把一个信息用多短的一串信号来表达。传输速度是说一段信号,能够以多快的速度传输。

评价一种语言的口语是否先进,就要分析上面这几个问题。

文字,则是一种数据存储方式。存储格式的要求与通讯协议不同。存储格式要求存空间小、读写速度快。相比于读取速度,书写速度是次要的。这是因为平均下来一次书写对应很多次阅读,而人在阅读文字上花的时间一般远远大于书写。尤其是现代社会,手写越来越少,计算机输入、打印、印刷都大大加快了记录文字的速度。而阅读速度却没有多少提升。因此在现代社会,阅读速度就在定义文字水平上占据了更重要的地位。

需要注意的是,下面的讨论中“音节”均采用西方语言学定义。粗略地讲就是一组连续元音与其前后的辅音共同构成一个音节。比如To、Bliss、Strength是单音节,汉语Ba、Chuang也是单音节。虽然单音节词的发音长度并不完全相同,但至少是可比的。

二、语言的分类

这个世界上的语言大致分为两种,一种叫做分析语(或称孤立语),一种叫做综合语(其下又划分为黏着语、屈折语等子类型)。简单地说,综合语可以通过改变词的形态来表达不同的意思。而分析语则单纯通过词与词之间的关系来表达不同的意思。

我们举个简单的例子:

中文(分析语):我昨天告诉他了。

英文(综合语):I told him yesterday.

英文你首先可以看到told和him两个变形。其中把tell变成told表示过去发生的动作,把he变成him表示客体。而中文用昨天来直接指明时间,如果不指明时间则需要用“已经”、“过”之类来表示过去,而并不改变词的形态。中文还通过各自的位置来体现谁是主体谁是客体。

实际上,英语已经是综合语中非常接近分析语的了。比方说英语的未来时态用的词形和一般时态没有区别。而很多其他语言中不同的时态都是用不同的词形来表达的。再比方说英文对于各个词的位置有明确的规定。而很多其他综合语,诸如拉丁语中,词的位置可以不固定。换句话说就是可以说出这样的句子:Him yesterday told I。然后通过词形里的主格词形和宾格词形来判断究竟是谁告诉了谁。

这是非常糟糕的,因为在读取的时候,总是有先后的差别。我们希望的读取顺序是:先读取我们的大脑需要先处理的部分。分析语天然就有这种优势。很多综合语在逐步的发展中也确立了类似的规则,比如拉丁语的后裔之一——法语。

上古古汉语也曾是一种综合语。但是由于汉字的限制,古汉语的词形变化仅存在于口头中。比方说文言文中的使动用法,如“文王以百里之壤而臣诸侯”中的臣(使臣服),在上古时期,是需要在汉字发音前加“s-”音来标识的。这就是一个典型的综合语的词形变化。

有人认为现在的汉语仍然带有一定的综合语色彩,他们认为加入诸如“了”、“的”这种助词实际上就是词的变形。这种看法就只能见仁见智了。

从整体发展趋势来看,世界各地的口语都是从综合语向分析语发展。虽然不能说分析语就一定优于综合语。但是这个趋势说明分析语的某种特性符合历史的发展。这个优势就是数据的压缩。

三、数据压缩:分析语的高超之处

当年计算机发展到了新的时代,人们开始研究如何在计算机上存储视频文件。一开始的方案极其简单,就是把一帧一帧图像全部都存储下来。但是这无疑是低效的。因为这里面的冗余信息太多。举个简单的例子。一个夜晚的场景,画面上很多地方都是黑的。何必把每一个点的色彩反复记录呢?所以接下来的一个思路就是,不再存储每一帧图像的完整信息,而存储下一帧图像与上一帧图像之间的差异之处。两幅图像中颜色一样的部分全部跳过。

分析语恰恰就具有这样的效果。举个简单的例子。一个人在用汉语谈论昨天发生的事情时,只需要一开始提及“下面这些事情都发生在昨天”,后面就再也不必提及时态了。而英文,则需要反复使用时态来表明这事情发生在过去。在交流时你需要时刻考虑时间、主格/宾格、数量、主动/被动。这对交流是有影响的。当然熟练使用这种语言之后会大大降低考虑这些的时间,但是即便熟练的综合语使用者还是会在这方面犯错。在上下文的帮助下,这些变化都可以省掉。时间变形,可以依靠在第一句中加入时间状语完成描述,其后描述相同时间段的句子就再也不用考虑描述时间了。这就是分析语的数据压缩能力。

当然,这并不是说分析语就一定优于综合语。在缺乏上下文的情况下,一句综合语可以用比较简单的形式传递比较多的信息。但是随着人类社会交流量的上升,一次交流的上下文就变得丰富起来,很多在单词、单句的条件下很有效率的信息交流方式,也就显得越来越冗余了。因此世界上的各个主要语言纷纷向分析语靠拢。

另外,有的人认为分析语劣于综合语,他们是这样说的“综合语只用几个字母组成一个词缀就能表示一个特定含义,而汉语做不到”。这就是没有看到,在当今世界上的实际交流中,上下文总是很丰富。这种变形的方式在单句下很有价值,但在实际交流中就没有什么意义了。

关于各个语言的表意效率,也就是信息密度,2011年法国里昂大学做了一个实验。http://www.time.com/time/health/article/0,8599,2091477,00.htmlhttp://ohll.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_2011_Language.pdf

这个实验里,研究者找了59位不同语言使用者,其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字,这些文字都翻译成各自的语言。然后请这些人分别用正常语速朗读。研究者全程录音。

然后研究者计算所有音节数量,计算朗读中表现的义项(表意的基本单位)的数量,然后得出结论。当然,这个实验并不能完全准确地表现各个语言的差异,但是还是可以用来定性的。

其中,汉语信息密度为0.94,位居第一。英语信息密度为0.91,位居第二。另外值得注意的是,距离分析语更远的法语(0.74)、德语(0.79)、意大利语(0.72)、西班牙语(0.63)的信息密度,都比到英语低。而日语信息密度为0.49,有人认为这是因为日语的表意方式与其他语言不同。

此处信息密度是通过计算每个音节所包含的义项数量来获得的。由于义项的数量是从原始文本——英文版里统计的。而翻译之后有可能会增加或减少义项。为了防止翻译过程中的扭曲造成数据标准不统一。各个语言的文本都被单独翻译为越南语,然后与各自越南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据。

这让我不由地想到,经过大规模注水的现代汉语信息密度还是这么高,那么文言文究竟已经高到了何种地步?很遗憾没有这方面的研究。不过,根据使用频率进行加权平均,现代汉语平均每个词中的字数差不多是1.5左右。在文言文中,其中很多都是用单音节词表达的。折中一下,我猜想文言文的信息密度达到现代汉语的1.25倍应该是不成问题的。这在古代更是个恐怖的数字。因为拉丁语可不是比现代欧洲各主要语言简单。受到古代文字记录空间的限制,汉语的显然在文字记录方面更加占优。这也许就是我国古代文字记录非常丰富的原因所在。

有人质疑说,有时候一个很长的音节意思很简单,而一个很短的单词意思却很复杂。这种情况当然是存在的。我需要说明的是,所有复杂事物的优劣都是一个统计概念,“高”并不是绝对在任何条件下都高,而是在大多数情况下高。如果一种语言平实交流平均下来就是比另一种语言多用一个音节,那么很显然其表意效率都是很低的。

还有人说,音节不能作为衡量信息密度的单位,因为不同的音节,发音长度很不一样。这个问题提的非常好。事实上我下一节就要讲到英语与汉语发音长度的问题。英语单音节平均发音长度比汉语长。因此在口语的信息密度方面,汉语的优势更大。

值得注意的是,可能由于汉字与读音是分离的,理解和朗读无法同步进行,所以用汉语朗读,就会比较慢。里昂大学的这个实验中,汉语朗读者每秒朗读5.18个音节。大大慢于其他语言(英6.19,法7.18,德5.97,意6.99,日7.84,西7.82)。因此在朗读中,汉语传递信息的效率比较低,换算出来的朗读信息传递效率为英1.08、法0.99、德0.90、意0.98、日0.74、中0.94、西0.98。

当然,以上里昂大学的研究也受到了一些批评。有人觉得做的太糙了,而且有些地方不能自圆其说。比如按文中数据明明日语表意效率明显低,但作者又说其实一分钟内各个语言表达的信息量是差不多的。

四、传输的优势:声调

口语信息的传输,是通过声音完成的。声音一般分为四个部分:音质、音高、音长、音强。对于语言的一个音节来说,音质指的是其中辅音与元音的组合。其他三个都很好理解。

一般现代语言不太规定音强,因为这实在无法在各个人之间得到统一,而且受到说话人的距离、情绪、身体状态等影响。此处需注意,英语中的“重读”,实际上是音高变化。

而剩余的三个元素,则都在语言中得到了广泛的运用。

我们拿汉语举例,音质很容易理解,就是发音除去声调。而声调本身则分为音高和音长两项。

汉语普通话的四声,是四种不同音高变化模式。一声是保持音高。二声是音高由低到高变化。三声是音高从高到低再到高。四声是音高由高到低。虽然我们当年语文课里说轻声是没有声调,但实质上轻声是缩短音长。轻声一般是缩短音长的四声或一声(有时音高很低)。不过轻声很短,比较难以听清,所以普通话中仅作为特定用途使用(语气助词、复数标志等)。

英语的重读实际上是音高的差异。所以严格地说,英语是有声调的。只不过英语的音调只有两个:高和低。但是英语中音调仅用于部分音节。除了表示疑问、强调等情况,通常英语单词不变调。除少量英语单词(如Record)外,英语单词不借助音调来区分不同的词义。英语的确使用音长要素(如Sheep和Ship)。由于英语一般只用音质和音长来区分词义,所以一般也认为是一种没有声调的语言。

首先从编码效率上,我们可以说汉语就是世界上编码效率最高的语言之一。汉语是世界上为数不多的使用音高来区分不同单词的语言。因此从编码上说,汉语发音的表意能力就比一般语言高出一个维度。也就是说,使用单个音节,汉语能够表达的不同信息的种类,理论上最高可以达到一般外语的4倍。

为什么外国人学汉语学得这么辛苦,而中国人学英语则没有那么辛苦?就是中国人是已经掌握了在发音是音高变化,现在再去学低级的两个固定音高。而在学习汉语中,很多外国人最吃力的问题之一就是声调,因为只习惯于两个固定的音高,而没有听到过、练习过在发音时连续变化音高。

有人提出,声调本身会影响发音速度。这当然是存在的。比方说二声,要求发音时音调逐渐上升,要表现出这个,发音时要表现出两个音调,自然是要比单一音调要费事。但是声调的好处在于,能够在同一组辅音和元音组合的基础上产生出多种不同的发音,所以就不必借助更多的辅音来区别两个具有类似发音的词(比如英文life和light)。英文音节中,辅音-元音组模式的音节,发音确实比汉语略快。但是其他模式,诸如辅音-辅音-元音组-辅音(Blight),或辅音-元音组-辅音,往往就比汉语发音慢了。而辅音-元音组模式的音节,由于英语缺乏音调,所以数量远小于汉语。整体平均下来,英语单个音节的发音应慢于汉语。

对于“英语单个音节的发音应慢于汉语”这个结论,可能有的人觉得不是很信服。我们来举一个非常简单的例子。普通中国人的初等数学能力往往超过欧美。这并不简简单单是教育的问题。更关键地,这是中文对数字命名结果。

汉语所有数字均为单音节,其中6和9有两个元音(或按照国际学术便准,三个元音),发音稍慢;0有后鼻音,发音可能稍慢。还有几个带卷舌音,可能会稍慢。

英语所有数字,除7以外,全部都是单音节。其中覆盖了“辅音-元音”结构(如4)、“辅音-辅音-元音”结构(如3),“辅音-元音-辅音”结构(如5),“辅音-元音-辅音-辅音”结构(如6),元音-辅音结构(如8)、双元音结构(如0,注意一般数字里0读“ou”,不读zero,后者实在太费劲了),等等。可以说英语的这些数字大致包含了英语的各种单音节词的音节结构。当然这里还没有最神奇的辅-辅-元-辅-辅结构,但是那个和单元音结构一样比较少见。

那么平均下来英语的数字比汉语慢多少呢?

首先我们需要知道,人对数字的短期记忆,实际上是对数字发音的记忆。换句话说,你能记住的数字位数,是由数字发音的总长度决定的。研究表明(见http://deepblue.lib.umich.edu/bitstream/handle/2027.42/26140/0000216.pdf?sequence=1),中国人从小开始短期数字记忆能力就高过美国人。该文献说明美国大学生的数字记忆长度平均为7.2位,中国大学生为9.2位。美国大学生的短期数字记忆位数,是中国学生的78.26%。换句话说就是,英语数字的平均发音长度比汉语数字高27.78%。去掉英文数字7(双音节)对平均音长的影响(10%),那么平均下来,单音节英语发音长度大概比汉语高17.78%左右。

更进一步,中国的数字都是彻彻底底的单音节,因此可以采用绝对逻辑的方式构建整个数字表。九十六,就是九个十加一个六。英语是“九十”(与九和十都不同的特殊词)加一个六。法语是四个二十加十六。汉语种最简洁而最富逻辑的结构,在世界上是极为罕见的。九九乘法口诀表,就是构建在这个基础上的。其他国家的儿童如果想背下来这张表,可以说比中国儿童难了几倍。这种语言上的优势就提高了中国人的初等数学能力。

顺便,还有人说,古汉语声调更多啊,难道汉语越发展越回去了么?这当然是错误的。有些音调受说话者情绪等条件的影响,在辨识的时候不确定性因素比较多。这个问题我们将在抗噪能力一节中详细讲解。

五、信息论上的优势

从信息论角度来考虑,编码是很有学问的。举个例子。我们知道计算机传输信息,实际上传输的都是0和1。那么,如果我们传输的各种信息出现的频率不一样高怎么办?答案是,出现越频繁的,编码越短。这样就能提高总体效率。

比方说,我们只有四种信息要传递。按一般的想法,自然是把这四种信息分别用00、01、10、11来表示。每个信息都需要用两位二进制数来表示,也就是说传播100条信息需要发送200个二进制数。但是如果其中有一种信息出现的概率是91%,而另外三种分别是3%。那么就可以使用另一种编码方式:1,01,001,000。平均下来这种传播方式传播100条信息需要发送91+2*3+3*3+3*3=115个二进制数。显然比前面那种效率要高。

世界各主要语言经过了几千年的进化,其词汇的长度分布,都比较符合信息论的要求。你会发现各个语言中越常用的词,一般就越短。英语里,我、你、他、她、我们,都是单音节词。

英文的单音节词非常丰富,实际上比中文的单音节发音要多,这是因为英文可以在一个辅音-元音组合的前后都添加辅音,来实现各种不同的单音节发音。这样排列组合下来,英文的单音节词就是一个比较庞大的词库了。但是这就有一个代价,就是抗噪性能低。这个问题我们放在下一节讲解。

按西方音节定义,英语的单音节词的使用比汉语要频繁。根据统计分析。汉语使用者平均词长约为1.5字上下。(见《ReadingChinese Script: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese andEnglish Text》),而成年英语使用者平均每词音节数约为1.4(见http://www.waisman.wisc.edu/phonology/pubs/PUB30.pdf,这也得到了另一个研究的支持:分析10小时的发听录音,平均没词音节长度为1.38)。

所以,就音节数而言,汉语词平均比英语词长7.14%。然而,考虑到英语一个音节比汉语单音节实际上长得多(即便把上一节得到的17.78%折半,也有8.89%)。再加上汉语每音节信息含量大致比英语高3.30%(见第三节数据)。从信息论的角度讲,汉语的信息传递效率基本上比英语高。(是的是的,我知道信息论的计算还需要更多的数据,只有平均值是不够。但是实在找不到啊,只能草草估计了。)

这一点也得到了另一个实验的验证(见http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/)

这篇论文找了8个汉语使用者和8个英语使用者。然后让他们两人一组。一组之中,一个人描述图片(描述者),另一个人根据描述来绘制(绘画者)。最后对比图片的准确度。同时观察描述者的语言。

最后结果是,汉语描述者明显比英语描述者先开始描述。描述者开始描述与绘画者开始绘画之间的时间差,汉语使用者低于英语使用者。绘画时间,汉语绘画者低于英语使用者。整体时间,汉语组显著低于英语使用者。所以汉语组所有都比英语组快。而且越复杂的绘画,汉语组就快得越多。

绘画结果,144次绘画。汉语组平均每次犯8.1个错误,其中描述者平均每次犯3.7个错误,绘画者犯4.4个错误。英语组平均每次犯13.25个错误,其中描述者平均每次犯8.5个错误,绘画者犯4.75个。两者的差距仍然在统计误差之内。所以并不算显著。(嗯?刚才谁说汉语没有英语精确来着?)

之后,为了考虑绘画者的技巧差异。让每个绘画者直接对照原图绘画。结果汉语组反而慢于英语组。

绘画期间,汉语组使用音节数显著少于英语使用者。两组语速(每秒音节数)接近(这个结论与前面的播音速度分析结果一致)。

这虽然是一个初步的实验,但是还是能看出汉语在交流上的优势的:用词更少,时间更短,描述精确水平差不多(如果不是更高的话)。这个实验还说明了……我国人民美术水平还有待提高……

至于欧洲主要其他语言,根据第三节提到的数据,它们发音频率比英语高,信息密度比英语低。要那些语言在这方面超过汉语,我觉得可能性不大。

六、组词逻辑

由于英语单音节词资源比较丰富,但平均发音长度较长。所以你会注意到英语里单音节词比例高于汉语,而多音节词的使用比例就小于汉语。很多逻辑上非常相关的词由于不得不全部挤入有限的单音节词库,其发音就失去了联系。这就导致英语的常用词往往缺乏组词的逻辑。

比如我们可以很轻松地说“公鸡”、“母鸡”、“小鸡”、“鸡蛋”。而英语里就成了“Cock”、 “Hen”、“Chick”、 “Egg”,毫无联系。如果常用词要建立联系,那么英语就必须提高这些单词的音节数,那么平均词长就要上升,从信息论角度讲,信息传递效率就更低了。所以英语只能在组词的逻辑性上进行妥协。

相比之下,汉语就从容的多了,即便在当前这种信息效率下,汉语仍然能保证绝大多数词语构造具有逻辑性。因此相比于英语词汇,汉语词汇就比较容易记忆。这就产生了一个结果,那就是汉语的常用词汇量远远多于英语。

英文使用者的单词量和生词辨识能力可见1995年的以下论文:http://jlr.sagepub.com/content/27/2/201.full.pdf

其中,大学生平均自称单词量为16141,经过多项选择测试发现,平均能够辨识其中71%的词汇。也就是说平均大学生词汇量估计为11460个单词。老年人平均自称单词量为21252,经过多项选择测试,发现平均能辨识其中80%。也就是说老年人的词汇量大致为17002。对于从未见过的词的正确理解概率,大学生为30%,老年人为39%。

没有找到中国的相关研究。不过这里是商务印书馆的《现代汉语常用词表(草案)》:http://wenku.baidu.com/view/51636fec551810a6f5248676.html

大家可以进去看看自己的词汇量。我感觉大学生达到五万应该不成问题。而且这肯定不是一个人的全部单词量。不过这里面有些词是英语里几个词合起来的。所以中国人词汇量未必比美国人高这么多。但我觉得定性的结论还是可以下的。

另外里面可能有你没见过的词,可以看看有多少你猜不出正确含义……我觉得除了极少数,确实没什么难度……

另外,汉语和英语都各自在组词上有一个弱点。汉语有大量的同音词,而英语有大量的多义词。汉语有“攻击”和“公鸡”,英语的Ball既可以是球也可以是舞会,当然还有相关的一些列动词含义。汉语中,曾经在文言文中大规模使用的单音节多义词现在大多变成了双音节单义词。汉语中真正的多义词(各个意思之间没有直观逻辑联系)是极少数。而英语里的同音词也是极少数。可以说这两种语言在各自的发展路径上都做了妥协。

由于英语多义词比例比较大,所以尽管英语使用者词汇量比汉语使用者低,也不能说明英语的描述能力不如汉语。另外注意到,美国大学生的词汇量远低于老年人,这说明他们并不是已经记下了所有能见到的词汇,而是在那个年龄段,还没有足够的时间记下。因此可以看出,英语一词多义很多的原因,很可能就是英语单词的记忆难度比汉语大。

所以总的来说,由于汉语精简了发音,并且每音节信息密度较高,这就使得汉语可以有较长的平均词长,因此组词逻辑相比于英语就有了一定的优势。至于其他主要语言,信息传递效率与汉语相比差距更大。主要方面都无法相比,这种次要方面就不需要再比了。(不过话说回来法语之类组词逻辑比英语确实要好)

元宝推荐:铁手, 通宝推:曲道自然,阴霾信仰,dy571,凯尔勒,懒虫123,老老狐狸,诸葛神候,烤糊的卷子,黄锴爱李莹,易水,gy197666,脑袋,羊年大发,红黑客,天白,云布雨润,忘情,十亿星阵,muiaao,浣花岛主,大漠老兔,道白,实事求是,西伊,Leono1,花大熊,云中飞,发了胖的罗密欧,scanning,老沛,上山打老虎,南风,迷途笨狼,桃子甜,cctothere,常识主义者,老光,庄汀,海豹形态,神仙驴,删ID走人,哈酷,ziotean,爱乐之狐,大鹏翔宇,夜郎国主,河里的螃蟹,金书,紫色月亮,燕人,Ruadong,木色人,hwd99,雪域骑兵,向前向前,紧箍奏,岳阳,三笑,阿笨,jboyin,未知如之何,积吉,四道口,篷舟,朝雨,醉寺,柏林墙,hnlhl,天涯睡客,冰雪迎梅,巴特尔,桥上,奥森,李寒秋,hopeful,wild007,铁手,流行,光年,小戎,az09,曾自洲,海底鼠拨土,uphere,diamond,唵啊吽,mezhan,唐家山,不远攸高,李根,三力思,

本帖一共被 15 帖 引用 (帖内工具实现)
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河