西西河

主题:【原创】5G是小儿科,AI才是大家伙 -- 泉畔人家

共:💬54 🌺145 🌵3 新:
全看分页树展 · 主题
家园 【原创】5G是小儿科,AI才是大家伙

这话是任正非在某个采访种讲的,估计还没有多少人真正认识到为什么任会这么说。某种程度上,对这个有一定了解,才能更好的分析为什么美国在没怎么准备好的情况下,就急迫的打压华为,在贸易谈判中压制中国科技发展。

问河友一个小问题,已知鸡肉能吃,鸭肉能吃,鹅肉是否能吃?假如你不知道鸭肉和鹅肉能吃,你会怎么判断和寻找答案?如果这个问题交给AI, AI怎么才能进行判断给出有价值的建议?

好,要让AI回答问题,首先要把问题给AI.不论是直接输入还是语音一类,汉字现在的输入效率实际已经几倍的碾压英语及其他一切拼音化文字了。这个优势随着输入法越来越智能,可以快速更新流行词和保存你个人的使用习惯,这个效率提升仍然在快速提高。比如前一阵子机你太美和蔡徐坤火爆,你敲下cxk,蔡徐坤就出来了。这种输入的高效率,应该也是中国网络小说流行和几百万字长篇常见的原因。输入效率高,现在随便有个键盘,汉字一分钟输入200个字基本应该是人人都能轻易达到的水平。而汉字本身就可以用短的多的篇幅完成同样内容的表达。200个汉字表达的实际信息量一般可能能差不多对应拼音文字接近200个单词。

说完输入,是阅读。有些人分析过,掌握几千汉字的人,可以轻松的实现一分钟几百字的高速阅读,如果是比较快的快读,一分钟上千字都是可以的。这方面拼音文字没法比,尤其一旦进入比较专业领域,生僻单词会大量出现后,不熟悉的人阅读会有巨大难度。但如果是AI, 这个实际更有意思。一个字节对应一个英文字母,2个字节对应一个汉字。本来同样内容汉字的就比英文的篇幅少的多。在二进制化的世界里,这个是大大加强而不是减弱。 鸡肉能吃,鸭肉能吃,鹅肉是否能吃?这17个字(标点看成汉字就好了),只需要34个字节,这段化翻译成英语,加上空格你算算需要多少个字节?

而这只是开始而已,二进制化的字节,AI要模范人类分析其具体含义的时候,首先需要知道每个字或者单词的意思。汉语掌握一本新华字典,掌握几千常用字,算法优化到位后,就可以解读出输入内容的含义。而英语,掌握单词的实际含义就需要大的多检索能力。一般认为英语至少有150万个单词,英英字典往往都是大部头。解析出每个字或者单词还不是难的,难的是明白一个多义字词应该使用那个含义,内存/记忆体 算法都能比较容易识别出通常这是指计算机或者手机里的电子元件,而memory, 是记忆还是内存,判断难度就大幅度提高了。 汉字常用字只有几千个,清晰明确,组成的固定词语,成语数量实际也比较容易甄别。数学物理化学,这种词的解析在计算能力不断提升下实际也不难。而拼音文字,百万级别的单词库,时态,语态,多义单词,mouse是指老鼠还是鼠标是AI不容易判断的,而老鼠和鼠标,在汉字体系里清晰简明,不需要深层语境算法分析就基本可以锁定含义了。

从单词再到整句后,实际语境分析中文也比想象中的简单。记忆几万个元芳你怎么看,机你太美对现在的计算和储存能力非常简单。而在专业领域,广义相对论,杨米尔斯场论一类的清晰性也比英语的单词组合更具有含义唯一性。NBA和美职篮对计算机存储差异可以基本忽略,但多个领域肯定有多个NBA,而美职篮可能有其他含义的概率会数量级的降低。实际某种程度上,也可以解释国人为什么习惯说苹果siri是人工智障,毕竟啃拼音语言的AI,难度比汉语应该要高的多。

实际到这里,人工智能时代汉语的优越性已经开始显现出来了。二维化的汉语,作为知识库和推理算法基础的效率有可能比拼音文字高几个数量级。得到鸡肉能吃,鸭肉能吃,鹅肉是否能吃这个问题后,汉语英语把二进制编码转化的速度应该基本可以忽略,虽然同样汉字可能短的多,只需要几分之一的字节。然后分解出每个字词然后判明含义的过程中,汉字很可能就快的多了,汉字算法可能只需要一个GB库和一本新华字典(72万字,总量可以认为200万字节就够了),而英语比较基础的朗文高级字典就得900万字。在解析这一步上,很可能汉字就有几倍速度优势,而越专业领域,这种速度可能会增加到数量级级别。

解析之后,判明含义后。AI需要去知识库寻找对应知识来回答的时候,可能汉字优势又会出来了。超级电脑云端储存人类的所有知识越来越容易,但快速检索匹配就考验比如分类等各种算法了。汉字的精确性和简短性,可能会让基于汉字知识库的查询过程产生数量级级别的效率优势。

例子可能举的不恰当,老泉也不是AI领域专业人士。但如果从网络文学,自媒体等的发展看。汉字阅读和输入的高效率已经导致在网络文学,yy小说领域中文产出开始对西方拼音语言世界有碾压的苗头。而在5G,物联网基础硬件条件具备后。人类几千年积累的知识应该可以很快被AI整理标准化,各种行业和具体领域的AI算法会井喷发展。而自学习,自分析,自我推理等这些算法,从现在比较简单效率分析看,中文极有可能拥有压倒性的数量级效率优势。

老泉个人认为,中国成为世界工厂而其他地方比较难替代。汉字的含义精确性和输入及表达的高效也是重要因素。生产一种新手机可能需要100道新工序,工程师需要给100道工序的1000名工人(假设一道工序10个人)解释生产方法。大批工程师需要写100本操作指南,然后现场去给10名工人讲一遍。中文世界10个工程师,一人10本,一本半天 5000字。 5天完成文档,然后一人去一个工序车间,讲半小时。一个工程师一天去10个,10天完成。总周期15天。而拼音世界,同样智力水平工程师和工人,10个工程师,一本10000words, 一本一天,10天完成文档,车间讲解,一个工序需要1个半小时,一天5个车间,20天完成。总周期30天。由于汉字的高效率,在同样设备同样投入同样智力和劳动强度情况下,中国工人的新工艺知识更新只需要15天,而拼音文字体系需要30天。

这种进入人工智能时代,可能会数量级级别的放大。随着计算能力和传输速度的高速提升,人类实际已经开始接近能把以前积累的具体知识全面标准化,让AI可以智能学习,智能检索,甚至智能模拟,智能协助人类进行研发。以后每个工程师有个相关领域的超级AI助手估计不是很久远的事情。而汉字的高效率,是有可能导致AI最终不得不先以汉字为基础进行人类知识的整理积累和推理演算的。这应该是美国无法接受的现实。

通宝推:jhjdylj,梓童,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河