- 发帖可能变空内容,邪门暂不知所以然
- 『稷下学宫』新认证方式,24年网站打算和努力目标
主题:【笑话】误读 -- 清嘴小麻籽
超市门口赫然用中文写着“大黄蛋”。好奇什么蛋黄大,走过去一看,下面的英文是“large brown egg”. 俺笑道:“妙译”.
面点柜台上有两张标签, 分别是“台湾大老婆饼“和“香港小老婆饼”。 看看盒子里,一模一样的饼,饼大饼小而已。俺老婆笑道:“应该叫台湾老婆的大饼和香港老婆的小饼。” 俺不合接到:“还好不是卖大小馒头。”。。。。。。
大学食堂的黑板上,一列写菜名,一列写菜价。最后一行是:炒菜人---050。排俺前面的美女大声问:师傅,炒菜人是什么菜啊?“ 师傅说:“是我”。
一家新开的中国超市,门口赫然贴着一行大字:“肉部招人”。谁的肉,哪部分肉,怎么招人都没说。
有老婆饼,就又出了个老公饼;有老干妈,就又出了个老干爹;好像还没见过阿香公。
在国内见过一家小饭馆叫“犇羴鱻”。
世界上大部分语言都是以词为单位分开写的,汉语是一个字一个字连写的。古代汉语问题小点,因为古汉语单音节多,可是现代汉语是多音节的,于是就有了“断词”的问题。断词断错了就可能有歧义,而书写的人本身往往是看不出来的。
说到太岁纪年,本来就是多音节的词吧?不懂得。
拙
在计算机自然语言处理这个学科里边,人们试图让机器,能够自动地理解用各种文字书写而成的各类文档。比如自动的文摘生成,自动的文档归类,自动的文档索引,自动的文档搜索,乃至于自动的文档书写。。。
自然,也有计算机中文自然语言处理这个小学科里边的小学科。
但是,与其他欧洲语言不一样的是,中文的自动处理的第一关,就是自动的分词。也就是,没有错误地把一句中文里边的各个词语给分割出来。在各种欧洲语言中,那是很简单的,空格嘛。中文里边呢?
于是,不得不绞尽脑汁地去寻找适合计算机的句读词读方法。
不过总算还好,人们有方法,有办法,虽然不能百分之一百满意,却也估摸着能够用了。