西西河

主题:【文摘】如果我们遇到了不认识的字 -- 小乌龙

共:💬21 🌺8 新:
全看树展主题 · 分页 下页
家园 【文摘】如果我们遇到了不认识的字

原贴地址:http://jowtte.spaces.live.com/Blog/cns!ADBFAB49F63B4103!1104.entry?owner=1

在BBS上,我们经常能看到有人问某某字的读音或者如何书写。虽然说常用汉字和次常用汉字的3500个字覆盖率达到99.48%,那么仍然有0.52%的坏分子逍遥法外。即使是一个编写字典的专家,也不能认识遇到的所有汉字。再庞大的字典也不能包含所有的汉字。

  由于工作性质,我现在也算是一个广义上的语言工作者。以我的经验来说说当遇到不认识的字的时候如何去处理。

  1. 计算机所支持的“汉字”真的都是汉字么?

  我们知道,在中文操作系统中,被最广泛支持的汉字编码标准是GBK,这个标准包含了20902个“汉字”。GBK除了支持常见的简体、繁体汉字之外,还部分地支持朝鲜和日本模仿汉字的造字法独创的“汉字”(朝鲜和日本把从中国学习的汉字称为“汉字”,自己创造的称为“国字”)。那么这部分字压根就不是汉字。我们可以利用工具去查找这些字的意义,但是试图去找出其汉语发音并没有实质的意义(这句话并不是绝对的,下面会解释)。

  1.1 和制汉字

  日本称汉字为Kanji,在日本的煌煌巨著13卷本的《大汉和辞典》,共收录了5万多个汉字以及100多个国字。不过仍然有学者抱怨这套辞典过于面向汉字,而使得国字收录不完整。

  对于我们中国人来说,日本的国字可以分为以下几个类型:

  a. 日语中生活用字。这类字我们不需要关心其读音。比如:峠,働,辻

  b. 人名和地名用字。这类字通常我们只关心读音,而读音大部分是根据汉字形声字的方式设定的。比如畑川,这是日本的一个比较大的姓氏,那我们不得不给“畑”字规定一个汉语的读音,按照形声字的规则,定为tián。

  c. 被汉语借用的国字。这类字比较少,但是好处是已经被视为汉字的一部分,从字典里既可以查到读音,也可以查到含义。比如“腺”,这是日本医生田川榛斋于1805年创造的一个国字,用来描述“象泉眼一样分泌液体的肉”,非常形象。现在这个字已经称为我们生活中非常常用的一个汉字了。还有“椪”,这个字也被汉语吸收了,先从日本传播到台湾,又从台湾传播到大陆。现在满大街都是卖椪柑的。

  d. 日本自行创造,但是与汉字字型恰好相同。这类字不在少数,比如屿,椿等字。

  1.2 朝鲜语自创汉字

  朝鲜语称汉字为Hanji,由于朝鲜语谚文是从左向右,从上向下的字母组合方式,所以朝鲜语中的自创汉字结构也是类似的把汉字组合起来,颇有叠床架屋的感觉。不过由于北朝鲜废除了汉字,而南朝鲜又在废与不废中摇摆不定,所以朝鲜语自创汉字对汉语的影响接近于零。朝鲜语自创汉字主要用在地名和事物名中,很少用于人名,所以其读音和含义对于我们来说基本上没有意义。

  朝鲜语的国字很大一部分是用一个既有汉字下边加上一个“乙”,而这个“乙”和谚文十分类似,在发音的时候,就在汉字的发音后边加上一个"l"。比如“加”,朝鲜语读做[ga],那么乫就读做[gal],类似的还有乭,乶,乷等等。巭也是一个朝鲜自造汉字。

  2. 如何检索我不认识的字

  最好的方式还是字典。单用来查生僻字的话,《康熙字典》,《中华大字典》,《汉语大字典》这几本都是非常有用的工具书,如果这几本上找不到的字,要么是新造的,比如元素名称;要么就是不必关心的字。

  可是更多人的情况是没有这几本工具书。那么我们就可以利用网络的便利来进行查找。

  2.1 查询读音和含义

  对于这个需求,推荐使用台湾教育部的《异体字字典》(http://140.111.1.40/main.htm)。这个网络字典提供了部首检字和笔划检字两种方式,使用起来比较便捷。而且这个字典提供了很多其他字典的书影,可以作为一个交叉索引的手段。

  当然这个字典也有不少缺点:

  a. 这个字典是繁体字(台湾称为正体字)字典,对于大陆用户来说,可能会有一定的不习惯。

  b. 台湾的汉字审音和大陆也有少许出入。

  c. 这个字典使用注音(Bopomofo)作为标音手段,而不是拼音(Pinyin),对于大陆用户来说也是一个小小的麻烦。

  d. 大部分汉字用图片表示,无法copy使用。

  如果字不是很生僻,或者可以copy,那么用金山词霸的中文字典也是一个可行的方案。不过金山词霸的校对非常不严谨,释义也多有讹误,个人不太推荐使用。如果只想知道读音,那么使用word也可以做到。把汉字copy到word 文档中,选中这个字,然后点击菜单中的“Format->Asian Layout->Phonetic Guide..."就可以看到选中字的拼音了。

  2.2 如何在计算机中打出不认识的汉字

  如果我们希望在文档中使用某个不知道读音的汉字(或者知道读音,输入法又无法打出),那么上述的那个字典作用就不是很大了。这种情况下同样也有多种解决方案。

  a. 使用Windows的造字程序。这不是一个好的解决方案,而且也不具有通用性。

  b. 使用word的插入字符功能。操作系统中所有的字型(有的时候因为字体的原因,有些字型会看不到)都能够找到,但是缺点是检索太麻烦,只能一个一个找。

  c. 使用五笔输入法,现在不少五笔输入法都支持GBK,甚至GB18030的字型输入。缺点是五笔字根需要记忆,而且长时间不使用很容易遗忘。

  d. 使用Unihan数据库查询。Unihan是Unicode委员会为中日韩兼容字符做的一个数据库(http://www.unicode.org/charts/unihanrsindex.html),包含了Unicode 4.1中所有的CJK兼容字符(CJK, CJK extension A, CJK extension B)。但是由于字体的原因,CJK extension A & B部分的字符很有可能看不到。另外由于CJK extension B长度超过两个字节,所以在BBS上是一定看不到的。在这里查到的字符,如果可以看到,就可以直接copy出来使用,如果看不到,则可以在word中敲入查询出来的Unicode编码。比如从unihan中检索出来“巭”字的Unicode编码为5DED,在word中输入5DED后,按下alt+x就可以将Unicode转换为对应的字符。这个功能对CJK extension B部分的字符是非常有用的。

  3. 其他问题

  其实关于汉字的问题真的是一把又一把,说也说不完。这里我只是把能想到的先写出来。比如字型的问题就是一个值得连篇累牍讨论的问题。有些情况下同一个字的不同字型容易辨认,但是有些情况下是很复杂的。比如“辶”可以写成一个点,也有写成两个点的,这个大家都一眼就能看出来。但是有些情况下,就很难说了。再完整的字典也不可能收录所有的异体字。而且不同字典的处理方法也不尽相同。

  同形异义和同义异形的部首也是一个问题。以《康熙字典》为例,“肉”部和“月”部是两个不同的部首。朋属于月部,腰属于肉部。“攴”和“攵”则是同一个部首的两种形式。这种情况也会给一些人造成相当的困惑。

  还有就是俗字和艺术字的问题。各地方都有一些地方特有的俗字,最为显著的就是广东,比如“叻”,“冇”之类的字。还有些地方的字因为使用率低下,压根就不会进入字典,不被承认。比如西安著名的“biangbiang面”,那个字号称是最复杂的汉字,甚至需要一个歌诀去记忆,据我所知没有什么著名的字典收录这个字。类似的情况在国内肯定不少。

  春节的时候挂的吊钱或者窗花,经常有将“招财进宝”或者类似的吉祥话组成一个“字”的情况,有些书法作品也经常这么做,这种同样也不能称为是汉字。还有一些书法作品,生拉硬套的把一些字叠起来,也只能看成是书法作品,而不是汉字。

  先写这么多,想起来别的再添。

关键词(Tags): #汉字
家园 补充一下

在windows平台上输入你不认识的字,特别是一般的新华字典上都查不到的字,最好的方法是两种。一种是使用微软拼音输入法2003,不过前提是你会读那个字,或者你虽然不会读,但知道它的内码(这个还不如会读容易呢)。一种是使用系统自带的郑码输入法。坏处是需要现学;好处是所有GBK汉字,比如“镕”都能轻易输入,不用买新的输入法(比如那个五笔18030,也就没有版权争议了),也不用费半天力气自己造字。至于一些专业的朋友要输入GB18030中扩展A和扩展B中的汉字就麻烦一些了。会五笔的同志可以去下载海峰五笔,不过这个版本里很多汉字都需要专门的字体支持。而如果仅仅是输入扩展A里面的二万多个汉字也可以采用郑码大字集版,不过需要去搜索、下载(这一点要感谢我所在的郑码论坛里的阳光了,他去中易公司要出来的)。至于扩展B里面的四万多个汉字,如果想用郑码输入的话就只能花钱买中易汉神那套软件了,或者是中易公司出的《康熙字典》的专业版。不过听说那套软件里带的郑码可以输入10万多汉字,甚至是西夏文!

家园 ~~说个经典的打字笑话~~

~~当初在准备一份材料的时候,有位仁兄有个字用拼音无论如何也打不出来~~问了周围的人也没人会打,怎么办逼急了,他拨了114,找了114查号台的小姐,人家服务态度非常好的,一步一步教我们这位老兄用五笔把这个字打出来了~~

当时我对这位老兄的急中生智,是无比景仰啊~

家园 西安“biangbiang面”

点看全图

外链图片需谨慎,可能会被源头改

点看全图

家园 说个无关的啊

其实中国从输入法上就能判断这个人的社会地位的。

如果是30岁以上,用五笔,说明这个人社会地位较高,因为这是中国比较早能接触电脑的人。

如果是30岁以上,用拼音,说明这个人社会地位一般。

如果是30岁以下,用五笔,说明这个人学历可能一般,因为当时很多中专的学生五笔是必修课。

如果是30岁以下,用拼音,说明这个人学历可能较高,因为好似在中学的学习压力下,很少有人去费力气学五笔。

不过这只是一个一般的判断,个例当然不少哈。

用郑码的人比较个性。要么是专业处理古文献或者在大型图书馆工作的,要么就是我这种爱好者了。

河里30岁以下用五笔的兄弟不要见怪啊,就当我是胡说好了。因为按照常理,河里的朋友应该是人精的:)

家园 那个字在GB18030里面都没有

GB18030一共收录了中日韩汉字将近7万个,这个估计这个字要到EXT-C的时候才会收录的。

贴张图片

点看全图

外链图片需谨慎,可能会被源头改

家园 吃过梆梆面,这字头次见
家园 咦,有些不一样啊

大概是异体字吧。

家园 如果光是gbk的话,问题不大,

国内现在出了很多支持gbk的输入法,

推荐拼音加加

小巧,输入速度快,而且,不知道读音的字可以使用笔形辅助输入。

家园 社会地位一般

不过,

各单位的打字员50%都是用五笔30岁以上的。。。。。

统统的地位较高的说?

家园 微软拼音最大的好处:你可以拿鼠标写字,得到读音

从3。0开始就有这功能了

家园 哈~学了一招

[size=1]巭[/size]

——读做“bu”,一声。

家园 我现在用的《新华字典词典》很多异体字都能查到

挺好用的

连韩国人造的[SIZE=1]乶[/SIZE]

和广东话[SIZE=1]叻[/SIZE][SIZE=1]冇[/SIZE]都能查到

家园 社会地位一般

当初上学的时候,邻居大妈一听是上的计算机系,就问,学五笔了吧?我很惭愧的说,没有。大妈一副“这个孩子不好好学习”的鄙视态度。

后来有一年回国探亲,大妈又过来聊天,听说我是在“做窗户的那家软件公司”工作,又问“五笔你最后学会了吧?”我只好还是很惭愧的说,没有。大妈于是再次鄙视。。。。无语

家园 刚转吃电脑这碗饭时为输入法头痛死

为了让客户能输入汉字几呼把当时能找到的输入法都学一番,偏偏那时输入法简直就是百家齐放,层出不穷,报纸上有的输入法我差不多都让公司搞到了(还得让人先破解了),然后就像摆地摊一样,问清客户基本能力,挑出两三种装上,然后教他们使用,结果自己后来只会拼音。

全看树展主题 · 分页 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河