西西河

主题:看到铁手写的百度为什么不收购七把叉 -- 美人他爹

共:💬14 🌺10 新:
全看树展主题 · 分页
家园 看到铁手写的百度为什么不收购七把叉

不能出营,只好发这里

去看了看七把叉的页面,其实这种网络中文输入法没有什么技术含量,主要是一个javascript的小程序而已。百度如果需要,最多一个人月就做出来了,这里的假设是百度没有像谷歌那样用别人的词库,如果用别人的词库,也就是一个人时的事情。

至于铁老大贴后面说道的分词,老实说分词已经是过时的东西了,新的算法是基于统计的,比旧式的分词据说效率高,但是我不懂,就不多说了。

家园 送花欢迎

想看美人

家园 恐怕不行 :)

在未名空间混的时候,我是出了名的不喜欢贴照片。

家园 哦,忘了谢谢你的花
家园 美人他爹的博客在我的RSS Reader上榜上有名

济身于Keso,麦田,键硕王,老白,吕欣欣,藏袍等一个绝不会超过二十人的中文web 2.0 RSS 订阅单上。 说起这个订阅单曾经突破上百(目前中英文加起来共有两千多个),后来不断的推陈出新,印象中美人他爹是其中之一。

因此格外高兴在河里遇到偶像。

家园 一个人月连词库都做不出来

你也太扯了吧,一个人月连词库都做不出来。至于一个人时,这里说的可是工业品,而不是学生作业,一个人时连测试都不够。你说的统计的方法应该是指基于隐markov模型的方法吧,这也是要建立在分词的基础上的,只要是中文,分词是难免的。

家园 回去查了一下,发现从RSS删掉有一段时间了

不好意思。

家园 惭愧惭愧

偶像谈不上,而且那个blog已经很久不更新了。实在是没精力。

开始注册了“美人她爹”,后来发现犯了低级错误,把注册的email给写错了,只好注册了这个。

好在现在我有了儿子,所以用“他”比“她”更准确了,毕竟“他”儿女都算了。 :)

btw,终于攒够了花钱了,花一个。

家园 你可以自己去看source

都是js,其实就是一个二分查找。

词库的确工作量大,不过都不是start from scratch,一般都是修改现有的词库。

新的基于统计的方法我是听google里面的人说的,但是我不懂。

家园 7forks的另一个好处

向我们公司的电脑不允许自己装软件,有时候出于需要有不得不输入中文的,7forks的那个免安装的基于html的输入法就挺好的。

家园 其实你们公司管的不算严

有的地方,连IE的字体包都不给下载。像7forks这样使用GBK字体的,连字都不能看见,就更谈不上输入了。

家园 那是因为公司在中国生意做的比较大

所以公司的机器都是预装了中日字体的,不过除了研发部门上网没有限制以外,其他部门都是只能浏览intranet的,并且能上外网的地方都有流量监控和地址检测,所以有些提供网络输入法的地方我也上不了。

家园 网络输入法可以放在本地的

也就是几百K的东西。

家园 学 gg 呀,一个星期搞定
全看树展主题 · 分页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河