- 发帖可能变空内容,邪门暂不知所以然
- 『稷下学宫』新认证方式,24年网站打算和努力目标
主题:看到铁手写的百度为什么不收购七把叉 -- 美人他爹
不能出营,只好发这里
去看了看七把叉的页面,其实这种网络中文输入法没有什么技术含量,主要是一个javascript的小程序而已。百度如果需要,最多一个人月就做出来了,这里的假设是百度没有像谷歌那样用别人的词库,如果用别人的词库,也就是一个人时的事情。
至于铁老大贴后面说道的分词,老实说分词已经是过时的东西了,新的算法是基于统计的,比旧式的分词据说效率高,但是我不懂,就不多说了。
想看美人
在未名空间混的时候,我是出了名的不喜欢贴照片。
济身于Keso,麦田,键硕王,老白,吕欣欣,藏袍等一个绝不会超过二十人的中文web 2.0 RSS 订阅单上。 说起这个订阅单曾经突破上百(目前中英文加起来共有两千多个),后来不断的推陈出新,印象中美人他爹是其中之一。
因此格外高兴在河里遇到偶像。
你也太扯了吧,一个人月连词库都做不出来。至于一个人时,这里说的可是工业品,而不是学生作业,一个人时连测试都不够。你说的统计的方法应该是指基于隐markov模型的方法吧,这也是要建立在分词的基础上的,只要是中文,分词是难免的。
不好意思。
偶像谈不上,而且那个blog已经很久不更新了。实在是没精力。
开始注册了“美人她爹”,后来发现犯了低级错误,把注册的email给写错了,只好注册了这个。
好在现在我有了儿子,所以用“他”比“她”更准确了,毕竟“他”儿女都算了。 :)
btw,终于攒够了花钱了,花一个。
都是js,其实就是一个二分查找。
词库的确工作量大,不过都不是start from scratch,一般都是修改现有的词库。
新的基于统计的方法我是听google里面的人说的,但是我不懂。
向我们公司的电脑不允许自己装软件,有时候出于需要有不得不输入中文的,7forks的那个免安装的基于html的输入法就挺好的。
有的地方,连IE的字体包都不给下载。像7forks这样使用GBK字体的,连字都不能看见,就更谈不上输入了。
所以公司的机器都是预装了中日字体的,不过除了研发部门上网没有限制以外,其他部门都是只能浏览intranet的,并且能上外网的地方都有流量监控和地址检测,所以有些提供网络输入法的地方我也上不了。
也就是几百K的东西。