主题:【原创】百度和Google,谁更强大,为什么? -- 邓侃

大河奔流 导读 复 167 阅 302555

全看 分页 树展 一览 主题

2008-09-08 23:20:51
1777413 复 1706541
无逻辑无逻辑`16114`/bbsIMG/face/0039.gif`70`0`35`460`从八品上:承奉郎|御武(侮)校尉`2007-02-22 21:52:11`
【原创】关于几个技术问题的说明 11

1.关于Precision和Recall

Precision和Recall在信息检索的不同应用中,难度是不一样的。打个比方,在电子图书馆中检索就比在互联网上搜索页面容易。电子图书馆里的内容是静态的,规范的,而互联网的内容是动态的,不规范的甚至是恶意的。比如说有的好网页在文法上很烂,用词错误,断句错误。因此搜索引擎在建立索引时会发生错误。或是说有的垃圾网页恶意的重复关键字,借以达到排名靠前的目的。

度量相关度有一些常用参数--比如说DCG/NDCG。在测试时,只有类似的系统相互比较才有意义。谈到通用搜索引擎,我们一般会比较GYMA(Google/Yahoo/MSN/Ask)。不久前我看到过一个测试结果,对于短句(5个以内关键词),Y/M的相关度都约为G的99%,A则明显差一些。对于长查询,由于G在自然语言处理方面的优势,领先优势就更明显一点但也不是致命的。

无论如何,将Google和Scirus,Bioweb,或是Hotbot比意义是不大的。

2.关于PageRank

PageRank是决定相关度的重要因素之一,但绝不是什么决定性因素。我猜这也是为什么Google让Stanford拥有该专利的原因。PageRank表示一份文档有多重要,但搜索是要找到关键词和文档之间的关系。通常一个搜索引擎使用的相关性模型有数百个输入参数,而PageRank只是其中相当重要的一个而已。

3.关于百度和Google为什么成功的另外一点理由

我前面的分析大概有点让人失望。看上去高深无比的PageRank不是Google成功的秘诀。不过,一个公司的成功,本来就不是象神话故事那么简单。一个搜索引擎,从网页搜集,PageRank计算,自然语言处理,逆向索引,相关模型训练,人工修正......,每一件事情就已经非常具有挑战性,更何况这些项目都要同时进行。基本上,如果我是谢尔盖或是拉瑞的话,Google就已经完了。

4.运气运气运气

这么多人做,总会有一个成功者。有时候,我们在分析为什么G/B会成功时,也许不是在为结果找一个原因,而是在为一个原因找一个结果吧。


  • 本帖 1 回复
2008-09-08 23:20:51

全看 分页 树展 一览 主题