主题：【原创】百度和Google，谁更强大，为什么？ -- 邓侃

共:💬168 🌺346 🌵1 新:

老大河待整

【原创】关于几个技术问题的说明

1.关于Precision和Recall

Precision和Recall在信息检索的不同应用中，难度是不一样的。打个比方，在电子图书馆中检索就比在互联网上搜索页面容易。电子图书馆里的内容是静态的，规范的，而互联网的内容是动态的，不规范的甚至是恶意的。比如说有的好网页在文法上很烂，用词错误，断句错误。因此搜索引擎在建立索引时会发生错误。或是说有的垃圾网页恶意的重复关键字，借以达到排名靠前的目的。

度量相关度有一些常用参数--比如说DCG/NDCG。在测试时，只有类似的系统相互比较才有意义。谈到通用搜索引擎，我们一般会比较GYMA（Google/Yahoo/MSN/Ask）。不久前我看到过一个测试结果，对于短句（5个以内关键词），Y/M的相关度都约为G的99%，A则明显差一些。对于长查询，由于G在自然语言处理方面的优势，领先优势就更明显一点但也不是致命的。

无论如何，将Google和Scirus，Bioweb，或是Hotbot比意义是不大的。

2.关于PageRank

PageRank是决定相关度的重要因素之一，但绝不是什么决定性因素。我猜这也是为什么Google让Stanford拥有该专利的原因。PageRank表示一份文档有多重要，但搜索是要找到关键词和文档之间的关系。通常一个搜索引擎使用的相关性模型有数百个输入参数，而PageRank只是其中相当重要的一个而已。

3.关于百度和Google为什么成功的另外一点理由

我前面的分析大概有点让人失望。看上去高深无比的PageRank不是Google成功的秘诀。不过，一个公司的成功，本来就不是象神话故事那么简单。一个搜索引擎，从网页搜集，PageRank计算，自然语言处理，逆向索引，相关模型训练，人工修正......，每一件事情就已经非常具有挑战性，更何况这些项目都要同时进行。基本上，如果我是谢尔盖或是拉瑞的话，Google就已经完了。

4.运气运气运气

这么多人做，总会有一个成功者。有时候，我们在分析为什么G/B会成功时，也许不是在为结果找一个原因，而是在为一个原因找一个结果吧。

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂刚进来的时候水土不服啊超级Sabre 字170 2008-10-06 07:45:29
    🙂一开始GOOGLE很好用，百度一出，网络掉线当年万户侯字20 2008-10-13 18:39:32
    🙂三达不留点，股沟，邓侃字424 2008-09-14 07:28:13
  - 😁【原创】关于几个技术问题的说明
    🙂说得非常好。 1 邓侃字784 2008-09-09 07:09:24
  - 🙂百度的百科问答很有用 5 河蚌字1101 2008-08-09 23:16:08
    🙂搜了我的家乡名字，觉得百度百科很好水晶字222 2010-01-19 17:01:09
    🙂花，顺便多说几句 weizhou 字178 2008-09-09 01:46:39

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明