西西河

主题:【原创】Google的挑战者Cuil -- 邓侃

共:💬39 🌺63 新:
全看树展主题 · 分页首页 上页
/ 3
下页 末页
家园 背后的投资者弄出很大的声势,我在第二天特地试用了一下

第一感觉是,垃圾。

第二感觉是又被作市场的家伙们骗了一把。

第三感觉是媒体那帮家伙好无耻,又廉价把自己卖了一次。

家园 他的技术优势

我认为是在数据的存储和收集上。存储有原来google的那几位,收集上他们什么都捡。

家园 Semantic web

关于Ontology,看到不少人再做Information extraction (IE)。也就是说,在一整篇文章中,提取相关的一句话或者一句话。

譬如,“美国国庆日是哪一天?”,回答应该是“7月4日”。搜索引擎的任务是找到相关的文章,而IE的任务是从相关的文章中找到相关的句子。IE的难度更高。

不知道大家对IE怎么看,坦率讲,个人的观点是比较悲观的。

家园 微软收购Powerset

不知道Powerset好在哪里。

当然我不怀疑Powerset的动机,它主要是想把PARC做的自然语言处理应用到搜索引擎上去。

但是自然语言处理(NLP),在目前阶段,实用的主要还是template。譬如,“从王府井到中关村怎么走?”,如果我们预先知道“从。。到。。怎么走?”是一个template,那么我们就可以从这句话中分析出,起点和终点分别是“王府井”和“中关村”。

但是想要把自然语言处理做得像人类的听力那样,一时半会儿似乎还看不到实用的希望。

不知道我的判断是不是太极端了。

家园 嚣张一回

搜索的难点应该就是语义和语法。进行类似的归纳形成了现在的搜索门户。其次就是有一个好的算法。

家园 上来胡侃几句。

1.Cuil还真是不怎么样,起码目前来看。

2.Cuil的变化还是有的。起码现在可以搜索“芙蓉姐姐”了,但是“西西河”是搜不到的。

3.Cuil和GOOGLE(包括雅虎和MSN)的一个重要差别是结果的表现方式:Cuil把结果分为3(2)列展示;GOOGLE是单列展示。当然Google也不是纯单列展示,Google用右边的列赚钱。这种差别不能简单地说好与坏。要是N年后都是16:9的屏幕,这样做还是有点好处的。

家园 我不是干软件的,楼主的东西显得很深奥,

说实话只看了标题外几个字

但我在某杂志技术/gadget评论版看过对Cuil的介绍,说它的收索还是史前时代的关键词方式。对于这个概括的准确性,诸位干这行的肯定能找出很多小地方上的改进来说明此关键词方式非彼关键词方式,我们外行不大理解也没办法反驳,但从使用者产品试用看,除了垃圾我还真找不出更合适的词。

东西做不好没关系,谷狗那么大的公司想一夜间超过它实是不易,我反感的是东西不怎么样偏厚着脸皮四处吹牛,让我想起近年来NBA不止一个的“科比终结者”。让人更加讨厌的是媒体上一片片替它吹大牛的文章,是真那么弱智还是背后有什么,向中国专家水平靠拢?

Jack老兄,不好意思又跟你争起来,对事不对人,我的气也不是针对楼主的,主要是几个星期前几乎所有的我常看的报纸杂志普铺天盖地的宣传。

家园

家园 Semantic Web和IE关系不大

Semantic Web就是要把web上的信息组织成一个容易查询的方式。比如我们写文章的时候,要分章节段落,或者放一个个人简历,也要分许多小项,这些信息的组织,都最好用一个可查询的方式来表现。XML就可以比较好的做这个工作。

XML够不够呢?还不够。比如我的简历里说我的职业是卖油条;现在有个雇主要找卖早点的,按字面来搜索,就搜不到我。其实大家都知道油条是一种早点,如果把这个知识形式化,雇主在搜索的时候就可以推理出来我是卖早点的。这个形式化的语言,有RDF和OWL.

语义网上的知识,大部分并非是IE获得的,而是由用户来提供。这看似不可能的任务,其实人在写任何东西的时候,都在不知不觉的提供结构和关系,语义网上的工具就要帮助用户非常方便得记录下这些结构和关系。这方面,semantic wiki是很好的例子。

个人感觉,semantic web在今后两三年里就会有很成熟的应用。我现在个人的几乎所有工作都是用semantic wiki来管理的,完全离不开它。如果说一年前我对语义网的前景还有怀疑,现在则可以说是确信这是一个有前途的方向了。

家园 水立方挺有意思,才知道微软中国研究院还是有干活的。其次

水立方挺有意思,才知道微软中国研究院还是有干活的。其次,楼主的文章相当有深度啊,受教了。虽然不能全明白,也懒得去全弄懂,但这样的文章还是蛮让我受益的。了解了新的一些扩散的概念!

谢谢

家园 关于科学那部分有点不同看法

他说的这个有道理,但前提是大量的数据。但不同学科间是不一样的。有的学科数据量很大,瓶颈在于数据的处理和分析。有些学科数据量很小,瓶颈在于数据的获取。所以他说的新科学对于生物学可能是有意义的,因为基因组什么的,产生了大量了的数据。但对其他学科就未必了。

家园 Semantic web

如果semantic web能有大发展,那肯定是好消息。

XML是一个好东西,它提供了一个通用的关于content的protocol。要说缺点,就是太啰嗦(verbose)。一个挺简单的内容,用XML写起来,篇幅很长。

家园 Cuil的宣传

Cuil的搜索是怎么做的,是依赖于关键词的搜索,还是像Google那样,依赖于网页之间的相互推荐(PageRanking),从表面上看还真猜不出来。

譬如,MacArther发现,Cuil连“ORA-00257”都找不到。这个可是经典的关键词搜索问题。

推销是可以的,但是首先要有一点实力。Cuil的创意现在没有太多人关注,为什么?因为基础的东西,搜索,没有做好。

只有先把搜索的质量提高上去,才有资格附加更多的功能,譬如分类什么的。

家园 说搜索进入了“成熟期”,google都笑了

但是在搜索引擎领域是不是可以沿袭老套路,就显得很有意思。

如果google做了什么划时代的事情,还不是它那个adsense/adwords,虽然它的钱主要是从那上面赚得。 google的意义在与让人们“开眼”了,在互联网时代,人们的基本网上生存方式就是挣扎地在数据的海洋上浮出水面。 从这个角度讲,google只是个救生圈,离独木舟,小艇到巨轮,还差着十万八千里呢。

微软买yahoo,应该不是着眼于yahoo的搜索技术。前些日子遇到一microsoftie,问起这事,他的看法是通过收购把那些yahoo草根用户一网打尽。 多数人用惯了什么就再也不想这改了,能从yahoo email跳到 live在跳到gmail的大概数量不占主流,因此微软是单纯从扩大市场占有量的角度出发的。

家园 微软最近有个叫做“FAST”的新的搜索引擎

前几天微软的几个pre-sale 一个劲推荐,还拉我们去看他们的展示,后来没抽出空去看。 听他们说是微软买的一个公司的产品为基础的,怀疑是不是就是这个powerset。 其功能出众的地方在于会自动分类,听着有点那个Cuil的架式,不过是做为产品被别人买去自己用的,比如电子商务网站这两年发生的天翻地覆的“变化”,其中一个热点就是这个“会分类”的聪明搜索。

全看树展主题 · 分页首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河