西西河

主题:问一个搜索引擎的问题 -- 大明湖

共:💬27 🌺5 新:
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 问一个搜索引擎的问题

    象什么google,等网站,只能基于文字来搜索。那么可不可能实现基于图片的搜索?

    比方说我上传一幅图片,希望找到它的处处。能不能作到?

    多谢指教!

    • 家园 懒橱说的接近

      我想补充几点。

      google目前是根据图片的alt属性(附加于网页图片的说明文字,有时候你看图片时,鼠标划过图片时显示的那中文字)和图片的url中含有的文字部分来定位图片的。这就是他们的image搜索的原理。进一步的根据包含图片的网页的上下文来定位的技术,据我所知还没有投入应用。

      当然图片还可能有其他的属性,例如建立/修改时间、图片尺寸,索引图(某些格式的图片是支持内嵌那么一张索引图的)、作者、数字水印等,都可能被应用来定位图片。

      再比如,若要直接对图片建立索引,可以采用把图片建立一个(缩放到)一定尺寸的小索引图,例如30点*30点,这个数据量就是有限的。忽略掉颜色信息,这个索引图可以按照一定的特征(公式)被归纳成简单的数字或字符串。这个并不困难。然后,我们就有了图象的直接索引了,检索这个索引文件那是一点问题没有。

      在计算机能理解图片之前,肯定可以在这些基础上建立起折中的、俺估计效果还不错的图片搜索功能。俺上面说的,都是现在立马就能或已经实现的东西。当然随着算法的改进,其搜索效果可以越来越好。并且我认为主要是算法和数学模型的改进问题,硬件问题不是主要的瓶颈。

      元宝推荐:Highway,

      本帖一共被 1 帖 引用 (帖内工具实现)
      • 家园 现在基于内容的图像检索是一个很热门的题目

        兄弟我正在做相关的课题,所以知道一点。基于内容的图像检索Content-based Image Retrieval(CBIR)的基本原理就是把图像用各种能量化的指标表示出来,比如颜色,纹理,形状等等,然后用一个或一组向量表示。这样你要找某个图像时,就可以提交你要找的图像的相关指标,计算机就可以在数据库里查找相似的图像了。

        不过现在的所谓CBIR都不表现不如人意。这倒不是因为现在的计算机速度不行,而是我们还没找到比较好的表示比较图像的方法。上面说的方法都是比较低层次的方法,和图像的"语义"还有相当大的距离,这就是所谓的semantic gap。目前计算机视觉的算法还远没有达到理解图像的地步。所以刚开始的时候大家觉得CBIR只是文本检索的一个延伸,后来越做越发现不好做了。虽然到现在也没作出真正的CBIR,不过在研究这个题目的过程中,到是促进了模式识别,机器学习等相关领域的发展,到也是赛翁失马,焉知飞福,呵呵。

      • 家园 花一吨. 使用图型文件所附的 Description 或 Key Word,

        虽然是现在就能办到的方法, 但搜的还是文字编码的附属数据, 离 "如搜寻文章般的搜图" 还是有段不小的距离吧?

      • 家园 的确,图片包含的信息很多

        那天偶然想到这个问题,就是因为目前还没有出现具有这样功能的搜索引擎,起码,俺不知道。

        既然算法不成问题,硬件也不成问题,困难究竟是什么?

        • 家园 困难在于这么做的好处在哪里?

          俺认为至少5-10年内不会出现基于web的,面向大众提供以图象作为搜索条件来搜索内容的引擎。

          无法想象一家商业公司会投入巨资去做这种东西的商业运行。不是技术问题,而是没有这么做的动力。若谁能说服拉瑞他们,告诉他们这玩意里面有巨大的市场潜力,那么,嘿嘿。。。

          问题是需求在哪里?市场有多大?

          俺认为搞这个东西那是投入产出比严重失衡。

          上面已经提到google这样的巨头,连图象的上下文的搜索都还没有投入实际应用,而这种需求是google改善他的图象搜索的重要一步。就是说,现行的以文字搜图片的功能都还没有完善起来,那么以图片搜文字或图片的功能就肯定谈不上,而且有多少人会使用这个功能呢?我认为一点也不乐观。

          假定需要使用文字搜图片的用户是100个,再假定需要使用图片搜图片或文字的用户是10个。实现后者的技术要稍难一些,那就是说投入要多一些,就算是同样的投入,那么投入1万收获1百跟投入1万收入10元之间,你作为商业公司的主管,会不会选择投入后者?

          俺以为俺的假定中10%的用户比例那是太高了,没做过调查,但我认为实际不会超过1%。

          会有一些感兴趣的个人跟团体(例如本河里的qwert01)去做这样的事情,但这种的资金、影响力有限,大家能听说的机会也不多。

          有钱的如google这样的公司会在实验室搞这样的技术,但花10万美圆搞技术研究、做个模型跟花1亿美圆搞个商业运做的大系统之间显然是两回事。

          另外,我想说明一下,专业领域内以图象搜图象的技术发展得是很快的。例如军事上地标定位(例如那种巡航导弹用电视/红外/热成像摄像头自行制导的技术)、指纹/虹膜对比技术(输入一枚指纹,一秒内从上千万的指纹库中找到对应的指纹),等等等等。。。但这些技术有其特定的应用范围,而且强调的是精确;这跟Ineternet上面向广大用户的搜索引擎的目标是不一样的。

          只有等到能稍微看到那么一点市场潜力的情况下,楼主的要求才可能变成现实。

          元宝推荐:Highway,

          本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 哈哈,我正在做这方面的工作

      正打算推出自己的网站呢,如果有兴趣的话我们可以探讨探讨。

      • 家园 愿闻高论!
        • 家园 等我回家以后把URL给Post 上来

          现在数据库中大概有150million页面,2.5million图片信息,可能很多图片查不到。不过俺自己测试了一下,基本上能够定位到图片。 Google 有8000*100million页面, that make the biggest difference.

          至于算法,可以私下交流,涉及到俺的商业机密,嗬嗬。就不再这里详述了。

          • 家园 我没理解错的话,150m=1.5亿

            150m*1kb=150G for the text part & database index fields,

            2.5m*10kb(avg image size)=25G

            Here, let me point out that 1KB for 1 page is assumed text (plus index) size only. Basically I dont think it can reach this low.

            个人搞的有这么多么?特别是“准备搞”的。

            有一点点迷惑。

            • 家园 硬盘太小

              我的硬盘太小,所以没有保存cache,所有的html和图片一旦处理完毕就都delete掉了。数据库中只保留了index信息。

              • 家园 把图片都扔数据库里,实时生成?

                不会这样的吧?吓人。再好的机子也受不了这个。

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河