西西河

主题:问一个技术难题 -- 一柱擎天

共:💬9 🌺17 新:
分页树展主题 · 全看首页 上页
/ 1
下页 末页
  • 家园 问一个技术难题

    碰到这样一个问题:要求在ebay搜索页面上写入一个搜索项,比如:nokia, 提交后ebay会返回一个可能是多达数百页的相关搜索结果。如何将这些结果抓到本地的数据库或者 excel表格中?这个过程能否自动完成呢?如果可以的话,用什么工具编写呢?

    • 家园 Perl的LWP和Excel就是干这个的

      外链出处

      外链出处

    • 家园 可以这样做啊

      1.向该搜索发出请求

      2.获取返回的结果(html source)

      3.对这些文件利用perl之类的,regular express把数据提取出来。

      --------------------------------------------

      以前处理过yahoo得,道理应该一样吧,呵呵

    • 家园 简单啊。写一个网络蜘蛛,抓取

      eBay 搜索页的结果,然后按照字符串写入 XML /Access。

      用 .Net,有现成的 Class 抓取网页内容的。写出个 windows

      程序,一运行就 ok 了。

      当然我这是个比较复杂的解决方案啦。但肯定是可行的。

    • 家园 可以试试Perl或者Python

      两者都有不错的webclient库,分析一下网页的http get 或者post方法及其参数,应该可以写出这种机器人。

      两者的正则表达式功能都比较强,可以分析抓回的结果网页。

      Python的win32库可以直接调用Excel对象,perl的起码可以用odbc写吧。

    • 家园 copy and paste

      要求在ebay搜索页面上写入一个搜索项,比如:nokia, 提交后ebay会返回一个可能是多达数百页的相关搜索结果。如何将这些结果抓到本地的数据库或者 excel表格中?

      copy and paste will do. That's how I did it many years ago with 100-200 results.

      这个过程能否自动完成呢?如果可以的话,用什么工具编写呢?

      I think so. PHP for sure. Friend of mine did it with stock qoutes many years ago from Yahoo's page.

      • 家园 copy & paste

        问题时返回的一个页面包含50条结果,每个结果内部都有价格,图片,卖方信息等许多信息,这些都要抓下来就不容易了。

        • 家园 这些东西都是很有规律的,

          最本的办法,分析字符串也都可以的

分页树展主题 · 全看首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河