主题：【求助】求能自动抓取网站内容的软件 -- 渡泸

共:💬29 🌺40 新:

信息技术

分页树展主题 · 全看下页

家园 【求助】求能自动抓取网站内容的软件
有一个网站有几年的产品价格数据，不过网页上一次只显示几天的数据。为了得到所有的数据，我只好用crtl+C和crtl+v 每一页都翻一遍，拷进Excel里面。一个产品的数据得搞一个上午。以前好像听说有一种软件能把网站的内容全部抓下来。哪位大牛能给指点一下？非常感谢！！
通宝推：橙与蓝,
- 复【求助】求能自动抓取网站内容的软件
  家园 哈哈，老铁......
  这个是 2010年的陈年老帖
  谁翻出来考古呀
  - 复哈哈，老铁......
    家园 谢谢夜来香兄的帮助！
    帖是考古帖，不过被考古的人还在呀
- 复【求助】求能自动抓取网站内容的软件
  家园 我的示例......
  上周我给人搞过类似的程序
  要提取国药名录大全
  1万多页/16万的条目
  网页在：http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=国产药品&bcId=124356560303886909015737447882
  我的代码在：http://bbs.csdn.net/topics/390588439
  你可以找人改用 VBS 脚本
  很简单的
  希望有用
  - 复我的示例......
    家园 谢谢！
    - 复谢谢！
      家园 假如可以的话......
      不客气
      如果不牵涉到机密
      你把你的网站地址私信我或公布一下
      我试试看用 DOS 或 VBS 做一下
      不需要再装其他软件
      把你的资料提取出来
      也是免费的
- 复【求助】求能自动抓取网站内容的软件
  家园编程
  这个就得有点编程的自己做个程序，直接向服务器发http request，然后到输出中抓关键字存在文件中。
  要是不会的话，找个朋友帮忙吧，非常简单，10分钟搞定的小程序。
  - 复编程
    家园 罗杰兄帮我写了个程序
    罗杰兄很热心，帮我写了个程序，还帮我远程调试好，非常好用。
    再次感谢罗杰兄！
- 复【求助】求能自动抓取网站内容的软件
  家园 flashget的 site explorer
  - 复 flashget的 site explorer
    家园 谢谢！
    这几天消化一下大家提供的信息。非常感谢！
- 复【求助】求能自动抓取网站内容的软件
  家园 做过很多抓取网站信息的小项目
  用PHP/CURL库。不过价格就比下面说的50元高多了。
  还有一种方法是找人帮你手工抓信息。
  使用软件抓信息叫做 Web Scraping。
  http://www.freelancer.com/projects/by-job/Web-Scraping.html
  手工抓信息叫做 Data Entry。
  http://www.freelancer.com/projects/by-job/Data-Entry.html
  如果你在国外，可以试试 freelancer.com。
  如果你在国内，可以百度“威客”，很多外包网站提供这类服务。
  另外，你还可以试试Firefox下的一个免费插件……iMacros。
  如果网站结构简单，用iMacros可以很快写出脚本，自动运行。
  https://addons.mozilla.org/en-US/firefox/addon/3863/
  另外，还有些现成的软件可以抓email、电话号码什么的。Google "scraping software"，或者到天空软件、华军软件、download.com 搜索“scrap”。
  如果你想学 scraping 编程，可以参考 "Options for HTML scraping?"
  * Python
  o Beautiful Soup
  o lxml
  * Ruby
  o Hpricot
  o scrAPI
  o scRUBYt!
  * .NET
  o Html Agility Pack
  o WaitiN
  * Perl
  o WWW-Mechanize
  o Web-Scraper
  * Java
  o Tag Soup
  * PHP
  o htmlSQL
  关键词(Tags): #scraping， 通宝推：渡泸,
  - 复做过很多抓取网站信息的小项目
    家园 谢谢盒子兄！
    这就去学习一下。花上！
- 复【求助】求能自动抓取网站内容的软件
  家园 ruby+firewatir的组合很适合这种任务
  我最近刚帮别人做了一个抓取网站内容的小程序，是用ruby+firewatir完成的。你可以试试，还是很方便的，可以非常自由的定制自己想要的内容。
  - 复 ruby+firewatir的组合很适合这种任务
    家园 太好了兄弟！在哪里能下载啊？
    - 复太好了兄弟！在哪里能下载啊？
      家园 一些说明
      这个需要一点儿ruby脚本的知识，如果你有兴趣的话就好办了。
      环境的准备包括：
      1.安装ruby186-26
      http://rubyforge.org/frs/download.php/29263/ruby186-26.exe
      2.安装rubygems 1.3.7
      http://rubyforge.org/frs/download.php/70697/rubygems-1.3.7.zip
      打开命令行，进入rubygems解压后的目录，运行ruby setup.rb.
      3.安装firewatir
      打开命令行，运行gem install watir
      4.安装Firefox插件jssh
      http://wiki.openqa.org/download/attachments/13893658/jssh-3.6-WINNT.xpi
      环境准备好后可以写一些很简单的Ruby脚本来模拟网站交互以及抓取信息。
      具体可以查看http://watir.com网站的相关文档。

分页树展主题 · 全看下页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明