西西河

主题:【求助】求能自动抓取网站内容的软件 -- 渡泸

共:💬29 🌺40 新:
全看树展主题 · 分页 上页
家园 做过很多抓取网站信息的小项目

用PHP/CURL库。不过价格就比下面说的50元高多了。

还有一种方法是找人帮你手工抓信息。

使用软件抓信息叫做 Web Scraping。

http://www.freelancer.com/projects/by-job/Web-Scraping.html

手工抓信息叫做 Data Entry。

http://www.freelancer.com/projects/by-job/Data-Entry.html

如果你在国外,可以试试 freelancer.com。

如果你在国内,可以百度“威客”,很多外包网站提供这类服务。

另外,你还可以试试Firefox下的一个免费插件……iMacros。

如果网站结构简单,用iMacros可以很快写出脚本,自动运行。

https://addons.mozilla.org/en-US/firefox/addon/3863/

另外,还有些现成的软件可以抓email、电话号码什么的。Google "scraping software",或者到天空软件、华军软件、download.com 搜索“scrap”。

如果你想学 scraping 编程,可以参考 "Options for HTML scraping?"

* Python

o Beautiful Soup

o lxml

* Ruby

o Hpricot

o scrAPI

o scRUBYt!

* .NET

o Html Agility Pack

o WaitiN

* Perl

o WWW-Mechanize

o Web-Scraper

* Java

o Tag Soup

* PHP

o htmlSQL

关键词(Tags): #scraping通宝推:渡泸,
家园 你说的是 离线浏览 类软件

离线浏览就是把网页都下载到硬盘,并且复制网站结构。天空软件、华军软件、download.com 可以搜到很多这类软件。

Web Scraping 的第一步就是下载网页,第二步就是从中解析出你需要的信息。Data Entry 的第一步是浏览网页(其实就是下载网页),第二步是手工copy&paste你需要的信息。

家园 谢谢盒子兄!

这就去学习一下。花上!

家园 一些说明

这个需要一点儿ruby脚本的知识,如果你有兴趣的话就好办了。

环境的准备包括:

1.安装ruby186-26

http://rubyforge.org/frs/download.php/29263/ruby186-26.exe

2.安装rubygems 1.3.7

http://rubyforge.org/frs/download.php/70697/rubygems-1.3.7.zip

打开命令行,进入rubygems解压后的目录,运行ruby setup.rb.

3.安装firewatir

打开命令行,运行gem install watir

4.安装Firefox插件jssh

http://wiki.openqa.org/download/attachments/13893658/jssh-3.6-WINNT.xpi

环境准备好后可以写一些很简单的Ruby脚本来模拟网站交互以及抓取信息。

具体可以查看http://watir.com网站的相关文档。

家园 谢谢罗兄!

这就去学习。花上!

家园 flashget的 site explorer
家园 谢谢!

这几天消化一下大家提供的信息。非常感谢!

家园 编程

这个就得有点编程的自己做个程序,直接向服务器发http request, 然后到输出中抓关键字存在文件中。

要是不会的话,找个朋友帮忙吧,非常简单,10分钟搞定的小程序。

编程
家园 罗杰兄帮我写了个程序

罗杰兄很热心,帮我写了个程序,还帮我远程调试好,非常好用。

再次感谢罗杰兄!

家园 我的示例......

上周我给人搞过类似的程序

要提取国药名录大全

1万多页/16万的条目

网页在:http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=国产药品&bcId=124356560303886909015737447882

我的代码在:http://bbs.csdn.net/topics/390588439

你可以找人改用 VBS 脚本

很简单的

希望有用

家园 谢谢!
家园 假如可以的话......

不客气

如果不牵涉到机密

你把你的网站地址私信我或公布一下

我试试看用 DOS 或 VBS 做一下

不需要再装其他软件

把你的资料提取出来

也是免费的

家园 哈哈,老铁......

这个是 2010年的陈年老帖

谁翻出来考古呀

家园 谢谢夜来香兄的帮助!

帖是考古帖,不过被考古的人还在呀

全看树展主题 · 分页 上页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河