目前选择

取网页重点用casperjs,辅助用curl

解析网页数据用Web::Scraper,api设计的很简洁,解析函数写起来非常爽

工具 优点 缺点
WWW::Mechanize::PhantomJS 支持JS 没casperjs那么多封装好的函数
casperjs 支持JS 有时crash,部分情况下click form跳不过去(issues-49,windows下–ssl-ignore-errrors失效导致)
wget / curl / LWP::Protocol::Net::Curl 轻量级,支持https 命令行拼装碰到参数多的时候有点烦,不支持JS
LWP::UserAgent / WWW::Mechanize / HTTP::Tiny / HTTP::Lite 相对轻量级,使用简单 不支持JS,https支持要另外装模块,有点麻烦
WWW::Mechanize::Firefox 支持JS 要开firefox,多进程容易僵住
Win32::IEAutomation 简单,一路 get / click 只能在windows下调ie用,有些链接像onclick="javascript:xxxx()"之类点了不动


blog comments powered by Disqus

Published

16 August 2013

Tags