Perl 程序网页爬手

时间：2010-12-03 来源：neobilly

需求：从某个站点下载一组连续的网页，用wget下载，perl完成
源代码如下：
#！/usr/bin/perl -w
use strict;
my $pageno = 0;
my $cmd = "";
for($pageno = 1; $pageno < 210; $pageno ++){
$cmd = "http://www.server.com/page.jsp?pageno=$pageno&xxxxx";
system("wget -O $pageno.html \'$cmd\'");
}
注意的地方：动态页面通过Get方式在链接上传参数，？之后的就是参数，在wget的URL上，应该把
整个地址用单引号包起来，不然的话 wget 读到问号就停住了。。。

运行perl
考虑到文件较多，决定将下载放到后台，命令如下
>(nohup) perl htmlfetcher.pl 2>/dev/null &

>ps -e#查看进程

>kill pid #杀进程

相关阅读更多 +