Php文档 Php问答行业资讯 Php论坛 Php手册 Php博客

游戏榜单

软件榜单

关闭导航

热搜榜

热门下载

热门标签

php爱好者> php文档>采集

采集

时间：2006-02-11 来源：bingkafei

采集其实和以前我们用过的小偷原理是一样的只不过增加了入库功能
下面我先说一下采集的要点
1、明确要采集的页面
2、分析页面链接
3、得到页面链接，抓取文章页内容
4、入库
下面我真对以上几个步骤把用PHP语言用到的几个函数写一下
首先要取得链接页面内容
用file_get_contents函数这个在一些PHP的书里介绍的好像不多
用法$link=file_get_contents($page);
$page为我们在采的链接页
$link为我们取得链接页面的内容
下面接着要开始分析文章页面的URL地址了，难的其实也就在这里的正则表达式
用到的函数preg_match_all
用法
preg_match_all("/^(.*)/",$link,$links);其实我觉得这样并不好不如用preg_match，大家自己看看这个吧得到了链接下面就要对文章页面的标题，内容进行抓取了在这里要说明的一下其实$links[2]以经是标题了$links[1]是链接这里我们主要先对$links[1]进行分析因为它以经是一个数组所以我们进行分析时要用到for或什么的，这里不多说接下来取得文章页内的内容用到的函数还是file_get_contents这次不同的是我们要用explode对文章进行分析也就是我们现在用的什么标题开始，结束，内容，开始结束之类的$text=file_get_contents($links[1][1])$text是我们获得的第一个链接具体用法$title=explode("标题开始",$text);$get_title=explode("标题结束",$title[1]);$t_title=$get_title[0];下面分析内容$content=explode("内容开始",$tet_title[1]);$get_content=explode("内容结束",$tet_title[0]);$c_conetnt=$get_content[0];到这里也就差不多了，接下来就是入库了，大家根据自己的实际情况

相关阅读更多 +

腾讯会议如何下载录制视频文件-快速获取录制视频技巧软件资讯 2026-02-03
番茄小说官网入口-番茄小说正版阅读直达入口软件资讯 2026-02-03
黄金和白银暴跌，其作为比特币避险资产的地位受到质疑软件资讯 2026-02-03
杰弗里·爱泼斯坦档案揭露2014年针对XRP与XLM的阴谋软件资讯 2026-02-03
MAX转币安操作指南？到账时间多久？-MAX转币安最全教程2026 软件资讯 2026-02-03

排行榜更多 +

周五夜放克坦克兵

周五夜放克坦克兵

休闲益智下载

路边估车王

路边估车王

休闲益智下载

妖兽归来

妖兽归来

冒险解谜下载

4
周五夜放克百变换装版
62.16M · 93℃

1970-01-01

下载
5
疯狂农场3冰河时代
86.17M · 97℃

1970-01-01

下载
6
火柴人武林大会
156.74M · 98℃

1970-01-01

下载