抓去新浪 网页
时间:2010-10-14 来源:kanison_zhang
sina 网页抓取统计信息
首先 list 列表页是在一个frameset 里,所以直接通过访问 我们看到的页面(比如:http://down.tech.sina.com.cn/3gsoft/softlist.php?osid=5)里面的源代码就没有我们想要的list信息,我通过在frameset里查看源代码,看到了真实的list页面地址(例如:http://down.tech.sina.com.cn/3gsoft/iframelist.phpclassid=&keyword=&osid=5&vid=0&page=2)其中 osid 表示操作系统的id,通过观察发现(android id=4,symbian id=1,windows id=2,iphone id=5,java id=55) page表示 第几个list页面,
其次 抓到list里的每个软件信息后要针对每个软件在进行抓取
其次 抓到list里的每个软件信息后要针对每个软件在进行抓取
相关阅读 更多 +