文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>抓取网页扒图片相对路径改绝对路径

抓取网页扒图片相对路径改绝对路径

时间:2010-08-27  来源:wsenmin

 

呵呵,抓取网页扒图片,总有些路径是写的相对路径,比如../之类的,我写了一个函数解决点问题,但是不能全部解决,大家有兴趣有指点一下我么

 

代码         private static void AHrefFilter(ref string content, string Url)
        {
            //A标签相对路径改绝对路径
            string MatchPattern = @"\bhref=[^:^;^#^+^>]*?>";
            MatchCollection mcAhref = Regex.Matches(content, MatchPattern, RegexOptions.IgnoreCase); 
            foreach (Match m in mcAhref)
            {
                string hrefStr = m.Value.Replace("href", "").Replace("HREF", "").Substring(1);
                string hrefStrTrim = hrefStr;
                if (!hrefStr.Contains("http") && hrefStr.StartsWith("\"/"))
                {
                    string urlagain = Regex.Match(Url, "http://([^/]*?/)").Value.Trim();
                    hrefStr = "\"" + urlagain.Substring(0, urlagain.Length - 1) + hrefStr.Substring(1);
                }
                if (!hrefStr.Contains("http") && hrefStr.Contains("\"../../"))
                {
                    hrefStr = hrefStr.Replace("http://www.cnblogs.com/", "");
                    hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){2}").Value.Trim() + hrefStr.Substring(1);
                }
                if (!hrefStr.Contains("http") && hrefStr.Contains("\"../"))
                {
                    hrefStr = hrefStr.Replace("../", "");
                    hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){3}").Value.Trim() + hrefStr.Substring(1);
                }
                if (!hrefStr.Contains("http") && !hrefStr.StartsWith("\"/"))
                {
                    hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){4}").Value.Trim() + hrefStr.Substring(1);
                }
                string newHrefStr = "href=" + hrefStr + "";
                content = content.Replace(m.Value, newHrefStr); 
            }
        }

 

 

相关阅读 更多 +
排行榜 更多 +
辰域智控app

辰域智控app

系统工具 下载
网医联盟app

网医联盟app

运动健身 下载
汇丰汇选App

汇丰汇选App

金融理财 下载