当前位置: 首页 > 图文教程 > 网络编程 > 正则表达式 > php 正则表达式提取网页超级链接url的函数

正则表达式
正则表达式 特殊字符应用分析[简单详细入门必看]
asp.net 正则表达式[经常用的到]
javascript 小时:分钟的正则表达式
又一篇正则表达式学习笔记
正则获取图片地址 链接地址
JavaScript 去前后全脚半脚空格的正则
PHP 正则表达式分析RSS
关于内容的分离,正则抽出图片(一定要加精哦)
Javascript lastIndex 正则表达式的一个疑惑
asp去掉html,保留img br p div的正则实现代码
JavaScript 正则表达式解析
正则表达式轻松消除HTML代码
常用正则表达式 整理篇
c# 正则表达式对网页进行有效内容抽取
常用正则表达式 比较实用
javascript 正则修正符
C# 正则表达式经典分类整理集合手册
js mac地址 正则表达式
正则表达式 口诀 学习正则的朋友看看
javascript RegExp对象(正则表达式)

php 正则表达式提取网页超级链接url的函数


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2010-01-10   浏览: 477 ::
收藏到网摘: n/a

php 正则表达式提取网页超级链接url的函数
复制代码 代码如下:

function match_links($document) {
preg_match_all("'<\s*a\s.*?href\s*=\s*([\"\'])?(?(1)(.*?)\\1|([^\s\>]+))[^>]*>?(.*?)</a>'isx",$document,$links);
while(list($key,$val) = each($links[2])) {
if(!empty($val))
$match['link'][] = $val;
}
while(list($key,$val) = each($links[3])) {
if(!empty($val))
$match['link'][] = $val;
}
while(list($key,$val) = each($links[4])) {
if(!empty($val))
$match['content'][] = $val;
}
while(list($key,$val) = each($links[0])) {
if(!empty($val))
$match['all'][] = $val;
}
return $match;
}

主要是正则的问题,下面给出个asp.net下的,多测试正则
获取页面的链接正则
复制代码 代码如下:

public string GetHref(string HtmlCode)
{
string MatchVale = "";
string Reg = @"(h|H)(r|R)(e|E)(f|F) *= *('|"")?((\w|\\|\/|\.|:|-|_)+)('|""| *|>)?";
foreach (Match m in Regex.Matches(HtmlCode, Reg))
{
MatchVale += (m.Value).ToLower().Replace("href=", "").Trim() + "||";
}
return MatchVale;
}