当前位置: 首页 > 图文教程 > 网络编程 > 正则表达式 > 正则表达式中的反向预搜索实现

正则表达式
RegExp对象的方法和属性
asp正则过滤重复字符串的代码
用Javascript正则实现url链接的解析类
正则表达式匹配 非XXX的行
正则表达式不包含属性
ASP正则函数替换分页后的参数
asp match正则函数使用Matchs实例
java正则表达式彻底研究
比较实用的正则表达式学习笔记
asp只采集网站可见文本的正则
asp.net常用正则表达式
js验证email的正则
java正则表达式验证函数
java 字符串匹配函数
js取得参数代码
Further Study of Rugular Expresions
正则表达式之全部符号对照表
正则文本框只能输入正整数
正则表达式在线测试工具
正则表达式提取网址、标题、图片等一例(.Net Asp Javascript/Js)的实现

正则表达式中的反向预搜索实现


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-10   浏览: 153 ::
收藏到网摘: n/a

这几天在用正则表达式做一个小程序,需要替换内容中的某些特殊字符串。这些字符串的出现是有规律的,那就是在它左面总会特定的内容出现,右面却没有。于是自然就想到了反向预搜索。 在以前的应用,大多是应用正向预搜索情况。也就是说,在查找内容的右面有特定的内容限定,例如下面的例子:
点击运行可以看到效果:
[Ctrl+A 全选 提示:你可先修改部分代码,再按运行]

(.*(?=\;OS\:) 就是典型的正向预搜索,只有右面内容是“;OS: ”才会被匹配到。
但是现在要实现的效果,左面的内容是固定,而不是右面。可是JavaScript并不支持反向预搜索。我相信,细心的朋友已经发现了,其实上面的例子已经达到了这个目的(前面的Memory\:\s+ 限定了左面的内容)。下面再给出一个例子:
复制代码 代码如下:

//程序目的,去掉图片路径中的域名
var str = '<img src="http://news.163.com/sports/yao.jpg" src="http://news.163.com/sports/yao.jpg">';
var reg1 = /(\<img)(.*(?=(http|https)\:\/\/))((http|https)\:\/\/[^\/]*)/gim;
str.match(reg1);
alert(str.replace(RegExp.$4,''));

那么到底有没有反向预搜索呢?答案是肯定的,可是现实是残酷的。我查阅了一些资料,上面提到反向预搜索的形式是以?<= 或者?<! 为引导的。遗憾的是JavaScript并不支持,在高版本的Java中已获支持,于是就编写了下面的测试程序(JRE1.6.0_03):
复制代码 代码如下:

import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegExpTest {
public static void main(String[] args){
Pattern p = Pattern.compile("((?<=\\<img.*(?=(http|https)))(http|https))");
Matcher matcher = p.matcher("<img src="http://news.163.com/sports/yao.jpg" src="http://news.163.com/sports/yao.jpg"/>");
System.out.println(matcher.matches());
}
}

程序本身应该没有什么问题,但是运行结果:
Exception in thread "main" java.util.regex.PatternSyntaxException: Look-behind group does not have an obvious maximum length near index 27
((?<=\<img.*(?=(http|https)))(http|https))
我Google了半天,最后得到的唯一结果就是换种写法。希望看到这篇文章的朋友,如果已经实现了这种效果,一定要留言不吝赐教。
另外,在我看文档时看到了?:引导的正则表达式,上面说是“匹配不存储”,百思不得其解。感觉还是代码来的实在,写一个看一下:
复制代码 代码如下:

var str2 = '客户端名称';
var reg2 = /(客户端名(?:称)?)/;
str2.match(reg2);
alert(RegExp.$1); //客户端名称
alert(RegExp.$2); //空字符串
//不使用?:
reg2 = /(客户端名(称)?)/;
str2.match(reg2);
alert(RegExp.$1); //客户端名称
alert(RegExp.$2); //称

敏捷开发思想说:代码是最好的文档。给了我借口,呵呵。