当前位置: 首页 > 图文教程 > 网络编程 > ASP.NET > 正则表达式的3种匹配模式

ASP.NET
ASP.NET开发:简化应用程序的开发支持Web标准
asp.net XMLHttpRequest实现用户注册前的验证
asp.net 页面间传值方法小结
asp.net url重写浅谈
asp.net 验证码生成和刷新及验证
C#精髓 GridView72大绝技 学习gridview的朋友必看
实例说明asp.net中的简单角色权限控制
asp.net网站开发包wq.dll打包下载
js与ASP.NET 中文乱码问题
asp.net checkbox 动态绑定id GridView删除提示
asp.net TextBox回车触发事件 图片在img显示
asp.net 脏字典过滤问题 用正则表达式来过滤脏数据
asp.NET 脏字过滤算法
asp.NET 脏字过滤算法 修改版
asp.net sql 数据库处理函数命令
asp.net Javascript 的几种写法与提示
ASP.NET MVC学习笔记
asp.net 中国身份证号码验证代码 非正则
Asp.net中使用Sqlite数据库的方法
asp.net 中文字符串提交乱码的解决方法

ASP.NET 中的 正则表达式的3种匹配模式


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-08-14   浏览: 87 ::
收藏到网摘: n/a

正则表达式是处理字符串的常用工具。在C#中,我们一般使用Regex类来表示一个正则表达式。一般正则表达式引擎支持以下3种匹配模式:单行模式(Singleline)、多行模式(Multiline)与忽略大小写(IgnoreCase)。

1. 单行模式(Singleline)
MSDN定义:更改点 (.) 的含义,使它与每一个字符匹配(而不是与除 \n 之外的每个字符匹配)。
使用单行模式的典型场景是获取网页源码中的信息。
示例:
我们使用WebBrowser控件,从http://www.xxx.com/1.htm上获取了如下HTML源码,它存储在变量str中:
<html>
<body>
<div>
Line 1
Line 2
</div>
</body>
</html>
我们想把div标签以及其中的内容提取出来,编写代码如下:

string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//结果为:Mismatch!
错误分析:
一般认为点符号(.)是匹配任意单个字符的,而(.*)就是匹配任意多个字符。但实际上点符号不能匹配换行符。在Windows中与它等效的表达式为[^\r\n]。
而我们从网站上获取的HTML源码,极少有不换行的。这时候单行模式派上用场了,它可以改变点符号的意义。修改regex实例的构造函数,用RegexOptions.Singleline来声明使用单行模式:

string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern, RegexOptions.Singleline);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

/*
结果为:
<div>
Line 1
Line 2
</div>
*/

单行模式的嵌入修饰符:
我们可以直接在正则表达式中嵌入单行模式:
(?s)<div>.*</div>
(?s)修饰符说明,其后面的表达式采用单行模式。所以使用时请不要将它放在末尾。另外可以使用(?-s)关闭单行模式。
注意:嵌入模式的优先级要高于Regex类的RegexOptions设置,所以使用了(?s)后,无论是否使用RegexOptions.Singleline,均按照单行模式解析。

2. 多行模式(Multiline)
MSDN定义:更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。
示例:
有一个文本文件,它的每一行是一个用户名,将文件读入变量str中进行处理。其内容如下:
二十四画生
TerryLee
莫相会
Dflying Chen
Rainy
借用博客园各位前辈的大名:)
我们想找出一个使用英文字母开头的用户名,编写代码如下:

string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//结果为:Mismatch!
错误分析:
(^)是字符串的起始锚定,str的第一个字符是一个中文字,所以匹配不上。我们就可以使用多行模式来改变(^)的含义,使它匹配每一行的起始,而不是整个字符串的起始。
更改代码如下:

string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//结果为:TerryLee
同时,多行模式也会改变($)的含义,使它匹配每一行的结尾,而不是整个字符串的结尾。
与(^)和($)不同的是,(\A)和(\Z)并不受多行模式的影响,永远匹配整个字符串的起始和结尾。
多行模式的嵌入修饰符:(?m)与(?-m)

3. 忽略大小写(IgnoreCase)
MSDN定义:指定不区分大小写的匹配。
这个模式很容易理解,它认为大小写字符是相同的。我们仍以上例来说明。
示例:

string pattern = @"^[a-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//结果为:TerryLee
分析:请注意这次使用的正则表达式,我们并没有写入大写字母,但却匹配了以大写字母开头的名字,这就是忽略大小写的效果。
忽略大小写的嵌入修饰符:(?i)与(?-i)

总结:
最后我们用一个表格来总结一下这三个模式
   定义    影响的表达式    RegexOptions枚举    嵌入标识符
单行模式    更改点 (.) 的含义,使它与每一个字符匹配(而不是与除 \n 之外的每个字符匹配)。    .    Singleline    (?s)
多行模式    更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。    ^$    Multiline    (?m)
忽略大小写    指定不区分大小写的匹配。        IgnoreCase    (?i)