当前位置: 首页 > 图文教程 > 网络编程 > ASP.NET > 使用正则表达式解析的初步体会(固定格式网页解析)

ASP.NET
AspNetPager与Socut.Data使用方法
asp.net UpdaeProgress的简单用法
asp.net ajaxControlToolkit ValidatorCalloutExtender的简单用法
asp.net 简易生成注册码(数字+大小写字母)
asp.net中利用ashx实现图片防盗链代码
ASP.NET程序中常用代码汇总
ASP.NET 2.0/3.5中直接操作Gridview控件插入新记录
ASP.NET Ajax级联DropDownList实现代码
ASP.NET 2.0写无限级下拉菜单
asp.net Web Services上传和下载文件(完整代码)
asp.net DataGrid控件中弹出详细信息窗口
Asp.NET 多层登陆实现代码
利用Asp.Net回调机制实现进度条
ASP.NET Ref和Out关键字区别分析
Javascript调用Webservice的多种方法
.Net下的签名与混淆图文分析
.Net Compact Framework开发小技巧 推荐
.Net连接Oracle数据库的实现代码
js获取.aspx页面里面的服务器控件和.ascx中的服务器控件值
asp.net下 jquery jason 高效传输数据

ASP.NET 中的 使用正则表达式解析的初步体会(固定格式网页解析)


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-11-03   浏览: 149 ::
收藏到网摘: n/a

用IE WebControl解析网页得到特定网页中的特定数据:
Set oDocument = Form2.m_IE.Document
Set oelement = oDocument.Forms("searchdetail")
Set oListTableElement = oelement.children(0).children(0)
这样的好处是简单,但坏处是:如何读取以及节点值究竟是什么含意这些信息,不太好抽取出来放到外面,作为灵活配置的文件。
因为它属于一个Childnodes一个Childnodes这么遍历的,无法灵活设定深度以及含义。
又体验了一把正则表达式,专门处理了北京式门户的站点HTML,由于北京式门户的12个省总排行榜页面中总包含这样的固定代码:




发现下面的式子可以把一系列值解析到一个又一个的MatchCollection中。
我用的是"The Regulator"工具,试验结果如下:
也就是Collection“hiddentonenames”总是XX名的集合,按序排列;
Collection“hiddenspnames”总是XX名的集合,按序排列;
Collection“hiddensingers”总是XX名的集合,按序排列;
以此类推。
在C#中,可以用如下代码得到各个集合的值:
foreach(Match match in matchCollection)
{
Group groupToneNames = match.Groups["hiddentonenames"];
Group groupSpNames = match.Groups["hiddenspnames"];
Group groupSingers = match.Groups["hiddensingers"];
}
这样,我可以针对这各种门派的Portal风格写出专门的正则表达式,但让他们输出的Collections名字都是一样的,从而让获取

一个铃声的各个字段的代码固定下来。
以后更新,只需要修改各个门派的正则表达式即可。
感谢王辉的《Web页面爬行实践》精彩文章!