当前位置: 首页 > 图文教程 > 网络编程 > PHP > PHP中解析HTML字符串的问题

PHP
dedecms模版制作使用方法
dede3.1分页文字采集过滤规则详说(图文教程)
dede3.1分页文字采集过滤规则详说(图文教程)续二
dede3.1分页文字采集过滤规则详说(图文教程)续四
手把手教你使用DedeCms V3的在线采集图文教程
PHP实现MVC开发得最简单的方法:模型
php下用GD生成生成缩略图的两个选择和区别
Win2003服务器安全加固设置--进一步提高服务器安全性
[php] 我的微型论坛的简单教程[已完成]
phpMyAdmin下载、安装和使用入门教程
PHP 优化配置:加速你的VBB,phpwind,Discuz,IPB,MolyX
php+mysql开源XNA 聚合程序发布 下载
Bo-Blog专用的给Windows服务器的IIS Rewrite程序
MySQL数据库转移,access,sql server 转 MySQL 的图文教程
小结下MySQL中文乱码,phpmyadmin乱码,php乱码 产生原因及其解决方法
首页四格,首页五格For6.0(GBK)(UTF-8)[12种组合][9-18][版主安装测试通过]
[PHP]经常用到的实用函数集合
php扩展ZF:Validate扩展
php开发工具之vs2005图解
PHP 5.0创建图形的实用方法完整篇

PHP中解析HTML字符串的问题


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-28   浏览: 122 ::
收藏到网摘: n/a

下午的时候同事碰到了一个小问题,是这样的:他从别人的接口中取回一长串的HTML,但是他只需要其中的一块。这就涉及到在PHP中解析HTML字符串的问题,花了挺长时间,找了不同的方法,在此记录一下:

1.最简单的就是字符串解析,灵活运用 strpos , substr 混合处理,把那一段代码抠出来。由于他要取的是一个固定的div内的东西,而且那个div 的 class 属性也是固定的,所以这种方法倒也简单,直接先以<div class=”xxx” 作为needle 找到那个div,然后做一些操作就行了。

2.PHP DOMDocument 。听到这个问题的时候首先想到的是PHP的DOM解析功能,刚开始真的以为找到了救星。但是最后发现这个东西的功能不能解决问题,反正我是没找到。因为最好我们想要把div里面的html代码输出出来,结果用 DOMDocument 提供的方法输出的全是不带标签的纯文本,无奈,只好弃用。(可能是我不知道它的用法,希望知道的不吝赐教。)

3. Tidy Functions 。其实 Tidy 是用来整理HTML的,不过它也可以进行HTML的解析处理。先使用tidy_parse_string() 把字符串转换成 tidy 对象,然后就可以利用tidy的方法对其进行处理了,还算方便,不过这个东西只能在 PHP 4.3.x 和 PHP 5 的版本下才有。具体方法和使用请参考手册。

4. strip_tags() 。无意中发现了这个函数,实在是太好用了!!上面几种方法最好我都是结合着strip_tags()来使用的。strip_tags() 可以过滤掉HTML和PHP标签,返回一个全新的字符串!用法如下:

string strip_tags ( string 要处理的字符串 [, string 想保留的标签] )

如果你想保留某些标签,比如 <a> 标签,就可以这样写,strip_tags($str, “<a>”) ,如果想保留多个标签,就可以这么写: strip_tags($str, “<a> <img>”);  标签之间用空格隔开就可以了。

5.另外,据我另一个同事测试,好像使用 XMLReader 来搞,没尝试,有兴趣的可以搞一下。

在工作中学习到的一些小东西,记录下来,省的以后忘记了。如果大家有什么更好的技巧,欢迎赐教,谢谢。