当前位置: 首页 > 图文教程 > 网络编程 > PHP > PHP中解析HTML字符串的问题

PHP
PHP新手总结的PHP基础知识
php实现gb2312和unicode间编码转换
用php语言实现数据库连接详细代码介绍
详细解析 PHP 向 MySQL 发送数据过程
利用PHP V5开发多任务应用程序
详细讲解PHP中缓存技术的应用
php escapeshellcmd多字节编码漏洞
《PHP设计模式介绍》导言
《PHP设计模式介绍》第一章 编程惯用法
《PHP设计模式介绍》第二章 值对象模式
《PHP设计模式介绍》第三章 工厂模式
《PHP设计模式介绍》第四章 单件模式
《PHP设计模式介绍》第五章 注册模式
《PHP设计模式介绍》第六章 伪对象模式
《PHP设计模式介绍》第七章 策略模式
《PHP设计模式介绍》第八章 迭代器模式
《PHP设计模式介绍》第九章 观测模式
《PHP设计模式介绍》第十章 规范模式
《PHP设计模式介绍》第十一章 代理模式
《PHP设计模式介绍》第十二章 装饰器模式

PHP中解析HTML字符串的问题


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-28   浏览: 92 ::
收藏到网摘: n/a

下午的时候同事碰到了一个小问题,是这样的:他从别人的接口中取回一长串的HTML,但是他只需要其中的一块。这就涉及到在PHP中解析HTML字符串的问题,花了挺长时间,找了不同的方法,在此记录一下:

1.最简单的就是字符串解析,灵活运用 strpos , substr 混合处理,把那一段代码抠出来。由于他要取的是一个固定的div内的东西,而且那个div 的 class 属性也是固定的,所以这种方法倒也简单,直接先以<div class=”xxx” 作为needle 找到那个div,然后做一些操作就行了。

2.PHP DOMDocument 。听到这个问题的时候首先想到的是PHP的DOM解析功能,刚开始真的以为找到了救星。但是最后发现这个东西的功能不能解决问题,反正我是没找到。因为最好我们想要把div里面的html代码输出出来,结果用 DOMDocument 提供的方法输出的全是不带标签的纯文本,无奈,只好弃用。(可能是我不知道它的用法,希望知道的不吝赐教。)

3. Tidy Functions 。其实 Tidy 是用来整理HTML的,不过它也可以进行HTML的解析处理。先使用tidy_parse_string() 把字符串转换成 tidy 对象,然后就可以利用tidy的方法对其进行处理了,还算方便,不过这个东西只能在 PHP 4.3.x 和 PHP 5 的版本下才有。具体方法和使用请参考手册。

4. strip_tags() 。无意中发现了这个函数,实在是太好用了!!上面几种方法最好我都是结合着strip_tags()来使用的。strip_tags() 可以过滤掉HTML和PHP标签,返回一个全新的字符串!用法如下:

string strip_tags ( string 要处理的字符串 [, string 想保留的标签] )

如果你想保留某些标签,比如 <a> 标签,就可以这样写,strip_tags($str, “<a>”) ,如果想保留多个标签,就可以这么写: strip_tags($str, “<a> <img>”);  标签之间用空格隔开就可以了。

5.另外,据我另一个同事测试,好像使用 XMLReader 来搞,没尝试,有兴趣的可以搞一下。

在工作中学习到的一些小东西,记录下来,省的以后忘记了。如果大家有什么更好的技巧,欢迎赐教,谢谢。