当前位置: 首页 > 图文教程 > 网络编程 > PHP > 用PHP读取和编写XML DOM

PHP
《PHP设计模式介绍》第十三章 适配器模式
《PHP设计模式介绍》第十四章 动态记录模式
《PHP设计模式介绍》第十五章 表数据网关模式
《PHP设计模式介绍》第十六章 数据映射模式
《PHP设计模式介绍》第十七章 MVC 模式
Zend Framework 入门——快速上手
Zend Framework 入门——多国语言支持
Zend Framework 入门——错误处理
Zend Framework 入门——页面布局
详细介绍php5编程中的异常处理
PHP5 OOP编程中的代理与异常
PHP程序的常见漏洞攻击分析
PHP.MVC的模板标签系统
PHP教程:PHP编码书写规范
PHP开发大型项目的方法:OOP思想
php使用curl模拟用户登陆
php对gb编码动态转utf-8编码的几种方法评测
php设计模式介绍之章代理模式
“在phpMyAdmin使用用户口令登陆”补充
PHP入门速成

用PHP读取和编写XML DOM


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-23   浏览: 154 ::
收藏到网摘: n/a

有许多技术可用于用PHP读取和编写XML。本文提供了三种方法读取XML:使用DOM库、使用SAX解析器和使用正则表达式。还介绍了使用DOM和PHP文本模板编写XML。

用PHP读取和编写可扩展标记语言(XML)看起来可能有点恐怖。实际上,XML和它的所有相关技术可能是恐怖的,但是用PHP读取和编写XML不一定是项恐怖的任务。首先,需要学习一点关于XML的知识——它是什么,用它做什么。然后,需要学习如何用PHP读取和编写XML,而有许多种方式可以做这件事。

本文提供了XML的简短入门,然后解释如何用PHP读取和编写XML。

什么是XML?

XML是一种数据存储格式。它没有定义保存什么数据,也没有定义数据的格式。XML只是定义了标记和这些标记的属性。格式良好的XML标记看起来像这样:

<name>JackHerrington</name>

这个<name>标记包含一些文本:JackHerrington。

不包含文本的XML标记看起来像这样:

<powerUp/>

用XML对某件事进行编写的方式不止一种。例如,这个标记形成的输出与前一个标记相同:

<powerUp></powerUp>

也可以向XML标记添加属性。例如,这个<name>标记包含first和last属性:

<namefirst="Jack"last="Herrington"/>

也可以用XML对特殊字符进行编码。例如,&符号可以像这样编码:

&

包含标记和属性的XML文件如果像示例一样格式化,就是格式良好的,这意味着标记是对称的,字符的编码正确。清单1是一份格式良好的XML的示例。

清单1.XML图书列表示例

<books><book><author>JackHerrington</author><title>PHPHacks</title><publisher>O'Reilly</publisher></book><book><author>JackHerrington</author><title>PodcastingHacks</title><publisher>O'Reilly</publisher></book></books>

清单1中的XML包含一个图书列表。父标记<books>包含一组<book>标记,每个<book>标记又包含<author>、<title>和<publisher>标记。

当XML文档的标记结构和内容得到外部模式文件的验证后,XML文档就是正确的。模式文件可以用不同的格式指定。对于本文来说,所需要的只是格式良好的XML。

如果觉得XML看起来很像超文本标记语言(HTML),那么就对了。XML和HTML都是基于标记的语言,它们有许多相似之处。但是,要着重指出的是:虽然XML文档可能是格式良好的HTML,但不是所有的HTML文档都是格式良好的XML。换行标记(br)是XML和HTML之间区别的一个好例子。这个换行标记是格式良好的HTML,但不是格式良好的XML:

<p>Thisisaparagraph<br>
Withalinebreak</p>

这个换行标记是格式良好的XML和HTML:

<p>Thisisaparagraph<br/>
Withalinebreak</p>

如果要把HTML编写成同样是格式良好的XML,请遵循W3C委员会的可扩展超文本标记语言(XHTML)标准(参见参考资料)。所有现代的浏览器都能呈现XHTML。而且,还可以用XML工具读取XHTML并找出文档中的数据,这比解析HTML容易得多。

使用DOM库读取XML

读取格式良好的XML文件最容易的方式是使用编译成某些PHP安装的文档对象模型(DOM)库。DOM库把整个XML文档读入内存,并用节点树表示它,如图1所示。

图1.图书XML的XMLDOM树


树顶部的books节点有两个book子标记。在每本书中,有author、publisher和title几个节点。author、publisher和title节点分别有包含文本的文本子节点。

读取图书XML文件并用DOM显示内容的代码如清单2所示。

清单2.用DOM读取图书XML

<?php$doc=newDOMDocument();$doc->load('books.xml');$books=$doc->getElementsByTagName("book");foreach($booksas$book){$authors=$book->getElementsByTagName("author");$author=$authors->item(0)->nodeValue;$publishers=$book->getElementsByTagName("publisher");$publisher=$publishers->item(0)->nodeValue;$titles=$book->getElementsByTagName("title");$title=$titles->item(0)->nodeValue;echo"$title-$author-$publisher\n";}?>


脚本首先创建一个newDOMdocument对象,用load方法把图书XML装入这个对象。之后,脚本用getElementsByName方法得到指定名称下的所有元素的列表。

在book节点的循环中,脚本用getElementsByName方法获得author、publisher和title标记的nodeValue。nodeValue是节点中的文本。脚本然后显示这些值。

可以在命令行上像这样运行PHP脚本:

%phpe1.php
PHPHacks-JackHerrington-O'Reilly
PodcastingHacks-JackHerrington-O'Reilly
%

可以看到,每个图书块输出一行。这是一个良好的开始。但是,如果不能访问XMLDOM库该怎么办?

用SAX解析器读取XML

读取XML的另一种方法是使用XMLSimpleAPI(SAX)解析器。PHP的大多数安装都包含SAX解析器。SAX解析器运行在回调模型上。每次打开或关闭一个标记时,或者每次解析器看到文本时,就用节点或文本的信息回调用户定义的函数。

SAX解析器的优点是,它是真正轻量级的。解析器不会在内存中长期保持内容,所以可以用于非常巨大的文件。缺点是编写SAX解析器回调是件非常麻烦的事。清单3显示了使用SAX读取图书XML文件并显示内容的代码。

清单3.用SAX解析器读取图书XML
<?php$g_books=array();$g_elem=null;functionstartElement($parser,$name,$attrs){global$g_books,$g_elem;if($name=='BOOK')$g_books[]=array();$g_elem=$name;}functionendElement($parser,$name){global$g_elem;$g_elem=null;}functiontextData($parser,$text){global$g_books,$g_elem;if($g_elem=='AUTHOR'||$g_elem=='PUBLISHER'||$g_elem=='TITLE'){$g_books[count($g_books)-1][$g_elem]=$text;}}$parser=xml_parser_create();xml_set_element_handler($parser,"startElement","endElement");xml_set_character_data_handler($parser,"textData");$f=fopen('books.xml','r');while($data=fread($f,4096)){xml_parse($parser,$data);}xml_parser_free($parser);foreach($g_booksas$book){echo$book['TITLE']."-".$book['AUTHOR']."-";echo$book['PUBLISHER']."\n";}?>

脚本首先设置g_books数组,它在内存中容纳所有图书和图书信息,g_elem变量保存脚本目前正在处理的标记的名称。然后脚本定义回调函数。在这个示例中,回调函数是startElement、endElement和textData。在打开和关闭标记的时候,分别调用startElement和endElement函数。在开始和结束标记之间的文本上面,调用textData。

在这个示例中,startElement标记查找book标记,在book数组中开始一个新元素。然后,textData函数查看当前元素,看它是不是publisher、title或author标记。如果是,函数就把当前文本放入当前图书。

为了让解析继续,脚本用xml_parser_create函数创建解析器。然后,设置回调句柄。之后,脚本读取文件并把文件的大块内容发送到解析器。在文件读取之后,xml_parser_free函数删除解析器。脚本的末尾输出g_books数组的内容。

可以看到,这比编写DOM的同样功能要困难得多。如果没有DOM库也没有SAX库该怎么办?还有替代方案么?

用正则表达式解析XML

可以肯定,即使提到这个方法,有些工程师也会批评我,但是确实可以用正则表达式解析XML。清单4显示了使用preg_函数读取图书文件的示例。

清单4.用正则表达式读取XML
<?php$xml="";$f=fopen('books.xml','r');while($data=fread($f,4096)){$xml.=$data;}fclose($f);preg_match_all("/\<book\>(.*?)\<\/book\>/s",$xml,$bookblocks);foreach($bookblocks[1]as$block){preg_match_all("/\<author\>(.*?)\<\/author\>/",$block,$author);preg_match_all("/\<title\>(.*?)\<\/title\>/",$block,$title);preg_match_all("/\<publisher\>(.*?)\<\/publisher\>/",$block,$publisher);echo($title[1][0]."-".$author[1][0]."-".$publisher[1][0]."\n");}?>


请注意这个代码有多短。开始时,它把文件读进一个大的字符串。然后用一个regex函数读取每个图书项目。最后用foreach循环,在每个图书块间循环,并提取出author、title和publisher。

那么,缺陷在哪呢?使用正则表达式代码读取XML的问题是,它并没先进行检查,确保XML的格式良好。这意味着在读取之前,无法知道XML是否格式良好。而且,有些格式正确的XML可能与正则表达式不匹配,所以日后必须修改它们。

我从不建议使用正则表达式读取XML,但是有时它是兼容性最好的方式,因为正则表达式函数总是可用的。不要用正则表达式读取直接来自用户的XML,因为无法控制这类XML的格式或结构。应当一直用DOM库或SAX解析器读取来自用户的XML。

用DOM编写XML

读取XML只是公式的一部分。该怎样编写XML呢?编写XML最好的方式就是用DOM。清单5显示了DOM构建图书XML文件的方式。

 清单5.用DOM编写图书XML
<?php$books=array();$books[]=array('title'=>'PHPHacks','author'=>'JackHerrington','publisher'=>"O'Reilly");$books[]=array('title'=>'PodcastingHacks','author'=>'JackHerrington','publisher'=>"O'Reilly");$doc=newDOMDocument();$doc->formatOutput=true;$r=$doc->createElement("books");$doc->appendChild($r);foreach($booksas$book){$b=$doc->createElement("book");$author=$doc->createElement("author");$author->appendChild($doc->createTextNode($book['author']));$b->appendChild($author);$title=$doc->createElement("title");$title->appendChild($doc->createTextNode($book['title']));$b->appendChild($title);$publisher=$doc->createElement("publisher");$publisher->appendChild($doc->createTextNode($book['publisher']));$b->appendChild($publisher);$r->appendChild($b);}echo$doc->saveXML();?>

在脚本的顶部,用一些示例图书装入了books数组。这个数据可以来自用户也可以来自数据库。

示例图书装入之后,脚本创建一个newDOMDocument,并把根节点books添加到它。然后脚本为每本书的author、title和publisher创建节点,并为每个节点添加文本节点。每个book节点的最后一步是重新把它添加到根节点books。

脚本的末尾用saveXML方法把XML输出到控制台。(也可以用save方法创建一个XML文件。)脚本的输出如清单6所示。

清单6.DOM构建脚本的输出
%phpe4.php<?xmlversion="1.0"?><books><book><author>JackHerrington</author><title>PHPHacks</title><publisher>O'Reilly</publisher></book><book><author>JackHerrington</author><title>PodcastingHacks</title><publisher>O'Reilly</publisher></book></books>%

使用DOM的真正价值在于它创建的XML总是格式正确的。但是如果不能用DOM创建XML时该怎么办?

用PHP编写XML

如果DOM不可用,可以用PHP的文本模板编写XML。清单7显示了PHP如何构建图书XML文件。

清单7.用PHP编写图书XML
<?php$books=array();$books[]=array('title'=>'PHPHacks','author'=>'JackHerrington','publisher'=>"O'Reilly");$books[]=array('title'=>'PodcastingHacks','author'=>'JackHerrington','publisher'=>"O'Reilly");?><books><?phpforeach($booksas$book){?><book><title><?phpecho($book['title']);?></title><author><?phpecho($book['author']);?></author><publisher><?phpecho($book['publisher']);?></publisher></book><?php}?></books>

脚本的顶部与DOM脚本类似。脚本的底部打开books标记,然后在每个图书中迭代,创建book标记和所有的内部title、author和publisher标记。

这种方法的问题是对实体进行编码。为了确保实体编码正确,必须在每个项目上调用htmlentities函数,如清单8所示。

清单8.使用htmlentities函数对实体编码
<books><?phpforeach($booksas$book){$title=htmlentities($book['title'],ENT_QUOTES);$author=htmlentities($book['author'],ENT_QUOTES);$publisher=htmlentities($book['publisher'],ENT_QUOTES);?><book><title><?phpecho($title);?></title><author><?phpecho($author);?></author><publisher><?phpecho($publisher);?></publisher></book><?php}?></books>

这就是用基本的PHP编写XML的烦人之处。您以为自己创建了完美的XML,但是在试图使用数据的时候,马上就会发现某些元素的编码不正确。

结束语

XML周围总有许多夸大之处和混淆之处。但是,并不像您想像的那么难——特别是在PHP这样优秀的语言中。在理解并正确地实现了XML之后,就会发现有许多强大的工具可以使用。XPath和XSLT就是这样两个值得研究的工具。