当前位置: 首页 > 图文教程 > 网络编程 > 正则表达式 > PHP 正则表达式分析RSS

正则表达式
正则在FireFox和IE下使用test的不同
正确使用带有"g"标记的javascript正则表达式
正则表达式 学习资料整理
javascript 正则表达式用法 小结
正则匹配的test函数
JavaScript 正则表达式 验证整数、小数、实数、有效位小数最简单
检测八位数字是否为有效日期的正则
editplus EmEditor和searchandreplace正则表达式
正则应用之 日期正则表达式
正则表达式 学习参考 推荐入门者看
正则基础之 \b 单词边界
正则基础之 小数点
正则 捕获组(capture group)
Dreamweaver 正则替换(返回调用值)
JavaScript 表单验证正则表达式大全[推荐]
JavaScript 使用正则表达式进行表单验证的示例代码
获取网址路径的正则
去除段首段尾的 和全角的空格的正则
正则表达式匹配任意字符(包括换行符)的写法
EditPlus 正则表达式替换字符串详解

PHP 正则表达式分析RSS


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-13   浏览: 82 ::
收藏到网摘: n/a

近做了一个读取中国新闻网RSS的页面。首先是把RSS文档下载下来保存到本地
复制代码 代码如下:

$xmlfile = 'news/'.date('YmdH').'.xml';
$sourcexml = 'http://www.chinanews.com.cn/rss/scroll-news.xml';
if( !file_exists($xmlfile) ) {
$str = @file($sourcexml) or die('加载文件时出错。');
$fp = fopen($xmlfile,'w') or die('写缓存失败!');
fputs($fp,$str);
fclose($fp);

然后用simplexml读取并输出HTML
复制代码 代码如下:

$xml = simplexml_load_file($xmlfile);
$c = $xml->channel;
$k = 0;
foreach($c->item as $v) {
$k ++;
echo "
<div class=\"newsline\">·<a title=\"$v->title\" href=\"$v->link\" target=\"_blank\">$v->title</a></div>
";

后来遇到了一个问题,就是RSS中经常包含有一些GBK的繁体字。google了很多字符集转换方面的文章。得出一个解法:
复制代码 代码如下:

$str = mb_convert_encoding( join('',$str), "gb2312", "GBK");

这个方法并不能繁体转为简体,会转成一个乱码,但至少能保证simplexml_load_file($xmlfile)执行成功。因为这些繁体字通常出现在描述里
,暂且接受。
再后来遇到另一个问题,描述里出现了形如“中新网12月30日电(闻育e?”的乱码,simplexml_load_file失败。
至此考虑用正则表达式获取标题和链接。(有文章说正则表达式效率可能更好,以后再验证)
代码如下:
复制代码 代码如下:

$fp = fopen($xmlfile,'r');
if($fp)
{
$data = fread($fp,filesize($xmlfile));
fclose($fp);
preg_match_all(
"/<item><title>(.*?)<\/title><link>(.*?)<\/link>/i",$data,$out,PREG_SET_ORDER);
foreach($out as $key => $v)
{
$v[1] = iconv('gbk','utf-8',$v[1]);
echo "
<div class=\"newsline\">·<a title=\"$v[1]\" href=\"$v[2]\" target=\"_blank\">$v[1]</a></div>
";
}
}