当前位置: 首页 > 图文教程 > 网络编程 > PHP > php实现gb2312和unicode间编码转换

PHP
php面向对象全攻略 (十五) 多态的应用
php面向对象全攻略 (十六) 对象的串行化
php面向对象全攻略 (十七) 自动加载类
PHP parse_url 一个好用的函数
PHP 字符串分割和比较
全世界最小的php网页木马一枚 附PHP木马的防范方法
PHP 日期加减的类,很不错
PHP 日期时间函数的高级应用技巧
PHP获取163、gmail、126等邮箱联系人地址【已测试2009.10.10】
Ha0k 0.3 PHP 网页木马修改版
PHP iconv 函数转gb2312的bug解决方法
关于页面优化和伪静态
使用zend studio for eclipse不能激活代码提示功能的解决办法
PHP 身份验证方面的函数
基于OpenCV的PHP图像人脸识别技术
用mysql触发器自动更新memcache的实现代码
php 数学运算验证码实现代码
PHP网站开发方案实例
PHP教程:挖掘细节提升网站性能
搜索引擎技术核心揭密(PHP)

PHP 中的 php实现gb2312和unicode间编码转换


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-23   浏览: 210 ::
收藏到网摘: n/a

gb2312 和 unicode 间的编码转换

下面的例子是将 gb2312 转换为 "全"这种形式

php4.3.1以后的iconv函数很好用的,只是需要自己写一个uft8到unicode的转换函数
查表(gb2312.txt)也行。

<?
$text = "电子书库";
preg_match_all("/[\x80-\xff]?./",$text,$ar);
foreach($ar[0] as $v)
  echo "&#".utf8_unicode(iconv("GB2312","UTF-8",$v)).";";
?>
<?
// utf8 -> unicode
function utf8_unicode($c) {
  switch(strlen($c)) {
    case 1:
      return ord($c);
    case 2:
      $n = (ord($c[0]) & 0x3f) << 6;
      $n += ord($c[1]) & 0x3f;
      return $n;
    case 3:
      $n = (ord($c[0]) & 0x1f) << 12;
      $n += (ord($c[1]) & 0x3f) << 6;
      $n += ord($c[2]) & 0x3f;
      return $n;
    case 4:
      $n = (ord($c[0]) & 0x0f) << 18;
      $n += (ord($c[1]) & 0x3f) << 12;
      $n += (ord($c[2]) & 0x3f) << 6;
      $n += ord($c[3]) & 0x3f;
      return $n;
  }
}
?>

下面的例子是利用php将"全"这中编码转换为gb2312.

<?php
$str = "TTL全天候自动聚焦";
$str = preg_replace("|&#([0-9]{1,5});|", "\".u2utf82gb(\\1).\"", $str);
$str = "\$str=\"$str\";";

eval($str);
echo $str;

function u2utf82gb($c){
    $str="";
    if ($c < 0x80) {
         $str.=$c;
    } else if ($c < 0x800) {
         $str.=chr(0xC0 | $c>>6);
         $str.=chr(0x80 | $c & 0x3F);
    } else if ($c < 0x10000) {
         $str.=chr(0xE0 | $c>>12);
         $str.=chr(0x80 | $c>>6 & 0x3F);
         $str.=chr(0x80 | $c & 0x3F);
    } else if ($c < 0x200000) {
         $str.=chr(0xF0 | $c>>18);
         $str.=chr(0x80 | $c>>12 & 0x3F);
         $str.=chr(0x80 | $c>>6 & 0x3F);
         $str.=chr(0x80 | $c & 0x3F);
    }
    return iconv('UTF-8', 'GB2312', $str);
}
?>

或者是

function unescape($str) {
  $str = rawurldecode($str);
  preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r);
  $ar = $r[0];
print_r($ar);
  foreach($ar as $k=>$v) {
    if(substr($v,0,2) == "%u")
      $ar[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,-4)));
    elseif(substr($v,0,3) == "&#x")
      $ar[$k] = iconv("UCS-2","GB2312",pack("H4",substr($v,3,-1)));
    elseif(substr($v,0,2) == "&#") {
echo substr($v,2,-1)."<br>";
      $ar[$k] = iconv("UCS-2","GB2312",pack("n",substr($v,2,-1)));
    }
  }
  return join("",$ar);
}

$str = "TTL全天候自动聚焦";
echo unescape($str); //out TTL全天候自动聚焦

利用javascript来转换

<style>
BODY {
 FONT-SIZE: 9pt; PADDING-RIGHT: 0px; PADDING-LEFT: 0px; PADDING-BOTTOM: 0px; PADDING-TOP: 0px;
}
input {
 FONT-SIZE: 9pt; height: 13pt;
}
</style>

<script language="JavaScript1.2">
/*
 This following code are designed and writen by Windy_sk <[email protected]>
 You can use it freely, but u must held all the copyright items!
*/

function Str2Unicode(str){
 var arr = new Array();
 for(var i=0;i<str.length;i++){
  arr[i]="&#" + str.charCodeAt(i) + ";";
 }
 return(arr.toString().replace(/,/g,""));
}

function Unicode2oStr(str){
 var re=/&#[\da-fA-F]{1,5};/ig;
 var arr=str.match(re);
 if(arr==null)return("");
 for(var i=0;i<arr.length;i++){
  arr[i]=String.fromCharCode(arr[i].replace(/[&#;]/g,""));
 }
 return(arr.toString().replace(/,/g,""))
}

function modi_str(){
 if(document.all.text.method.checked){
  if(document.all.text.decode.value!=""){
   document.all.text.encode.value = Str2Unicode(document.all.text.decode.value);
  }else{
   document.all.text.decode.value = Unicode2oStr(document.all.text.encode.value);
  }
 }else{
  if(document.all.text.encode.value!=""){
   document.all.text.decode.value = Unicode2oStr(document.all.text.encode.value);
  }else{
   document.all.text.encode.value = Str2Unicode(document.all.text.decode.value);
  }
 }
}
</script>
<title>Unicode</title>
<form name=text>
文本原型:<br>
  <textarea name="decode" cols="100" rows="10"></textarea>
  <br>
转换代码:<br>
  <textarea name="encode" cols="100" rows="10"></textarea>
  <br>
  <input type="checkbox" name="method" checked> 正向转换
  <input type=button value=" 确 定 ">
  <input type=reset value=" 清 空 ">
  <input type=button value=" 全 选 ">
</form>

下面是一个显示所有全角半角的字体的查看例子

以下为引用的内容:
<style>
BODY {
 FONT-SIZE: 9pt; PADDING-RIGHT: 0px; PADDING-LEFT: 0px; PADDING-BOTTOM: 0px; PADDING-TOP: 0px;
}
input {
 FONT-SIZE: 9pt; height: 13pt;
}
</style>
<script>
function showUni(min,max){
 show.document.open();
 show.document.writeln("<style>body{font-size:9pt;word-break:break-all;}</style>");
 show.document.writeln(min + " - " + max + "<br><br>");
 var i=0;
 for(i=min;i<=max;i++){
  show.document.write("&#" + i + ";");
 }
 show.document.close();
}
</script>
<input type=button value="半角"  onclick=showUni(32,126)>
<input type=button value="全角"  onclick=showUni(65281,65374)>
<input type=button value="中文1" onclick=showUni(19968,40869)>
<input type=button value="中文2" onclick=showUni(63744,64045)>
<input type=button value="日文平"  onclick=showUni(12353,12435)>
<input type=button value="日文片"  onclick=showUni(12449,12534)>
<input type=button value="韩文"  onclick=showUni(44032,55203)>
<br>自定义:<input name=min> - <input name=max>
<input type=button value="察看" onclick=showUni(parseInt(document.all.min.value),parseInt(document.all.max.value))>
<br>
<iframe src="about:blank" id=show width=100% height=70% scroll=no></iframe>

下面是一个查表(gb2312),转换gb2312到utf8的例子, 现在有iconv函数,这个已经没有太大的意义了

<?
function gb2utf8($gb){
    if(!trim($gb))  return $gb;
    $filename="gb2312.txt";
    $tmp=file($filename);
    $codetable=array();
    while(list($key,$value)=each($tmp))
          $codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

    $utf8="";
    while($gb) {
        if (ord(substr($gb,0,1))>127) {
          $this=substr($gb,0,2);
          $gb=substr($gb,2,strlen($gb)-2);
          $utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
        }else{
            $this=substr($gb,0,1);
            $gb=substr($gb,1,strlen($gb)-1);
            $utf8.=u2utf8($this);
        }
    }
    return $utf8;
}

function u2utf8($c){
    $str="";
    if ($c < 0x80) {
         $str.=$c;
    } else if ($c < 0x800) {
         $str.=chr(0xC0 | $c>>6);
         $str.=chr(0x80 | $c & 0x3F);
    } else if ($c < 0x10000) {
         $str.=chr(0xE0 | $c>>12);
         $str.=chr(0x80 | $c>>6 & 0x3F);
         $str.=chr(0x80 | $c & 0x3F);
    } else if ($c < 0x200000) {
         $str.=chr(0xF0 | $c>>18);
         $str.=chr(0x80 | $c>>12 & 0x3F);
         $str.=chr(0x80 | $c>>6 & 0x3F);
         $str.=chr(0x80 | $c & 0x3F);
    }
    return $str;
}

?>