当前位置: 首页 > 图文教程 > 网络编程 > PHP > PHP读取汉字点阵数据

PHP
php 多线程上下文中安全写文件实现代码
PHP类的使用 实例代码讲解
用php实现让页面只能被百度gogole蜘蛛访问的方法
php 学习笔记
PHP编程过程中需要了解的this,self,parent的区别
php 操作excel文件的方法小结
使用PHP获取网络文件的实现代码
PHP 巧用数组降低程序的时间复杂度
php下将XML转换为数组
php 文件上传代码(限制jpg文件)
php 无极分类(递归)实现代码
PHP 采集获取指定网址的内容
PHP 将图片按创建时间进行分类存储的实现代码
PHP 存储文本换行实现方法
PHP 批量更新网页内容实现代码
用PHP查询搜索引擎排名位置的代码
用php实现的获取网页中的图片并保存到本地的代码
php实现首页链接查询 友情链接检查的代码
处理php自动反斜杠的函数代码
php实现的遍历文件夹下所有文件,编辑删除

PHP读取汉字点阵数据


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-08-14   浏览: 64 ::
收藏到网摘: n/a

背景知识:

简体中文国标字库(1981年订,中国大陆)。7445个字符,其中汉字6773个,包括一级汉字3755个,二级汉字3008个。采用2字节(16位二进制)编码。

区位码:国标GB2312规定,所有的国标汉字与符号组成一个94×94的矩阵。在此方阵中,每一行称为一个”区”,每一列称为一个”位”,因此,这个方阵实际上组成了一个有94个区(区号分别为0 1到94)、每个区内有94个位(位号分别为01到94)的汉字字符集。一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的”区位码”。在汉字的区位码中,高两位为区号,低两位为位号。由此可见,区位码与汉字或符号之间是一一对应的。

内码:汉字的内码是指在计算机中表示汉字的编码。机内码与区位码稍有区别。为什么不直接用区位码作为计算机内的编码呢?这是因为汉字的区码和位码的范围都在1到94内,如果直接用区位码作机内码,就会与基本ASCII码冲突。汉字的内码通常与所使用的计算机系统有关。目前,对于国内大多数的计算机系统,一个汉字的内码占两个字节,分别称为高位字节与低位字节,且这两位字节与区位码的关系如下:内码高位=区码+A0H(H表示十六进制) 内码低位=位码+A0H 例如,汉字”啊”的区位码为”1601″,区码和位码分别用十六进制表示即为”1001H”,则它的内码为”B0A1H”。其中B0H为内码的高位字节,A1H为内码的低位字节。

PHP代码:返回由0和1组成的字符串。

以下为引用的内容:
<?PHP
/**
 * 读取汉字点阵数据
 *
 * @author    legend <[email protected]>
 * @link      http://www.ugia.cn/?p=82
 * @Copyright www.ugia.cn
 */
    
$str = "中华人民共和国";
    
$font_file_name   = "simsun12.fon"; // 点阵字库文件名
$font_width       = 12;  // 单字宽度
$font_height      = 12;  // 单字高度
$start_offset     = 0;   // 偏移
    
$fp = fopen($font_file_name, "rb");
    
$offset_size = $font_width * $font_height / 8;
$string_size = $font_width * $font_height;
$dot_string  = "";
    
for ($i = 0; $i < strlen($str); $i ++)
{
    if (ord($str{$i}) > 160)
    {
        // 先求区位码,然后再计算其在区位码二维表中的位置,进而得出此字符在文件中的偏移
        $offset = ((ord($str{$i}) - 0xa1) * 94 + ord($str{$i + 1}) - 0xa1) * $offset_size;
        $i ++;
    }
    else
    {
        $offset = (ord($str{$i}) + 156 - 1) * $offset_size;
    }
    
    // 读取其点阵数据
    fseek($fp, $start_offset + $offset, SEEK_SET);
    $bindot = fread($fp, $offset_size);
    
    for ($j = 0; $j < $offset_size; $j ++)
    {
        // 将二进制点阵数据转化为字符串
        $dot_string .= sprintf("%08b", ord($bindot{$j}));
    }
}
    
fclose($fp);
    
echo $dot_string;
?>