当前位置: 首页 > 图文教程 > 开发语言 > VC++ > 构建 GB2312 汉字库的 unicode 码表

VC++
在类VC的界面实现中加入目录树
软件换肤技术在 BCB 中的实现
利用非模窗口生成MDI介面
报表输出轻松搞定
Windows 中不规则窗体的编程实现
解说Win32的窗口子类化
使用测试优先方法开发用户界面
一个简单的登录对话框的实现
一个简单的日记本程序
从资源中加载皮肤
一个在RichEdit中添加表情图象的类
ActiveSkin 4.3 软件换肤在VC中的实现
一种另类“关于(About)”对话框的动态显示方法
对话框打印预览及打印
关于如何换肤、子类化的解决方案
制作 MSN、QQ 的消息提示窗口
如何对 BCGControlBarPro 进行换肤
定制个性化的对话框窗口类
改变窗口中的光标形状
更新MFC中的视图,跟踪.NET Framework中的事件

VC++ 中的 构建 GB2312 汉字库的 unicode 码表


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-30   浏览: 113 ::
收藏到网摘: n/a

构建 GB2312 汉字库的 unicode 码表

作者:乾坤一笑

下载源代码

  构建 GB2312 汉字库的 unicode 码表嵌入式系统总离不了处理汉字。一般汉字的处理方法是(以手机接受短信为例):比如你收到了一封短信,该短信解码后是按照 UTF-16 表示的,那么我们需要根据每一个汉字的unicode 码找到它在 GB2312 库中的位置,然后再用对应的点阵数据在屏幕上显示出来。
  于是乎,必须有一种手段将 unicode 码和汉字字模的数据对应起来。最常用的手段是做一个 unicode 码表,在该数组中查找到匹配的 unicode 码后,用匹配的 index(数组索引)值在另外一个由该 index 值对应的字模记录的数组中的数据去显示。

+-----------------+ 查表 +-----------------+ 同index +-------------------+
| 汉字的unicode码 | ==> | unicode码表数组 | =======> | 汉字字模数据数组 | ==> 显示输出
+-----------------+ +-----------------+ +-------------------+

本文简要介绍一下如何生成 unicode 码表,其它相关的汉字处理技术不在本文的讨论范围之内。:)

用下面两个函数可以把 unicode 码表构造出来(*注1):

void UnicodeToGB2312(unsigned char* pOut,unsigned short uData){ WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(unsigned short),NULL,NULL); return;} void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer){ MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1); return;}	
一个简单的例子如下(随手写的一段代码,只是演示一下构造数组的过程,不要挑刺儿啊! ^_^ ):
/*-----------------------------------------------*\| GB2312 unicode table constructor || author: Spark Song || file : build_uni_table.c || date : 2005-11-18 |\*-----------------------------------------------*/#include <stdio.h>#include <windows.h>void UnicodeToGB2312(unsigned char* pOut,unsigned short uData);void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer);void construct_unicode_table();int main(int argc, char *argv[]){	construct_unicode_table();	return 0;}void construct_unicode_table(){ #define GB2312_MATRIX (94) #define DELTA (0xA0) #define FONT_ROW_BEGIN (16 + DELTA) #define FONT_ROW_END (87 + DELTA) #define FONT_COL_BEGIN (1 + DELTA) #define FONT_COL_END (GB2312_MATRIX + DELTA) #define FONT_TOTAL (72 * GB2312_MATRIX) int i, j; unsigned char chr[2]; unsigned short uni; unsigned short data[FONT_TOTAL] = {0}; int index = 0; unsigned short buf; //生成unicode码表 for (i=FONT_ROW_BEGIN; i<=FONT_ROW_END; i++) for(j=FONT_COL_BEGIN; j<=FONT_COL_END; j++) { chr[0] = i; chr[1] = j; Gb2312ToUnicode(&uni, chr); data[index] = uni; index++; } //排个序,以后检索的时候就可以用binary-search了 for (i=0;i<index-1; i++) for(j=i+1; j<index; j++) if (data[i]>data[j]) { buf = data[i]; data[i] = data[j]; data[j] = buf; } //输出到STD_OUT printf("const unsigned short uni_table[]={\n"); for (i=0; i<index; i++) { uni = data[i]; UnicodeToGB2312(chr, uni); printf(" 0x%.4X%s /* GB2312 Code: 0x%.2X%.2X ==> Row:%.2d Col:%.2d */\n", uni, i==index-1?" ":",", chr[0], chr[1], chr[0] - DELTA, chr[1] - DELTA ); } printf("};\n"); return ;}void UnicodeToGB2312(unsigned char* pOut,unsigned short uData){ WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(unsigned short),NULL,NULL); return;} void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer){ MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1); return;} 
用 VC 编译后,在 DOS 中执行:
build_uni_table.exe > report.txt

可以得到如下的txt文件:

const unsigned