当前位置: 首页 > 图文教程 > 网页制作 > HTML/XHTML教程 > HTML:命名空间与字符编码

HTML/XHTML教程
一些不太常用的XHTML标签用法以及实例
网页中图片的设置涉及的三个问题
商业HTML邮件的制作建议
HTML Marquee 字符片段滚动
DOCTYPE 文档类型声明(网页爱好者必看)
纯HTML标签你熟悉多少?
HTML元素的ID和Name属性的区别
HTML meta的大作用
HTML标签tbody的用法与说明
HTML 特殊字符转换表
HTML基础 HTML的组成结构
HTML基础之HTML内容细则
Shtml 精简教程
浅谈html table 标签
html Frame、Iframe、Frameset 的区别
HTML 网页页面切换的各种变换效果
HTML的10个表格相关标记
让IE8启动IE7兼容模式的代码
HTML 结构化实现方法
xhtml的块级标记小结

HTML/XHTML教程 中的 HTML:命名空间与字符编码


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-28   浏览: 46 ::
收藏到网摘: n/a

在做项目的过程中,我们经常会建立各种各样的规范,以方便团队之间更好的合作更好的完成项目;同样我们也经常会听到各种各样的协议,比如Google的IM软件Gtalk使用的开放的XMPP协议,只要其他IM软件也遵循XMPP协议就能与Gtalk使用互通;而互联网上的信息无以计数,这些信息本身是独立存在的,如何将其串联并呈现在用户眼前,就需要使用到HTTP协议。

同样的道理,因为浏览器们各自的内核不同,对于默认样式的渲染也不尽相同,所以就需要一份各浏览器都遵循的规则来保证同一个网页文档在不同浏览器上呈现出来的样式是一致的,这个规则就是DOCTYPE声明。

因为互联网是互通的,所以任意的两个或者以上的网页文档都可能会涉及到数据交换,而因为XML语言是允许用户自定义标签的,所以任意两个交换的文档就可能会出现相同的标签,从而导致相同标签的冲突,所以就需要一个命名空间以区分开交换文档中可能存在的相同标签。

XHTML做为HTML向XML过渡的一种语言,并不能实现XML语言中的用户自定义标签,所以XHMTL文档中的命名空间都是相同的:

<html xmlns=”http://www.w3.org/1999/xhtml”>

xmlns即是XHTML namespace的缩写,也就是所谓的“命名空间”。与DOCTYPE声明一样,xmlns也属于一种声明。与HTML文档中仍然存在DOCTYPE声明不一样的是,在HTML文档是不存在xmlns的,我们平常所见到的xmlns都是出现在XHTML文档中的。

在制作一个网页的时候,除了在开始的时候声明DOCTYPE(文档类型)之外,如果是XHTML文档还需要声明命名空间,而第三个需要声明的就是网页文档的字符编码类型:

<meta http-equiv=”Content-Type” content=”text/html; charset=utf-8″ />

为了能被浏览器正确的解释以及通过W3C验证,每个XHTML文档都应该声明所使用的字符编码。很多时候网页文档出现乱码大部分都是由于字符编码不对而引起的。

utf-8是unicode的一种变长度的编码表达方式,做为一种全球通用型的字符编码正越来越多的网页文档所使用,使用utf-8字符编码的网页可最大程度的避免不同区域的用户访问相同网页时因字符编码不同而导致的乱码现象。

但是当我们打开国内的大多数网站看,特别是门户型的大型网站,关于字符编码的声明却并非是utf-8,而是gb2312:

<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ />

当然,除了gb2312外还有一些网站使用gbk或者是gb18030编码,这三种字符编码都是属于简体中文字符集。也就是说,如果一台电脑没有安装简体中文字符集时,当它访问字符编码为gb2312的中文网页时,则显示出来的是乱码。

既然使用gb2312字符编码时会因为不同区域的用户访问而可能出现乱码现象,那为何不使用utf-8呢?

其中一个原因可能历史遗留的原因,而另一个更重要的原因应该是由于两种编码的存储方式不同而造成的文档体积不同。

使用gb2312字符编码集时,一个汉字是占用2个字节的大小,而一个汉字在utf-8编码中所占的字节数却往往都是在3个字节,甚至是3个以上的字节。所以对于同一个中文文档来说,使用gb2312字符编码来进行存储的体积是要小于utf-8编码所存储的文档大小的。

而对于文字多访问量大的中文网站来说,使用gb2312编码的网页文档在下载传输上可以节省下不小的流量,再者是因为中文网站的用户群体基本上都锁定在中文用户上,这些也就是很多网站使用gb2312编码而不是utf-8编码的原因。

但是文字多访问量大的网站,国内并不多,再加上可能成对的乱码问题,所以在制作网页的时候推荐使用utf-8编码。

当然,不管用何种编码,最重要的是整站使用的编码要统一。

对于字符编码的声明除了上面的方式,还可能看到另一种声明方式:

<meta http-equiv=”Content-Language” content=”gb2312″ />

<meta http-equiv=”Content-Language” content=”zh-CN” />

这种声明方式是针对老版本的浏览器的,在浏览器已经普遍更新换代的今天已经不推荐使用这种声明方式。