字符编码(Char Encodings)
优质
小牛编辑
130浏览
2023-12-01
字符编码是一种将字节转换为字符的方法。 要验证或显示HTML文档,程序必须选择字符编码。 HTML 5作者有三种设置字符编码的方法 -
HTTP Content-Type标头
如果您正在编写cgi或类似的程序,那么您将使用HTTP Content-Type标头来设置任何字符编码。
以下是一个简单的例子 -
print "Content-Type: text/html; charset=utf-8\r\n";
元素
您可以使用带有charset属性的元素,该属性指定HTML5文档的前512个字节内的编码。
以下是简化示例 -
<meta charset="UTF-8">
上面的语法替换了对的需求,尽管仍然允许该语法。
Unicode字节顺序标记(BOM)
字节顺序标记(BOM)由数据流开头的字符代码U + FEFF组成,其中它可以用作定义字节顺序和编码形式的签名,主要是未标记的明文文件。
许多Windows程序(包括Windows记事本)在保存为UTF-8的任何文档的开头添加字节0xEF,0xBB,0xBF。 这是Unicode字节顺序标记(BOM)的UTF-8编码,通常称为UTF-8 BOM,即使它与字节顺序无关。
对于HTML5文档,您可以在文件开头使用Unicode字节顺序标记(BOM)字符。 此字符为使用的编码提供签名。