页面乱码问题根源浅析

本文地址:http://www.laruence.com/2008/04/17/110.html

这个问题已经遇到过俩次了,就是页面中明确指明了编码是UTF8,但是显示是乱码。

虽然知道解决方法,也知道是Apache的原因,但是一直没有去找其所以然,今天趁机,就研究了一下。

首先,关闭PHP配置文件php.ini中的default_charset:

1.页面没有指定charset,Apache配置defaultcharstgbk,页面文件编码是utf-8

结果:乱码,使用wireshark抓包,发现服务器返回的header中指明了:

Content-Type:text/html;charset=GBK

结论:当页面没有指明charset的时候,Apache的defaultcharset起作用

2.页面指定charset为utf-8,Apache配置defaultcharsetgbk.页面文件是utf-8

<head>

<metahttp-equiv="Content-Type"content="text/html;charset=utf-8"/>

</head>

<body>

<divid="page-header">

测试ApacheDefaultCharset

</div>

</body>

</html>

结果还是出现乱码。

结论:当Apache配置了DefaultCharset,将忽略页面的charset申明。

3.PHPheader申明charset为utf8,Apache配置defaultcharstgbk,页面文件编码是utf8

header("Content-Type:text/html;charset=utf-8");

结果:页面显示正常。

4Apache设置DefaultCharsetoff

结果,页面显示正常。

翻阅了下Apache2的手册:

AddDefaultCharset指令

说明当应答内容是text/plain或text/html时,在HTTP应答头中加入的默认字符集

语法AddDefaultCharsetOn|Off|charset

默认值AddDefaultCharsetOff

作用域serverconfig,virtualhost,directory,.htaccess

覆盖项FileInfo

状态核心(C)

模块core

当且仅当应答内容是text/plain或text/html时,此指令将会在HTTP应答头中加入的

默认字符集。理论上这将覆盖在文档体中通过<meta>标签指定的字符集,但是实际

的行为通常取决于用户浏览器的设置。AddDefaultCharsetOff将会禁用此功能。

AddDefaultCharsetOn将启用Apache内部的默认字符集iso-8859-1。您

也可以指定使用在IANA注册过的字符集名字中的另外一个charset。

比如说:

AddDefaultCharsetutf-8

也就是说,当Apache不指定defaultcharset的时候,页面编码由页面自己的meta标签指定。

当Apache指定的时候,将忽略页面中的meta标签指定的编码.但是容许脚本直接header编码方式给客户端

最后,还有一个问题没有得出结果:

当Apache和页面都没有指定的时候,又如何?

我在自己的机器上,如果都不指定,默认还是utf8.

相关推荐