当前位置: 首页 > 面试题库 >

UTF-8贯穿始终

申黎明
2023-03-14
问题内容

我正在设置一个新服务器,并希望在我的Web应用程序中完全支持UTF-8。我过去曾在现有服务器上尝试过此操作,但最终似乎总是不得不退回到ISO-8859-1。

我到底需要在哪里设置编码/字符集?我知道我需要配置Apache,MySQL和PHP来执行此操作-
是否可以遵循一些标准清单,或者对出现不匹配的地方进行故障排除?

这是用于运行Linux 5,PHP,5和Apache 2的新Linux服务器。


问题答案:

数据存储

  • utf8mb4在数据库的所有表和文本列上指定字符集。这使得MySQL在物理上存储和检索以UTF-8本地编码的值。注意,utf8mb4如果utf8mb4_*指定了排序规则(没有任何显式字符集),MySQL将隐式使用编码。

  • 在旧版本的MySQL(<5.5.3)中,不幸的是,您将被迫utf8仅使用,仅支持Unicode字符的子集。我希望我在开玩笑。

资料存取

  • 在您的应用程序代码(例如PHP)中,无论使用哪种数据库访问方法,都需要将连接字符集设置为utf8mb4。这样,当MySQL将数据交给您的应用程序时,MySQL不会从其本地UTF-8进行转换,反之亦然。

  • 一些驱动程序提供了自己的配置连接字符集的机制,该机制既可以更新其自身的内部状态,又可以将要在连接上使用的编码通知MySQL-这通常是首选方法。在PHP中:

    • 如果您使用PHP≥5.3.6的PDO抽象层,则可以charset在DSN中指定:

          $dbh = new PDO('mysql:charset=utf8mb4');
      
    • 如果您使用的是mysqli,则可以调用set_charset()

          $mysqli->set_charset('utf8mb4');       // object oriented style
      

      mysqli_set_charset($link, ‘utf8mb4’); // procedural style

    • 如果您坚持使用普通的mysql,但碰巧正在运行PHP≥5.2.3,则可以致电mysql_set_charset

  • 如果驱动程序不提供自己的设置连接字符集的机制,则可能必须发出查询以告知MySQL您的应用程序期望连接上的数据如何被编码:SET NAMES 'utf8mb4'

  • 关于utf8mb4/ utf8适用与上述相同的考虑。

输出

  • 如果您的应用程序将文本传输到其他系统,则还需要告知他们字符编码。对于Web应用程序,必须告知浏览器发送数据的编码(通过HTTP响应标头或HTML元数据)。

  • 在PHP中,您可以使用default_charsetphp.ini选项,或Content-Type自己手动发出MIME标头,这虽然工作更多,但效果相同。

  • 使用编码输出时json_encode(),请html" target="_blank">添加JSON_UNESCAPED_UNICODE作为第二个参数。

输入

  • 不幸的是,在尝试存储或在任何地方使用它之前,您应该验证每个收到的字符串都是有效的UTF-8。PHP mb_check_encoding()可以解决问题,但您必须谨慎使用。真的没有办法解决这个问题,因为恶意客户端可以使用他们想要的任何编码来提交数据,而且我还没有找到使PHP可靠地为您执行此操作的技巧。

  • 从我对当前HTML规范的阅读中,对于现代HTML,以下子项目不再是必需的,甚至不再有效。我的理解是浏览器将使用为文档指定的字符集并提交数据。但是,如果您定位的是旧版HTML(XHTML,HTML4等),则以下几点可能仍然有用:

    • 仅适用于HTML5之前的HTML :您希望浏览器发送给您的所有数据都使用UTF-8。不幸的是,如果您唯一可靠的方法是将该accept-charset属性添加到所有<form>代码中:<form ... accept-charset="UTF-8">
    • 仅对于HTML5之前的HTML :请注意,W3C HTML规范指出,客户端“应”默认使用服务器提供的任何字符集将表单发送回服务器,但这显然仅是建议,因此需要在每一个服务器上都明确<form>标签。

其他代码注意事项

  • 显然,您将要提供的所有文件(PHP,HTML,JavaScript等)都应使用有效的UTF-8进行编码。

  • 您需要确保每次处理UTF-8字符串时,都必须安全进行。不幸的是,这是困难的部分。您可能需要大量使用PHP的mbstring扩展。

  • PHP的内置字符串操作 默认情况下 不是 UTF-8安全的。 您可以使用正常的PHP字符串操作(例如串联)安全地进行某些操作,但是对于大多数事情,您应该使用等效的mbstring功能。

  • 要知道您在做什么(请阅读:不要搞砸),您确实需要了解UTF-8及其在最低级别上的工作方式。查看utf8.com上的任何链接,以获取一些好的资源,以学习您需要了解的所有内容。



 类似资料:
  • 我正在处理一个使用UTF-8编码了两次的遗留文件。例如,编码点()本应编码为,但改为编码为(是的UTF-8编码,是的UTF-8编码)。 假设数据在CP-1252中编码,则执行第二次编码。 为了回到UTF-8编码,我使用了以下(似乎错误)命令 我的问题是iconv似乎无法转换回一些字符。更准确地说,iconv无法转换UTF-8表示形式包含映射到CP-1252中控制字符的字符。一个例子是代码点ρ():

  • 嗨,我试图使我在UTF-8兼容的应用程序之一。我的环境如下:linux操作系统,apahce网络服务器作为超文本传输协议监听器,tomcat作为servlet引擎 配置了mod_jk和tomcat的apache s使用ajp连接器。 我已经从少数网站上阅读了UTF-8的基本指南,并根据建议尝试了以下方法 为服务器中的连接器设置和。xml 设置语言bashrc/. file使用 将apache服务器

  • 在Java中,我向JSON对象添加一些属性,并将这些值发送到HTTPS URL(REST API)。服务器抛出一些错误,如“无效的utf-8开始字节0xb0”。下面是我的代码:

  • 一个处理UTF-8编码字符串的简单、小巧、跨平台的泛型库。

  • 我尝试用JasperReport导出CSV文件,问题是当我想打印像“€”这样的货币时。 当我搜索解决方案时,我意识到这是关于文件编码的!我写这个代码! JasperReport导出的文件编码在“没有BOM的UTF-8”上。所以当我用Excel打开文件时,“€”看起来像“,”。但是当我用记事本打开文件时,“€”看起来像“€”。 在记事本上,我将文件编码转换为UTF-8(我认为是BOM),我保存文件。

  • 问题内容: 我想从请求中获取参数(带有重音符的字符),但是它不起作用。我尝试使用,但也没有用。 我知道返回正确的字符,但不起作用! 有人有主意吗? 问题答案: Paul的建议似乎是最好的做法,但如果要解决此问题,则根本不需要URLEncoder或URLDecoder: 更新: 由于获得了很多选票,我想强调BalusC的观点,即这绝对不是解决方案。充其量是一种解决方法。人们不应该这样做。 我不知道是