当前位置: 首页 > 知识库问答 >
问题:

Microsoft Word文档和DOCX文件的字符编码?

何长恨
2023-03-14

我不太熟悉Microsoft Word使用的编码。如果有人从Word中保存。doc或。docx文件,使用的标准编码是什么?

我猜它不是UTF-8,因为生成的文本(粘贴在UTF-8编码的文本文件中)不尊重某些标点符号(例如引号)。

共有1个答案

许马鲁
2023-03-14

如今,docx文件实际上是一堆压缩的xml文件。其中一个文件是document.xml文件,它以以下行(即xml prolog)开始:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>

如您所见,这是一种UTF-8编码。

UTF-8支持完整的Unicode字符集。为了完整起见,这并不意味着所有的UTF-8字符实际上都可以在xml文件中使用。即使是CDATA块也有其局限性。但话虽如此,存储an`或ané并不是问题。

有点困惑,但我刚刚意识到,所谓的“聪明引号”可能指的是Word表示花括号的机制。在我之前的回答中,我以为你指的是“反勾”,这是另一回事。-很抱歉给你带来混乱。

好吧,不管怎样,以下是这些聪明引号的Unicode:

让我们把它们放在一个简单的UTF-8编码文本文件中。结果没那么壮观:

    null
“ this is a test “ 
“ this is another test ”

然后,我保存了它,并查看了它是如何存储在Word的xml结构中的。实际上,它的存储完全符合预期。

 类似资料:
  • 单击表单的“提交”按钮时,将出现以下错误消息: “未声明HTML文档得字符编码.如果文档包含来自US-ASCII范围之外得字符,则在某些浏览器配置中,文档将呈现乱码文本.必须在文档或传输协议中声明页面得字符编码.” insert.html: insert.php: 我不知道我的代码出了什么问题。请帮帮我.

  • 问题内容: Linux / x86_64上的GCC 4.7是否具有默认字符编码,通过它可以验证和解码C源文件中字符串文字的内容?这是可配置的吗? 此外,将字符串文字从字符串文字链接到输出的数据部分时,它是否具有默认的执行字符编码?这是可配置的吗? 在任何配置中,源字符编码都可能与执行字符编码不同吗?(那gcc会在字符编码之间进行代码转换吗?) 问题答案: 我不知道这些选项的实际效果如何(不使用at

  • 我正在尝试创建一个包含多列的word文档。这样做(而不是使用表)的原因是,数据将跨越多个页面,在添加到新页面之前,我只能用列填充整个页面。 可以用ApachePOI实现吗?谢谢

  • 我还尝试了另一种方法:修改原始XML、解压缩docx并操作文件“word/document.XML”。当我压缩回解压缩的文件夹并将其重命名为docx时,MS Word无法打开它。

  • 我有一个带有一些特殊字符的mysql数据库,一个输入表单,一些PHP页面。 > 这个页面发送(通过GET)一个参数到另一个php页面(ResultsPage)。 最后这个php页面(ResultsPage)向dbms发送一个带有参数的查询并显示结果。 RequestPage编码为utf-8至 meta http equiv=“Content Type”Content=“text/html;char