当前位置: 首页 > 编程笔记 >

Vim中文件编码处理与重新打开乱码文件详解

弓俊晖
2023-03-14
本文向大家介绍Vim中文件编码处理与重新打开乱码文件详解,包括了Vim中文件编码处理与重新打开乱码文件详解的使用技巧和注意事项,需要的朋友参考一下

前言

Vim 中有两个与编码有关的变量,如果理解了基本就不会再为编码问题头疼了。

  • encoding  :Vim 内部编码,例如 buffer、寄存器、文本等。这个值一般用户不要设置,另外打开 Vim 之后再设置这个值也是没有意义的。大家可以将这个值看作是 Vim 程序自己的变量,如果在工作中遇到文件的编码问题,和 encoding  这个变量是万万没有关系的。
  • fileencoding  :顾名思义了,就是文件的编码。

此外还有一个值,叫 fileencodings 是个复数。一般我们将这个值在 vimrc 中设置,Vim 打开一个文件的时候回根据 fileencodings 里面设置的顺序来猜测文件的编码。比如这样设置:

set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1

那么有时候 Vim 猜错了,打开的文件显示乱码怎么办呢?(ps:通常 Vim 打开文件的时候乱码是因为你的 fileencodings 里面没有写某个编码,所以 Vim 没有猜对。例如从上面的设置中删掉 gb18030 ,那么打开这种编码的文件的时候你会发现 fileencoding 的值是 latin1 ,而文件的显示是乱码)

这时候你可能想到设置 fileencoding 的值,但是此时我们的文件已经打开了,你设置后会发现 Vim buffer 的状态变成了 Edited 。而文件依然显示乱码,没有变化。具体的原因后文会详细解释。

正确的做法是 以特定编码重新打开文件 ,例如在 Vim 中使用重新打开命令 :e ++enc=gb2312 ,其中 ++enc 是一个选项,可以指定使用的编码。打开后你会发现 Vim 按照你指定的形式打开了文件,但是文件变成了 readonly 状态,如果要修改,设置 :set noreadonly 就好。

其实原理有点像 Python 里面有人提出的 三明治模型 :


Python 在从流(例如网络, 文件 I/O 的时候),拿到的是 bytes ,通过 decode() 变成 str 而 Vim 在读入一个文件的时候,根据 fileencoding (用户设置的或者通过 fileencodings 猜测,将其转换成内部  encoding 的编码方式。

Python 在写入文件的时候,用 encode() 变成 bytes 再写。而 Vim 从 buffer 写到文件的时候,也是将数据从内部的 encoding 转换成 fileencoding 再写入。

这也就解释了为什么乱码的时候在 Vim 中修改 fileencoding 没什么卵用。

因为在打开文件之后设置 fileencoding 的值不会改变已经载入到 Vim buffer 中的数据,此时的数据已经是转换完成了的,这个设置只会改变写入的时候使用目前的 fileencoding 来写入,所以总结起来就是“打开文件使用了一个编码,写入文件的时候使用了另一个编码”。

而对乱码正确的需求应该是:我想要以特定的编码形式打开这个文件。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对小牛知识库的支持。

参考:

  • help :edit
  • help fileencoding
  • help ++enc
  • VIM 文件编码识别与乱码处理
 类似资料:
  • 我的git项目中文文件名显示如下图,要怎么设置可以显示为中文?

  • 问题内容: 我有一个主要为UTF-8的文件,但是也发现了一些Windows-1252字符。 我创建了一个表,以将Windows-1252(cp1252)字符映射到对应的Unicode对应表,并希望使用它来修复编码错误的字符,例如 但是尝试以这种方式进行替换会导致引发UnicodeDecodeError,例如: 有关如何处理此问题的任何想法? 问题答案: 如您所知,如果您尝试将此字符串解码为utf-

  • 本文向大家介绍解决python使用open打开文件中文乱码的问题,包括了解决python使用open打开文件中文乱码的问题的使用技巧和注意事项,需要的朋友参考一下 代码如下: 先在D盘下新建一个html文档,然后在里面输入含有中文的Html字符如下图,然后我们首先使用中文格式对读取的字符进行解码再用utf-8的模式对字符进行进行编码,然后就能正确输出中文字符 以上这篇解决python使用open打

  • 本文向大家介绍php上传中文文件名乱码问题处理方案,包括了php上传中文文件名乱码问题处理方案的使用技巧和注意事项,需要的朋友参考一下 php上传文件是最最基础的一个技术点,但是深入进去也有不少问题需要解决,这不,上传中文文件后,文件名变成了乱码。 下面是问题代码,很简单: 1.问题代码 html部分: php部分:   上传了一个文件名为“测试数据.txt”的文件,oh ho,文件是传上去了,但

  • 源编码与目标编码的不一致. 而中文window系统默认编码GBK,害惨了多少程序员. 要尽量减少出现乱码,我个人认为要做到5码合一, IDE(Eclipse/idea),页面(jsp/其他模板引擎),应用服务器(tomcat等), 源码(Java源码及周边文件),数据库编码. 将Eclipse设置为UTF-8 打开Eclipse安装目录下的eclipse.ini,在最末尾新增一行 -Dfile.

  • 问题内容: 说我有这个简单的python脚本: 运行该文件时,第一个打印将打印包含文件文本的列表,而第二个打印将打印空白列表。我猜不是完全出乎意料的。但是,是否有一种方法可以“回退”文件,以便我可以再次读取它?还是最快的方法只是重新打开它? 问题答案: 您可以通过调用重置文件指针: 会做的。您需要在第一行之后写那行。请注意,必须支持随机访问才能使以上功能正常工作。