Python 2假定不同的源代码编码

夹谷山

2023-03-14

问题内容：

我注意到，在没有源代码编码声明的情况下，Python 2解释器假定源代码使用脚本和 标准输入 以ASCII编码：

$ python test.py  # where test.py holds the line: print u'é'
  File "test.py", line 1
SyntaxError: Non-ASCII character '\xc3' in file test.py on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

$ echo "print u'é'" | python
  File "/dev/fd/63", line 1
SyntaxError: Non-ASCII character '\xc3' in file /dev/fd/63 on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

并使用-m 模块和-c 命令标志在ISO-8859-1中进行了编码：

$ python -m test  # where test.py holds the line: print u'é'
Ã©

$ python -c "print u'é'"
Ã©

它在哪里记录？

与此相反，Python 3始终假定源代码是用UTF-8编码的，因此可以é在四种情况下打印。

注意。 –我在控制台编码设置为UTF-8的macOS 10.13和Ubuntu Linux 17.10上的CPython 2.7.14上进行了测试。

问题答案：

的-c和-m开关，最终（*）运行与所提供的代码exec语句或compile()功能，这两者取Latin-1的源代码：

第一个表达式的计算结果应为Unicode字符串， Latin-1 编码的字符串，打开的文件对象，代码对象或元组。

这没有记录，它是一个实现细节，可能会或可能不会将其视为错误。

我认为这不值得解决，而Latin-1是ASCII的超集，因此损失很少。Python
3中已经清理了如何处理代码-c以及如何-m处理代码，并且在此更加一致。随同传递的代码将
-c使用当前语言环境进行解码，并且-m像往常一样，使用该开关加载的模块默认为UTF-8。

（*）如果您想知道使用的确切实现，请从中的Py_Main()函数Modules/main.c开始，该函数同时处理-c和-m：

if (command) {
    sts = PyRun_SimpleStringFlags(command, &cf) != 0;
    free(command);
} else if (module) {
    sts = RunModule(module, 1);
    free(module);
}

-c通过PyRun_SimpleStringFlags()函数执行，该函数依次调用PyRun_StringFlags()。当使用exec字节串对象时，也将其传递给它PyRun_StringFlags()，然后假定源代码包含Latin-1编码的字节。
-m使用RunModule()功能的模块名传递给私有函数_run_module_as_main()中runpy模块，其使用pkgutil.get_loader()以加载模块的元数据，并获取与模块代码对象loader.get_code()上的功能PEP 302装载机; 如果没有可用的缓存字节码，则使用compile()模式设置为的函数生成代码对象exec。

Python 2假定不同的源代码编码

相关阅读

相关文章

相关问答

相关工具

相关文档