当前位置: 首页 > 面试题库 >

Python 2假定不同的源代码编码

夹谷山
2023-03-14
问题内容

我注意到,在没有源代码编码声明的情况下,Python 2解释器假定源代码使用 脚本标准输入 以ASCII编码:

$ python test.py  # where test.py holds the line: print u'é'
  File "test.py", line 1
SyntaxError: Non-ASCII character '\xc3' in file test.py on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

$ echo "print u'é'" | python
  File "/dev/fd/63", line 1
SyntaxError: Non-ASCII character '\xc3' in file /dev/fd/63 on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

并使用-m 模块-c 命令 标志在ISO-8859-1中进行了编码:

$ python -m test  # where test.py holds the line: print u'é'
é

$ python -c "print u'é'"
é

它在哪里记录?

与此相反,Python 3始终假定源代码是用UTF-8编码的,因此可以é在四种情况下打印。

注意。 –我在控制台编码设置为UTF-8的macOS 10.13和Ubuntu Linux 17.10上的CPython 2.7.14上进行了测试。


问题答案:

-c-m开关,最终(*)运行与所提供的代码exec语句或compile()功能,这两者取Latin-1的源代码:

第一个表达式的计算结果应为Unicode字符串, Latin-1 编码的字符串,打开的文件对象,代码对象或元组。

这没有记录,它是一个实现细节,可能会或可能不会将其视为错误。

我认为这不值得解决,而Latin-1是ASCII的超集,因此损失很少。Python
3中已经清理了如何处理代码-c以及如何-m处理代码,并且在此更加一致。随同传递的代码将
-c使用当前语言环境进行解码,并且-m像往常一样,使用该开关加载的模块默认为UTF-8。

(*)如果您想知道使用的确切实现,请从中的Py_Main()函数Modules/main.c开始,该函数同时处理-c-m

if (command) {
    sts = PyRun_SimpleStringFlags(command, &cf) != 0;
    free(command);
} else if (module) {
    sts = RunModule(module, 1);
    free(module);
}
  • -c通过PyRun_SimpleStringFlags()函数执行,该函数依次调用PyRun_StringFlags()。当使用exec字节串对象时,也将其传递给它PyRun_StringFlags(),然后假定源代码包含Latin-1编码的字节。
  • -m使用RunModule()功能的模块名传递给私有函数_run_module_as_main()runpy模块,其使用pkgutil.get_loader()以加载模块的元数据,并获取与模块代码对象loader.get_code()上的功能PEP 302装载机; 如果没有可用的缓存字节码,则使用compile()模式设置为的函数生成代码对象exec


 类似资料:
  • 问题内容: 谁能解释相同的Java源代码最终如何编译成 二进制 不同的类文件? 问题来自以下情况: 我们有一个相当大的应用程序(800多个类),该应用程序已经分支,重组并重新集成到主干中。在重新集成之前,我们将主干合并到分支中,这是标准过程。 最终结果是一组包含分支源的目录和一组包含中继源的目录。使用“超越比较”,我们能够确定两组来源相同。但是,在编译时(使用IntelliJ v11中托管的mav

  • 问题内容: PEP 263定义了如何声明Python源代码编码。 通常,Python文件的前两行应以: 但是我看过很多以以下内容开头的文件: => 编码而不是编码。 那么,声明文件编码的正确方法是什么? 是了编码允许的,因为所使用的正则表达式是懒惰?还是仅仅是声明文件编码的另一种形式? 我问这个问题是因为PEP不在谈论编码,它只是在谈论编码。 问题答案: 在这里检查文档: “如果Python脚本的

  • 编译solidity源代码 通过solc编译器编译solidity代码到字节码。你可以参考solidity安装文档在本地安装编译器。 编写solidity代码运行: $ solc <contract>.sol --bin --abi --optimize -o <output-dir>/ bin和ABI编译器参数都需要充分利用web3j中的智能合约。 bin,输出包含十六进制编码的solidit

  • 问题内容: 我正在从网站上抓取餐馆列表(已获得许可),但我遇到了问题。网站上的html python片段与源代码中的html不同。在python的html中找到其网站上不到一半的餐厅。这是我的代码如下所示: 现在,我知道这很不方便,但由于公司不允许我使用,因此无法显示html。我只是想知道你们是否一般都知道python下载的html与源代码中的html有什么不同,以及我可以做些什么。 提前致谢!

  • 问题内容: 现在显然,解析器本身并没有什么用(除了静态分析)。我想将转换应用于AST,然后将其编译回源代码。应用转换不是什么大问题,普通的Visitor模式应该可以。 我目前的问题是如何将AST编译回源代码。我基本上看到两种可能性: 使用一些预定义的方案编译代码 保留原始代码的格式,并仅在已更改的节点上应用1.。 现在,我想专注于1.,因为2.似乎很难完成(但是,如果您有关于此的提示,我想听听他们

  • 有时,我们需要从源代码重新编译一个Kali包.幸运的是用APT下载源代码包,进行必要的修改后再用Debian工具重新编译是如此的简单.此例中,为了添加额外的Mifare Key硬编码到mifare格式化工具,我们将重新编译libfreefare这个包. 下载包的源代码 # Get the source package apt-get source libfreefare cd libfreefar