当前位置: 首页 > 面试题库 >

Python-UnicodeEncodeError:“charmap”编解码器无法编码-字符映射到

宗鸿博
2023-03-14
问题内容

我正在编写一个Python(Python 3.3)程序,以使用POST方法将一些数据发送到网页。通常在调试过程中,我会获取页面结果并使用print()功能将其显示在屏幕上。

代码是这样的:

conn.request("POST", resource, params, headers)
response = conn.getresponse()
print(response.status, response.reason)
data = response.read()
print(data.decode('utf-8'));

HTTPResponse .read()方法返回一个bytes编码页面的元素(格式正确的UTF-8文档),直到我停止使用Windows的IDLE GUI并改为使用Windows控制台时,这似乎还可以。返回的页面具有U + 2014字符(破折号),打印功能可以在Windows GUI(我假定代码页1252)中很好地转换,但在Windows控制台(代码页850)中不能翻译。给定strict默认行为,我得到以下错误:

UnicodeEncodeError: 'charmap' codec can't encode character '\u2014' in position 10248: character maps to <undefined>

我可以使用以下丑陋的代码修复它:

print(data.decode('utf-8').encode('cp850','replace').decode('cp850'))

现在,它将令人讨厌的字符“ —”替换为?。不是理想的情况(连字符应该是更好的替代),但足以满足我的目的。

我的解决方案中有几件事我不喜欢。

  1. 该代码在所有解码,编码和解码过程中都很丑陋。
  2. 它解决了这种情况下的问题。如果我使用其他某种编码(latin-1,cp437,回到cp1252等)将程序移植到系统上,它应该可以识别目标编码。它不是。(例如,当再次使用IDLE GUI时,emdash也会丢失,这是以前没有发生的)
  3. 如果将Emdash转换为连字符而不是询问声,那会更好。

问题不在于枚举(我可以想到几种解决特定问题的方法),但是我需要编写健壮的代码。我正在用数据库中的数据来填充页面,并且数据可以返回。我可以预见许多其他冲突的情况:“Á” U + 00c1(在我的数据库中可能是)可以转换为CP-850(西欧语言的DOS / Windows控制台编码),但不能转换为CP-437(为美国编码)英文,这是许多Windows安装中的默认设置)。

所以,问题是:

有没有更好的解决方案,使我的代码与输出接口编码无关?


问题答案:

我看到了三种解决方案:

更改输出编码,因此它将始终输出UTF-8。请参阅例如在Python中管道输出stdout时设置正确的编码,但是我无法使这些示例正常工作。

以下示例代码使输出知道你的目标字符集。

# -*- coding: utf-8 -*-
import sys

print sys.stdout.encoding
print u"Stöcker".encode(sys.stdout.encoding, errors='replace')
print u"Стоескер".encode(sys.stdout.encoding, errors='replace')

本示例将我名字中所有不可打印的字符正确地替换为问号。

如果你myprint使用该机制创建自定义打印功能(例如称为),则可以使用该机制对输出进行正确编码,则只需在myprint必要时替换为print即可,而不会使整个代码看起来难看。

在软件开始时全局重置输出编码:

http://www.macfreek.nl/memory/Encoding_of_Python_stdout页面上有很好的摘要,说明如何更改输出编码。特别是“围绕Stdout的StreamWriter包装器”这一节很有趣。从本质上讲,它说要更改I / O编码功能,如下所示:

在Python 2中:

if sys.stdout.encoding != 'cp850':
  sys.stdout = codecs.getwriter('cp850')(sys.stdout, 'strict')
if sys.stderr.encoding != 'cp850':
  sys.stderr = codecs.getwriter('cp850')(sys.stderr, 'strict')

在Python 3中:

if sys.stdout.encoding != 'cp850':
  sys.stdout = codecs.getwriter('cp850')(sys.stdout.buffer, 'strict')
if sys.stderr.encoding != 'cp850':
  sys.stderr = codecs.getwriter('cp850')(sys.stderr.buffer, 'strict')

如果在CGI输出HTML中使用,则可以将’​​strict’替换为’xmlcharrefreplace’,以获取不可打印字符的HTML编码标签。

随意修改方法,设置不同的编码,.....请注意,它仍然无法输出未指定的数据。因此,任何数据,输入,文本都必须正确转换为unicode:

# -*- coding: utf-8 -*-
import sys
import codecs
sys.stdout = codecs.getwriter("iso-8859-1")(sys.stdout, 'xmlcharrefreplace')
print u"Stöcker"                # works
print "Stöcker".decode("utf-8") # works
print "Stöcker"                 # fails


 类似资料:
  • 问题内容: 我正在尝试抓取一个网站,但这给我一个错误。 我正在使用以下代码: 我收到以下错误: 我该怎么做才能解决此问题? 问题答案: 我通过添加将其修复。 那意味着变成。

  • 问题内容: 尝试打印从我在python 3.4中使用selenium请求的网站获得的“Á”时,我一直收到UnicodeEncodeError。 我已经在.py文件的顶部定义了 def是这样的: 和例外: 提前致谢 问题答案: 已经知道了。正如在此]答案中指出的那样,编码错误不是来自python,而是来自控制台使用的编码。因此,解决此问题的方法是运行命令(在Windows中): 将编码设置为UTF-

  • 我正试图抓取一个网站,但它给了我一个错误。 我正在使用以下代码: 我得到了以下错误: 我能做些什么来解决这个问题?

  • 问题内容: 我正在尝试制作一个从sqlite3数据库中获取数据的脚本,但是遇到了问题。 数据库中的字段为text类型,并且包含html格式的文本。见下面的文字 尝试提取数据的python代码如下。 是否有人对如何将其打印/写入文件有任何想法。是的,我知道这是打印到stdout的,但是当我尝试写入文件时会出现相同的UnicodeEncodeError。我尝试了文件对象的写入方法和。 问题答案: 当您

  • 问题内容: 当上传具有非ASCII字符的文件时,出现UnicodeEncodeError: 我使用MySQL,nginx和FastCGI运行Django 1.2。 根据Django Trac数据库,这是已解决的问题,但是我仍然有问题。欢迎提供有关如何修复的任何建议。 编辑:这是我的图像字段: 问题答案: 在对此进行更多调查之后,我发现我尚未在我的主要Nginx配置文件中设置字符集: 通过添加以上内

  • 问题内容: 当我尝试在数据库中插入外来字符时,可能是什么导致此错误? 而我该如何解决呢? 谢谢! 问题答案: 字符U + 201C左双引号在Latin-1(ISO-8859-1)编码中不存在。 这 是 目前在代码页1252(西欧)。这是Windows特定的编码,基于ISO-8859-1,但会将多余的字符放入0x80-0x9F范围内。代码页1252通常与ISO-8859-1混淆,这是一种令人烦恼但现