当我尝试将其串联时,当字段包含“ñ”或“´”时,出现UnicodeDecodeError。如果包含“ñ”或“´”的字段是最后一个,则不会有任何错误。
#...
nombre = fabrica
nombre = nombre.encode("utf-8") + '-' + sector.encode("utf-8")
nombre = nombre.encode("utf-8") + '-' + unidad.encode("utf-8")
#...
return nombre
任何想法?非常感谢!
您正在编码为UTF-8,然后 重新 编码为UTF-8。Python仅在首先再次 解码
为Unicode时才能这样做,但它必须使用默认的ASCII编解码器:
>>> u'ñ'
u'\xf1'
>>> u'ñ'.encode('utf8')
'\xc3\xb1'
>>> u'ñ'.encode('utf8').encode('utf8')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)
不要继续编码;将编码保留为UTF-8 到最后一个可能的时刻 。串联Unicode值。
您可以在此处使用str.join()
(或更确切地说,unicode.join()
)在三个值之间用破折号连接起来:
nombre = u'-'.join(fabrica, sector, unidad)
return nombre.encode('utf-8')
但即使在此处编码也可能为时过早。
经验法则:对接收到的值进行解码(如果还没有API提供的Unicode值),仅在需要时进行编码(如果目标API无法直接处理Unicode值)。
问题内容: 我正在尝试使用其中包含一些非标准字符的超大型数据集。根据工作规范,我需要使用unicode,但我感到困惑。(而且很可能做错了。) 我使用以下方式打开CSV: 然后,我尝试使用以下代码对其进行编码: 我正在对lat和lng以外的所有内容进行编码,因为它们需要发送到API。当我运行程序以将数据集解析为可以使用的数据时,将获得以下Traceback。 我想我应该告诉你我正在使用python
问题内容: 在我的其中一台计算机上,当我使用Google Apps引擎或Django时出现错误。 例如: app.yaml demas1252c.py foto.html 错误信息: 当我在Django中使用静态文件(不带gae)时,我遇到了非常类似的错误(具有不同的堆栈)。 我试图找到错误的原因,并向mimetypes.py添加了代码: 然后,我在控制台中收到下一条消息: 在注册表HKCR /
问题内容: 在Digital Ocean 512MB Droplet上执行时,出现错误。 任何想法可能是什么原因造成的?我正在运行Ubuntu 12.04 64位。 [完全错误] 问题答案: 看起来gcc由于内存不足而被杀死(请参阅@Blender的评论),从而暴露了pip中的错误。它在登录时将字节串和Unicode混合在一起,从而导致: 如果使用最新版本可以复制;您可以报告该错误。
我在尝试将字符串编码为UTF-8时遇到了一些问题。我尝试过很多方法,包括使用和,但我得到了错误: UnicodeDecodeError:“ascii”编解码器无法解码位置1中的字节0xef:序号不在范围内(128) 这是我的字符串: 我不知道出了什么问题,知道吗? 编辑:问题是打印字符串不能正确显示。此外,当我试图转换它时,这个错误:
在数字海洋512MB液滴上执行时,我得到错误。 知道是什么引起的吗?我正在运行Ubuntu 12.04 64位。 [完全错误]
问题内容: 我想解析我的XML文档。所以我将我的XML文档存储如下 现在我的下面是我的代码 我低于错误 问题答案: 看来您要达到UTF-8字节顺序标记(BOM)。尝试使用此Unicode字符串并提取出BOM: 我使用而不是因为在您的情况下您可能多次出现BOM表,这可能是由于串联的文件内容引起的。