UnicodeDecodeError：'ascii'编解码器无法解码位置2的字节0xd1：序数不在范围内（128）

端木骞尧

2023-03-14

问题内容：

我正在尝试使用其中包含一些非标准字符的超大型数据集。根据工作规范，我需要使用unicode，但我感到困惑。（而且很可能做错了。）

我使用以下方式打开CSV：

 15     ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"')

然后，我尝试使用以下代码对其进行编码：

name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23])

我正在对lat和lng以外的所有内容进行编码，因为它们需要发送到API。当我运行程序以将数据集解析为可以使用的数据时，将获得以下Traceback。

Traceback (most recent call last):
  File "push_into_db.py", line 80, in <module>
    main()
  File "push_into_db.py", line 74, in main
    district_map = buildDistrictSchoolMap()
  File "push_into_db.py", line 32, in buildDistrictSchoolMap
    county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 2: ordinal not in range(128)

我想我应该告诉你我正在使用python 2.7.2，这是在django 1.4上构建的应用程序的一部分。我已经阅读了有关此主题的几篇文章，但似乎没有一篇直接适用。任何帮助将不胜感激。

您可能还想知道导致问题的一些非标准字符是Ñ，甚至可能是É。

问题答案：

Unicode不等于UTF-8。后者只是前者的编码。

你做错了方法。你正在读取 UTF-8 编码的数据，因此必须将UTF-8编码的字符串解码为unicode字符串。

因此，只需替换.encode为.decode，它就可以工作（如果你的.csv是UTF-8编码的）。

没什么可羞耻的。我敢打赌，五分之三的程序员最初很难理解这一点，如果不是更多的话；）

更新：如果你的输入数据不是 UTF-8编码的，那么你当然必须.decode()使用适当的编码。如果未提供任何内容，则python会假定使用ASCII，这显然会在非ASCII字符上失败。

UnicodeDecodeError：'ascii'编解码器无法解码位置2的字节0xd1：序数不在范围内（128）

相关阅读

相关文章

相关问答

相关工具

相关文档