当前位置: 首页 > 面试题库 >

'utf-8'编解码器无法解码位置4276中的字节0xa0:无效的起始字节

吕博耘
2023-03-14
问题内容

我尝试读取并打印以下文件:txt.tsv(https://www.sec.gov/files/dera/data/financial-statement-
and-notes-data-
sets/2017q3_notes.zip

根据SEC,数据集以单一编码提供,如下所示:

制表符分隔值(.txt):utf-8,制表符分隔,\ n终止的行,第一行包含小写的字段名称。

我当前的代码:

import csv

with open('txt.tsv') as tsvfile:
    reader = csv.DictReader(tsvfile, dialect='excel-tab')
    for row in reader:
        print(row)

所有尝试以以下错误消息结束:

‘utf-8’编解码器无法解码位置4276中的字节0xa0:无效的起始字节

我有点迷茫。谁能帮我?提前谢谢了。


问题答案:

该文件中的编码为“ windows-1252”。采用:

open('txt.tsv', encoding='windows-1252')


 类似资料: