当前位置: 首页 > 知识库问答 >
问题:

UTF-8编解码器无法解码位置4276中的字节0xa0:无效的开始字节

於乐
2023-03-14

我尝试读取并打印以下文件:txt。tsv(https://www.sec.gov/files/dera/data/financial-statement-and-notes-data-sets/2017q3_notes.zip)

根据证券交易委员会,数据集以单一编码提供,如下所示:

制表符分隔值(.txt):utf-8,制表符分隔,\n-终止行,第一行包含小写字段名。

我当前的代码:

import csv

with open('txt.tsv') as tsvfile:
    reader = csv.DictReader(tsvfile, dialect='excel-tab')
    for row in reader:
        print(row)

所有尝试均以以下错误消息结束:

UTF-8编解码器无法解码位置4276中的字节0xa0:无效的开始字节

我有点迷路了。有人能帮我吗?非常感谢。

共有3个答案

凤高澹
2023-03-14
ds = pd.read_csv('/Dataset/test.csv', encoding='windows-1252') 

对我来说很好,谢谢。

邢曦
2023-03-14

如果有人研究土耳其数据,我建议这样做:

df = pd.read_csv("text.txt",encoding='windows-1254')
岳阳飙
2023-03-14

文件中的编码为“windows-1252”。使用:

open('txt.tsv', encoding='windows-1252')
 类似资料: