当前位置: 首页 > 知识库问答 >
问题:

UnicodeDecodeError:“utf-8”编解码器无法解码位置0中的字节0xff:读取csv文件时python中的起始字节错误无效

阎鹏
2023-03-14
StopWords = pd.read_csv('stopwords.csv',encoding='UTF-8', quotechar='|',names=['StopWords'])

我试图读取包含波斯语文本的CSV文件,这是我得到的错误:

UnicodeDecodeError:“utf-8”编解码器无法解码位置0中的字节0xff:无效的开始字节

共有1个答案

邹举
2023-03-14

如果看不到文件的二进制内容,很难猜测实际的编码,但是UTF-8,无论有没有BOM(字节顺序标记)都不能从0xFF开始。

如果它以0xFF开始,那么这将表明它可能在Little EndianUTF-16到UTF-32中,这是唯一具有以0xFF开始的字节顺序标记的Unicode序列化。

https://en.wikipedia.org/wiki/Byte_order_mark给出了一些解释。

也有可能是波斯特定字符集。如果为生成源CSV文件提供了Unicode选项,则应避免使用国家字符集。

 类似资料: