当前位置: 首页 > 知识库问答 >
问题:

UnicodeDecodeError:('UTF-8'编解码器)读取csv文件时[重复]

浦德明
2023-03-14
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 7: invalid continuation byte
 import pandas as pd
 df = pd.read_csv("D:\ss.csv")
 df.columns  #o/p is Index(['CUSTOMER_MAILID', 'False', 'True'], dtype='object')
 df['True'] = df['True'] + 2     #making changes to one column of type float
 df.to_csv("D:\ss.csv")       #updating that .csv    
 df1 = pd.read_csv("D:\ss.csv")   #again trying to read that csv

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 7: invalid continuation byte

我知道在读写CSV时,我在某个地方遗漏了“encode=某些编解码器类型”或“decode=某些类型”。

但我不知道到底应该改变什么。所以需要帮助。

共有1个答案

严修诚
2023-03-14

如果知道要读入的文件的编码,可以使用

pd.read_csv('filename.txt', encoding='encoding')

以下是可能的编码:https://docs.python.org/3/library/codecs.html#standard-encodings

如果您不知道编码,您可以尝试使用chardet,但这并不能保证工作。它更多的是一个猜测工作。

import chardet
import pandas as pd

with open('filename.csv', 'rb') as f:
    result = chardet.detect(f.read())  # or readline if the file is large


pd.read_csv('filename.csv', encoding=result['encoding'])
 类似资料:
  • 问题内容: 我在Python 3中有以下代码,该代码用于打印csv文件中的每一行。 但是当我运行它时,它给了我这个错误: 我查看了csv文件,结果发现,如果我取出单个ñ(小N,顶部有波浪号),则每一行都可以正常打印。 我的问题是,我已经针对类似的问题浏览了许多不同的解决方案,但我仍然不知道如何解决此问题,解码/编码内容等。仅选择数据中的ñ字符是不可行的。 问题答案: 我们知道文件包含字节,因为错误

  • 我是ServiceStack的新手。它具有为数据提供csv文件的功能,但我需要以UTF8格式下载它,因为我得到一些特殊字符。我尝试过这个配置设置。 但运气不好。。请指出我做错了什么。

  • 我试图读取包含波斯语文本的CSV文件,这是我得到的错误: UnicodeDecodeError:“utf-8”编解码器无法解码位置0中的字节0xff:无效的开始字节

  • 问题内容: 我有一个包含unicode字符串的词典列表。 可以将字典列表写入CSV文件。 我希望CSV文件以UTF8编码。 该模块无法处理将unicode字符串转换为UTF8的操作。 该模块文档具有的一切转换为UTF-8的例子: 它也有一个类。 但是…我该如何处理这些?他们是否不必将自己插入其中,以捕获反汇编的字典并对其进行编码,然后再将其写入文件中?我不明白 问题答案: 更新 :第三方unico

  • 我有字节数组,它放在InputStreamReader中,用它做一些操作。 JVM有默认的cp1252编码,但是我转换成字节数组的文件有utf-8编码。此外,这个文件有德语umlauts。当我把字节数组放在InputStreamReader中时,java会将元音解码为错误的符号。例如,ürepression为。我试着把“utf-8”和charset.forname(“utf-8”).newdeco

  • 我正在运行一个程序,可以处理30000个类似的文件。他们中的一些人正在停止并产生这个错误...