当前位置: 首页 > 知识库问答 >
问题:

熊猫编码csv错误-必须对一个csv文件进行编码,但不能对另一个进行编码-两者的编码相同

洪飞扬
2023-03-14

我正在使用pandas将csv数据读入python脚本。两个csv文件具有相同的编码(Windows-1252)。但是,对于其中一个文件,我在使用pandas读取csv文件时出错,除非我在pd中指定了编码参数。读取\u csv()。

有人知道为什么我需要在一个csv中指定编码,而不是在另一个csv中指定编码吗?两个csv都包含相似的数据(字符串和数字)。

非常感谢。

共有2个答案

游炳
2023-03-14

Pandas(至少版本1.3.3)默认使用UTF-8编码,即使在Windows上也是如此(请参阅源代码)。UTF-8有一些禁止的字节(参见代码页布局中的红细胞)。但是,这些字节在Windows-1252中是允许的。因此,我假设您的一个文件中有一些UTF-8中不允许的字节。可能有一个数据输入错误,错误地将aø而不是0。

窦志新
2023-03-14

这只意味着其中一个文件的字符超出了0x00到0x7F的范围。只有最高的128个值,编码才起作用。它所需要的只是一个n-with-tilde或一个智能引号。

 类似资料:
  • 我正在开发一个使用C作为练习的小型交易机器人。他将首先收到基本信息,如我们的资本和日常股票价值(表示为迭代)。 这是我的专业课: 从最后两个属性可以看出,我使用指数移动平均原理和趋势跟踪算法。 我从报纸上读到过http://www.cis.umac.mo/~fstasp/paper/jetwi2011。pdf(主要在第3页)并希望实现他们与我们共享的伪代码;它是这样的: 到目前为止,我是这样做的:

  • 环境: SUSE Linux enterprise server 11 SP1 git version 1.6.0.2 gitoite for access Control git web在apache上运行 我有两个存储库。在回购a中,它的编码是gbk,而回购b是UTF-8。 那么如果回购a有中文代码,那么在git web上查看时,汉字将是乱码 但回购b中的中文代码将正确显示。 所以我想问一下,

  • 我在服务器端对JSON进行了编码(使用ESAPI编码器),然后客户机检索bean的字段并进行进一步的处理。 在服务器端 编码的JSON字符串 \x7b\x22name\x22\x3a\x22sameer\x22,\x22company\x22\x3a\x22company\x22,\x22designation\x22\x3a\x22developer\x22\x7d 在客户端

  • 我在列表中有一个列名称,我想对列表中的列中的值进行热编码。我想从数据集中对分类变量进行编码。我尝试了几个过程,但它给我带来了一个错误 它抛出的错误 回溯(最后一次调用):文件“preprocessing.py”,第83行,trainig_set_ed[col]=clfs[col].fit_transform(trainig_set_ed[col])文件“/root/.local/lib/pytho

  • 我在PHP中有一个CSV字符串,它被mb_detect_编码检测为UTF8。此字符串将写入文件。当我在文本编辑器(程序员记事本)中打开它时,编辑器会说它是UTF8无标记的,当我将编码更改为ANSI时,它会在Excel中正确打开。我想用ANSI编写这个文件,这样在Excel中打开它之前就不必在文本编辑器中进行转换。尝试使用以下命令: utf8_解码($xhtml) iconv(“UTF-8”、“Wi

  • 我正在尝试修改bigquery-dataflow示例以处理CSV文件。https://github.com/GoogleCloudPlatform/bigquery-etl-dataflow-sample 我已将readObject更改为解析CSV并将其添加到data对象。在运行管道时,我收到以下错误: DoFnRunnerBase$DoFnProcessContext. out(DoFnRunn