当前位置：首页 > 面试题库 >

pandas在列中阅读带有额外逗号的csv

公风史

2023-03-14

问题内容：

我正在读取一个基本的csv文件，其中这些列用逗号分隔，这些列名称分别为：

userid, username, body

但是，主体列是一个字符串，可能包含逗号。显然，这会导致问题，并且熊猫抛出错误：

CParserError: Error tokenizing data. C error: Expected 3 fields in line 3, saw 8

有没有一种方法可以告诉熊猫忽略特定列中的逗号，或者可以解决该问题？

问题答案：

想象一下，我们正在读取名为的数据框comma.csv：

userid, username, body
01, n1, 'string1, string2'

您可以做的一件事是使用以下命令在列中指定字符串的定界符：

df = pd.read_csv('comma.csv', quotechar="'")

在这种情况下'，以逗号分隔的字符串将被视为总数，而不管它们之间的逗号如何。

类似资料：

删除额外的逗号、空格

我有一个5页的pdf文件，每页有一个表，我需要提取。我需要从每一页提取所有的表，并将它们保存为数据帧文件，所有使用python，所以我转换了文件，使用tabula的csv文件文件输出的主要问题。csv是指有几个额外的逗号。实例当我将csv文件转换成行/列时，我得到了一些行偏移注意：dataframe应该有6列，其中包含空字段。我猜额外的逗号来自pdf文件中的空格。如何从csv文件中删除额外
在Java中拆分包含额外逗号和引号的CSV文件

我需要解析一个一列的CSV文件，它不仅有额外的逗号，而且一些名称还包括额外的引号。我已经看过了，并阅读了之前的其他问题，最好的答案之一是阿钦蒂亚·杰哈的答案。然而，这种解决方案似乎在我的情况下不起作用。一个例子是这个名字正在打印为：它在正确的地方分裂，并且正在处理额外的逗号，但它没有击中额外的引号，并且现在也在那里分裂，所以
在带有逗号分隔的时间列的文本文件中读取？

我有一个txt文件，数据如下所示我在使用这段代码时读到了数据：由于我的时间列，它不能正常工作，因为是通过逗号分隔的。我该如何解决这一点，如何使它工作，即使在我有多列这样的时间格式的情况下？我想获得一个如下所示的数据帧：多谢！
使用java中的configuration2阅读逗号分隔的属性

我有这个财产：
Azure Databricks，无法读取带有嵌套列表的逗号分隔的CSV文件

我有一个相当大的逗号分隔的CSV文件(12GB)。我有4列，其中1列包含带有JSON的嵌套列表。我可以从Excel创建一个连接，它可以正确地读取它（尽管我在那里有一些嵌套列表，这意味着更多的逗号）。然而，当我试图通过spark来实现它时，它在每次出现逗号时都会被切分，这造成了很多混乱。好的，所以我已经尝试提供一个模式。显然CSV不支持数组类型，所以我不能这么容易地做到这一点。我可以用字符串而不是
使用pandas读取带有时间戳列的csv

问题内容：进行时：与此文件：（第一个列是UNIX时间戳，即自1970年1月1日起经过的秒数），当我每15秒对数据进行一次重采样时出现以下错误：就像“ datetime”信息尚未解析：如何使用熊猫模块导入带有存储为时间戳的日期的.CSV？然后，一旦我能够导入CSV，如何访问日期 > 2015-12-02 12:02:18的行？问题答案：我的解决方案类似于Mike的解决方案：

pandas在列中阅读带有额外逗号的csv

相关阅读

相关文章

相关问答

相关工具

相关文档