我正在读取一个基本的csv文件,其中这些列用逗号分隔,这些列名称分别为:
userid, username, body
但是,主体列是一个字符串,可能包含逗号。显然,这会导致问题,并且熊猫抛出错误:
CParserError: Error tokenizing data. C error: Expected 3 fields in line 3, saw 8
有没有一种方法可以告诉熊猫忽略特定列中的逗号,或者可以解决该问题?
想象一下,我们正在读取名为的数据框comma.csv
:
userid, username, body
01, n1, 'string1, string2'
您可以做的一件事是使用以下命令在列中指定字符串的定界符:
df = pd.read_csv('comma.csv', quotechar="'")
在这种情况下'
,以逗号分隔的字符串将被视为总数,而不管它们之间的逗号如何。
我有一个5页的pdf文件,每页有一个表,我需要提取。我需要从每一页提取所有的表,并将它们保存为数据帧文件,所有使用python,所以我转换了文件,使用tabula的csv文件 文件输出的主要问题。csv是指有几个额外的逗号。 实例 当我将csv文件转换成行/列时,我得到了一些行偏移 注意:dataframe应该有6列,其中包含空字段。我猜额外的逗号来自pdf文件中的空格。如何从csv文件中删除额外
我需要解析一个一列的CSV文件,它不仅有额外的逗号,而且一些名称还包括额外的引号。我已经看过了,并阅读了之前的其他问题,最好的答案之一是阿钦蒂亚·杰哈的答案。然而,这种解决方案似乎在我的情况下不起作用。一个例子是这个名字 正在打印为: 它在正确的地方分裂,并且正在处理额外的逗号,但它没有击中额外的引号,并且现在也在那里分裂,所以
我有一个txt文件,数据如下所示 我在使用这段代码时读到了数据: 由于我的时间列,它不能正常工作,因为是通过逗号分隔的。我该如何解决这一点,如何使它工作,即使在我有多列这样的时间格式的情况下? 我想获得一个如下所示的数据帧: 多谢!
我有这个财产:
我有一个相当大的逗号分隔的CSV文件(12GB)。我有4列,其中1列包含带有JSON的嵌套列表。我可以从Excel创建一个连接,它可以正确地读取它(尽管我在那里有一些嵌套列表,这意味着更多的逗号)。然而,当我试图通过spark来实现它时,它在每次出现逗号时都会被切分,这造成了很多混乱。 好的,所以我已经尝试提供一个模式。显然CSV不支持数组类型,所以我不能这么容易地做到这一点。我可以用字符串而不是
问题内容: 进行时: 与此文件: (第一个列是UNIX时间戳,即自1970年1月1日起经过的秒数),当我每15秒对数据进行一次重采样时出现以下错误: 就像“ datetime”信息尚未解析: 如何使用熊猫模块导入带有存储为时间戳的日期的.CSV? 然后,一旦我能够导入CSV, 如何访问日期 > 2015-12-02 12:02:18的行? 问题答案: 我的解决方案类似于Mike的解决方案: