当前位置: 首页 > 面试题库 >

在Pandas中解析csv文件时,如何从字符串中删除多余的空格?

越扬
2023-03-14
问题内容

我有以下名为“ data.csv”的文件:

    1997,Ford,E350
    1997, Ford , E350
    1997,Ford,E350,"Super, luxurious truck"
    1997,Ford,E350,"Super ""luxurious"" truck"
    1997,Ford,E350," Super luxurious truck "
    "1997",Ford,E350
    1997,Ford,E350
    2000,Mercury,Cougar

我想将其解析为一个熊猫DataFrame,以便DataFrame如下所示:

       Year     Make   Model              Description
    0  1997     Ford    E350                     None
    1  1997     Ford    E350                     None
    2  1997     Ford    E350   Super, luxurious truck
    3  1997     Ford    E350  Super "luxurious" truck
    4  1997     Ford    E350    Super luxurious truck
    5  1997     Ford    E350                     None
    6  1997     Ford    E350                     None
    7  2000  Mercury  Cougar                     None

我能做的最好的事情是:

    pd.read_table("data.csv", sep=r',', names=["Year", "Make", "Model", "Description"])

这让我:

    Year     Make   Model              Description
 0  1997     Ford    E350                     None
 1  1997    Ford     E350                     None
 2  1997     Ford    E350   Super, luxurious truck
 3  1997     Ford    E350  Super "luxurious" truck
 4  1997     Ford    E350   Super luxurious truck 
 5  1997     Ford    E350                     None
 6  1997     Ford    E350                     None
 7  2000  Mercury  Cougar                     None

没有这些空格的如何获取DataFrame?


问题答案:

您可以使用转换器:

import pandas as pd

def strip(text):
    try:
        return text.strip()
    except AttributeError:
        return text

def make_int(text):
    return int(text.strip('" '))

table = pd.read_table("data.csv", sep=r',',
                      names=["Year", "Make", "Model", "Description"],
                      converters = {'Description' : strip,
                                    'Model' : strip,
                                    'Make' : strip,
                                    'Year' : make_int})
print(table)

产量

   Year     Make   Model              Description
0  1997     Ford    E350                     None
1  1997     Ford    E350                     None
2  1997     Ford    E350   Super, luxurious truck
3  1997     Ford    E350  Super "luxurious" truck
4  1997     Ford    E350    Super luxurious truck
5  1997     Ford    E350                     None
6  1997     Ford    E350                     None
7  2000  Mercury  Cougar                     None


 类似资料:
  • 问题内容: 我从数据库查询中接收到一个字符串,然后在将其放入CSV文件之前,删除了所有HTML标记,回车符和换行符。唯一的事情是,我找不到从字符串 之间 删除 多余的 空白的方法。 __ 删除内部空白字符的最佳方法是什么? 问题答案: 不确定确切要什么,但是有两种情况: 如果你只是处理过剩上,你可以使用字符串的开头或结尾,或者将其删除。 如果你正在处理一个字符串中多余的空格考虑多 用单 。 例:

  • 问题内容: 我想知道如何删除: 所有 前导/尾随 空格或换行符,空字符等。 字符串中的任何多余空格(例如,“ hello [space] [space] world”将转换为“ hello [space] world”) 单个正则表达式,对国际空格字符的unicode支持等是否可行? 问题答案: 似乎您可能希望同时使用速记字符类和Unicode属性来匹配Unicode空间。但是,这两个步骤都不能用

  • 问题内容: 简而言之; 我在XML文件中生成了许多空行,并且我正在寻找一种删除它们的方法,以作为倾斜文件的一种方法。我怎样才能做到这一点 ? 详细说明;我目前有这个XML文件: 我使用此Java代码删除所有标签,并添加新标签: 在多次执行此方法后,我得到了一个XML文件,其结果正确,但是在“ paths”标记之后和第一个“ path”标记之前有许多空行,如下所示: 有人知道该如何解决吗? ----

  • 简言之我在XML文件中生成了许多空行,我正在寻找一种方法来删除它们,作为学习文件的一种方式。我该怎么做? 详细说明;我当前有以下XML文件: 我使用此Java代码删除所有标记,并添加新标记: 多次执行此方法后,我得到了一个结果正确的XML文件,但在“paths”标记之后和第一个“path”标记之前有许多空行,如下所示: 有人知道怎么解决吗? ----------------------------

  • 问题内容: 我使用的框架会不时返回格式错误的字符串,其中包含“空”字符。 例如,“ foobar”表示为:[,f,o,o,b,a,r] 第一个字符不是空格(’‘),因此System.out.printlin()将返回“ foobar”而不是“ foobar”。但是,String的长度是7,而不是6。显然,这使大多数String方法(等于,拆分,子字符串等)变得无用。有没有办法从字符串中删除空字符?

  • 问题内容: 我有一个像这样的字符串: 我想删除字符串中的空格。我试过了,但这只删除了整个字符串前后的空格。我也尝试过,但后来=也被删除了。 如何使用以下方法实现字符串: 问题答案: 删除所有空格和不可见字符(例如,)。 并产生相同的结果。 第二个正则表达式比第一个正则表达式快20%,但是随着连续空格数量的增加,第一个正则表达式的性能优于第二个正则表达式。 如果不直接使用,则将值分配给变量: