我有一个带有4列的pandas DataFrame,我想创建一个 只有 三个列的 新 DataFrame
。这个问题类似于:从数据框中提取特定的列,但对于不是R的熊猫来说。以下代码不起作用,会引发错误,并且肯定不是熊猫的方式。
import pandas as pd
old = pd.DataFrame({'A' : [4,5], 'B' : [10,20], 'C' : [100,50], 'D' : [-30,-50]})
new = pd.DataFrame(zip(old.A, old.C, old.D)) # raises TypeError: data argument can't be an iterator
熊猫人做这件事的方法是什么?
有一种方法可以做到,它实际上看起来类似于R
new = old[['A', 'C', 'D']].copy()
在这里,您只是从原始数据框中选择所需的列,并为这些列创建变量。如果您想完全修改新的数据框,则可能要.copy()
避免使用SettingWithCopyWarning
。
一种替代方法是使用filter
默认情况下将创建副本的方法:
new = old.filter(['A','B','D'], axis=1)
最后,根据原始数据帧中的列数,使用a表示它可能更简洁drop
(默认情况下也会创建一个副本):
new = old.drop('B', axis=1)
我有一个有4列的pandas DataFrame,我想创建一个只有其中3列的新DataFrame。这个问题类似于:从数据帧中提取特定列,但对pandas来说不是R。下面的代码不起作用,会引发错误,当然也不是pandasnic的方法。 熊猫式的方法是什么?
下面有以下dataframe架构
但我如何也摆脱这些假想呢?
我在尝试用空值替换Spark数据帧特定列的值时遇到了一个问题。我有一个超过50列的数据框架,其中两列是关键列。我想用相同的模式创建一个新的数据框,新的数据框应该具有来自键列的值,而非键列中的值应该为null。我尝试了以下方法,但遇到了问题: 当我在中只有字符串类型列时,这种方法很好。但是我有一些双类型和int类型的列,这是抛出错误的,因为rdd是一个空字符串列表。 为了避免这种情况,我尝试将作为空
给定一个 如何通过流将和的值提取到以下内容中? 我尝试了以下方法,但在获取列表值的部分遇到了问题。
问题内容: 这是一个简单的问题,但请说我有一个MxN矩阵。我要做的就是提取特定的列并将其存储在另一个numpy数组中,但是我得到了无效的语法错误。这是代码: 似乎上述行就足够了,但我想不是。我环顾四周,但找不到关于此特定场景的任何语法明智的方法。 问题答案: 我假设你想要的列和? 要一次选择多个列,请使用 要一次选择一个,请使用 带有名称: 您可以从…获得名字。