我正在尝试对数据框进行列绑定并遇到pandas的问题concat
,因为ignore_index=True
它似乎不起作用:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 5, 6, 7,3])
df1
# A B D
# 0 A0 B0 D0
# 2 A1 B1 D1
# 3 A2 B2 D2
# 4 A3 B3 D3
df2
# A1 C D2
# 5 A4 C4 D4
# 6 A5 C5 D5
# 7 A6 C6 D6
# 3 A7 C7 D7
dfs = [df1,df2]
df = pd.concat( dfs,axis=1,ignore_index=True)
print df
结果是
0 1 2 3 4 5
0 A0 B0 D0 NaN NaN NaN
2 A1 B1 D1 NaN NaN NaN
3 A2 B2 D2 A7 C7 D7
4 A3 B3 D3 NaN NaN NaN
5 NaN NaN NaN A4 C4 D4
6 NaN NaN NaN A5 C5 D5
7 NaN NaN NaN A6 C6 D6
即使我使用重置索引
df1.reset_index()
df2.reset_index()
然后尝试
pd.concat([df1,df2],axis=1)
它仍然产生相同的结果!
如果我正确理解您的意思,这就是您想要做的。
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 4, 5, 6 ,7])
df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)
df = pd.concat( [df1, df2], axis=1)
这使:
A B D A1 C D2
0 A0 B0 D0 A4 C4 D4
1 A1 B1 D1 A5 C5 D5
2 A2 B2 D2 A6 C6 D6
3 A3 B3 D3 A7 C7 D7
实际上,我期望df = pd.concat(dfs,axis=1,ignore_index=True)
得到相同的结果。
这是 jreback 的出色解释:
ignore_index=True
“忽略”,表示未在连接轴上对齐。它只是按照传递的顺序将它们粘贴在一起,然后为实际索引(例如range(len(index))
)重新分配一个范围,因此联接非重叠索引(假设axis=1
在示例中)之间的区别在于,ignore_index=False
(默认)得到索引的连接,并ignore_index=True
得到一个范围。
问题内容: 我正在尝试从熊猫数据框中删除NA值。 我用过(它应该从数据帧中删除所有NA行)。但是,它不起作用。 这是代码: 这就是获取数据帧的方式。如下所示,默认方法确实将NA数据点转换为。 方便地,DF的已经包含一个NaN值(在列中),因此打印此代码,您将得到: 但是,运行不会以任何方式更改数据框。 问题答案: 默认情况下,返回没有值的新数据集。因此,您必须将其分配给变量 如果要修改它,就必须明
问题内容: 我是Python和Pandas库的初学者,我对DataFrame的一些基本功能感到困惑。我有一个熊猫DataFrame,如下所示: 但是,在执行一些功能之后: 我再也无法使用df.head()函数了: 我不明白为什么会这样。我在这里做错什么了吗?任何指针都欢迎!谢谢。 问题答案: 返回df的前n行。现在默认情况下要显示一个熊猫检查终端的宽度,如果该宽度太小而无法显示摘要视图。在第二种情
问题内容: 另一个熊猫问题。 阅读韦斯·麦金尼(Wes Mckinney)关于数据分析和熊猫的出色著作,我遇到了以下我认为应该起作用的事情: 假设我有一些有关提示的信息。 我想知道与总费用有关的五个最大技巧,即分别针对吸烟者和不吸烟者。所以这有效: 足够好了,但是然后我想使用pandas的transform来做类似的事情: 但是我得到了这个: 为什么?我知道转换需要返回与输入相同尺寸的数组,因此我
我正在读一个带有如下浮点数的CSV: 并导入到数据框中,然后将此数据框写入新位置 现在,此
我尝试使用pandas(使用conda安装二进制文件和依赖项,然后使用pip,然后使用no-binaries选项构建);仍然有错误。 Numpy可用(1.11.2)。我知道numpy不再提供某些接口。我使用的Python版本是2.7.11。安装的软件包清单如下。 错误消息: C:......在Windows 64位上使用MINGW-W64构建的Numpy是实验性的,仅可用于测试。建议您不要将其用于
问题内容: 我试图让MongoDB根据其索引检测重复值。我认为这在MongoDB中是可能的,但是通过Mongoose包装器,事情似乎被打破了。所以对于这样的事情: 我可以用同一封电子邮件保存2个用户。真是 在这里也表达了同样的问题:https : //github.com/LearnBoost/mongoose/issues/56,但是该线程很旧,导致无处可去。 现在,我正在手动调用数据库以查找用