当前位置：首页 > 面试题库 >

连接pandas数据框中的所有列

司寇高洁

2023-03-14

问题内容：

我有多个pandas数据框，它们的列数可能不同，这些列的数量通常在50到100之间。我需要创建一个最终列，该列只是所有列的连接。基本上，该列第一行中的字符串应该是所有列第一行中的字符串的总和（并置）。我在下面编写了循环，但我觉得可能有更好的更有效的方法来执行此操作。有关如何执行此操作的任何想法

num_columns = df.columns.shape[0]
col_names = df.columns.values.tolist()
df.loc[:, 'merged'] = ""
for each_col_ind in range(num_columns):
    print('Concatenating', col_names[each_col_ind])
    df.loc[:, 'merged'] = df.loc[:, 'merged'] + df[col_names[each_col_ind]]

问题答案：

解决方案sum，但输出是float，因此必须转换为int和str：

df['new'] = df.sum(axis=1).astype(int).astype(str)

另一个具有applyfunction的解决方案join，但最慢：

df['new'] = df.apply(''.join, axis=1)

最后非常快numpy solution-转换为numpy array再“和”：

df['new'] = df.values.sum(axis=1)

时间：

df = pd.DataFrame({'A': ['1', '2', '3'], 'B': ['4', '5', '6'], 'C': ['7', '8', '9']})
#[30000 rows x 3 columns]
df = pd.concat([df]*10000).reset_index(drop=True)
#print (df)

cols = list('ABC')

#not_a_robot solution
In [259]: %timeit df['concat'] = pd.Series(df[cols].fillna('').values.tolist()).str.join('')
100 loops, best of 3: 17.4 ms per loop

In [260]: %timeit df['new'] = df[cols].astype(str).apply(''.join, axis=1)
1 loop, best of 3: 386 ms per loop

In [261]: %timeit df['new1'] = df[cols].values.sum(axis=1)
100 loops, best of 3: 6.5 ms per loop

In [262]: %timeit df['new2'] = df[cols].astype(str).sum(axis=1).astype(int).astype(str)
10 loops, best of 3: 68.6 ms per loop

编辑如果某些列的dtype不是object（显然是strings）强制转换DataFrame.astype：

df['new'] = df.astype(str).values.sum(axis=1)

类似资料：

连接pandas中的数据帧

有没有一种方法可以将下面的两个数据流连接起来，这样：我将有一个带有标题的新数据帧：时间戳调整的关闭reportedEPS estimatedEPS 并且reportedEPS和estimatedEPS将根据以下值保持不变：时间戳：1月1日至3月31日，4月1日至6月30日，7月1日至9月30日，10月1日至12月31日？ 2个数据流： https://gyazo.com/38B50A3D7E
Pandas左外连接多个列上的多个数据框

问题内容：我是使用DataFrame的新手，我想知道如何在一系列表的多个列上执行等效于左外部联接的SQL 例：本质上，我想做类似以下SQL代码的操作（注意df3在Year上没有加入）：结果应如下所示：我曾尝试使用合并和联接，但无法弄清楚如何在多个表上以及涉及多个联接时执行此操作。有人可以帮我吗？谢谢问题答案：合并他们在两个步骤，和第一，然后那到结果。我从df3删除了year，因为您
合并两个pandas数据框（在同一列上连接）

问题内容：我有2个数据框： restaurant_ids_dataframe 和 restaurant_review_frame 我想使用熊猫中的DataFrame.join（）命令将这两个DataFrame加入一个单一的数据框中。我尝试了以下代码行：但是，当我尝试这样做时，出现以下错误：我对熊猫很陌生，不知道就执行join语句而言我在做什么错。任何帮助将非常感激。问题答案：您可以使
如何在pandas数据框上显示所有列名称？

问题内容：我有一个包含数百列的数据框，我需要查看所有列名称。我做了什么：输出为：如何显示所有列，而不是截断的列表？问题答案：您可以全局设置打印选项。我认为这应该工作：方法1：方法2：这样您就可以在执行操作时查看所有列名称和行。列名都不会被截断。如果只想查看列名，可以执行以下操作：
两个pandas数据框中共有的列的列表

问题内容：我正在考虑对每个具有大量列的数据帧进行合并操作。不想结果有两个具有相同名称的列。我正在尝试查看两个框架之间共有的列名列表：我该如何在Index对象上操作该NumPy布尔数组，使其仅返回公用列的列表？问题答案：使用或：后一种选择的替代语法：
如果所有行的列中只有一个值，则在Pandas数据框中折叠行

问题内容：我有以下DF 我想将行折叠成一个如下我不想遍历列，但想使用熊猫来实现这一点。问题答案：选项0 超级简单每列可以处理多个值吗？我们当然可以！选项1 使用像外科医生一样的通用解决方案选项2 制作null然后摆脱它们否则我们可以

相关阅读

如果所有行的列中只有一个值，则在Pandas数据框中折叠行 Python-如何在pandas数据框的列中将所有NaN值替换为零 Python：Dictionary系列的Pandas数据框从熊猫的数据框中的所有列输出数据 Pandas：独特的数据框

相关文章

MongoDB连接数据库 JDBC数据库连接 OrientDB连接数据库 DB2连接到数据库连接到Oracle数据库

相关问答

连接两个pandas数据并重新排序列连接2个pysaprk数据框并从连接中删除重复行如何从jQuery数据表中的所有页面中选择所有复选框测试实体框架数据库连接将列中的所有值复制到熊猫数据框中的新列

相关工具

php 实现数据库连接池、直播平台数据库处理框架 ios所支持的所有字体 Pandas 蓝牙接收与发送数据

相关文档

Python 和 Pandas 数据分析教程 Pandas 函数手册 Python Pandas 中文教程鲜活的数据数据可视化指南 Pandas Cookbook 秘籍