当前位置：首页 > 面试题库 >

拆分（explode)pandas数据框字符串条目以分隔行

彭成天

2023-03-14

问题内容：

我有一个pandas dataframe文本字符串的一列包含逗号分隔的值。我想拆分每个CSV字段并为每个条目创建一个新行（假定CSV干净，只需要在’，’上拆分）。例如，a应变为b：

In [7]: a
Out[7]: 
    var1  var2
0  a,b,c     1
1  d,e,f     2

In [8]: b
Out[8]: 
  var1  var2
0    a     1
1    b     1
2    c     1
3    d     2
4    e     2
5    f     2

到目前为止，我已经尝试了各种简单的函数，但是该.apply方法似乎只在轴上使用一行作为返回值，而我无法开始.transform工作。我们欢迎所有的建议！

示例数据：

from pandas import DataFrame
import numpy as np
a = DataFrame([{'var1': 'a,b,c', 'var2': 1},
               {'var1': 'd,e,f', 'var2': 2}])
b = DataFrame([{'var1': 'a', 'var2': 1},
               {'var1': 'b', 'var2': 1},
               {'var1': 'c', 'var2': 1},
               {'var1': 'd', 'var2': 2},
               {'var1': 'e', 'var2': 2},
               {'var1': 'f', 'var2': 2}])

我知道这是行不通的，因为我们通过numpy丢失了DataFrame元数据，但是它应该使您了解我尝试做的事情：

def fun(row):
    letters = row['var1']
    letters = letters.split(',')
    out = np.array([row] * len(letters))
    out['var1'] = letters
a['idx'] = range(a.shape[0])
z = a.groupby('idx')
z.transform(fun)

问题答案：

这样的事情怎么样：

In [55]: pd.concat([Series(row['var2'], row['var1'].split(','))              
                    for _, row in a.iterrows()]).reset_index()
Out[55]: 
  index  0
0     a  1
1     b  1
2     c  1
3     d  2
4     e  2
5     f  2

然后，您只需要重命名列

类似资料：

拆分（爆炸）熊猫数据帧字符串条目以分离行

我有一个数据框，其中一列文本字符串包含逗号分隔的值。我想分割每个CSV字段，并为每个条目创建一个新行（假设CSV是干净的，只需要在“，”上分割）。例如，应该变成：到目前为止，我已经尝试了各种简单的函数，但是方法在轴上使用时似乎只接受一行作为返回值，并且我无法让工作。任何建议都将不胜感激！示例数据：我知道这是行不通的，因为我们失去了DataFrame元数据通过通过Numpy，但它应该给你一个感
用分隔符pandas python拆分列

问题内容：我有一个小样本数据：好像我想用’-‘分隔符分隔列’V’并将其移至另一个名为’allele’的列到目前为止，我尝试过的代码不完整，无法正常工作：要么问题答案：与vectoried一起使用：
根据子字符串分隔符拆分字符串，将分隔符保留在结果中

我希望能够根据子字符串分隔符拆分字符串，在分隔符子字符串的第一个字符之前开始拆分。现在：将给我，但我希望得到
使用多个字符串分隔符拆分字符串

如何将过滤器列表拆分为单个过滤器元件？split2String在线程“main”java.util.regex中导致：异常。PatternSyntaxException:索引10或（|和）附近的未闭合组(
在拆分字符串函数中查找分隔符

我想在拆分函数调用中使用空格作为分隔符，但我想在单个单元格数组中输入某些单词；例如。例如：在带有一些分隔符的函数拆分调用之后，输出应如下所示：我需要找到一个分隔符(或正则表达式模式)用于split函数。我如何着手做那件事？
将分隔的字符串值拆分为行

问题内容：一些外部数据供应商希望给我一个数据字段-管道分隔的字符串值，我觉得这很难处理。没有应用程序编程语言的帮助，有没有办法将字符串值转换为行？但是，存在一个困难，该字段具有未知数量的定界元素。有问题的数据库引擎是MySQL。例如：问题答案：它可能没有我最初想象的那么困难。这是一种通用方法：计算分隔符的出现次数循环多次，每次获取一个新的定界值并将该值插入第二个表中。

相关阅读

将没有分隔符的字符串拆分为列 Pyhon-将pandas数据帧字符串项拆分（分解）为单独的行如何将逗号分隔的字符串拆分为空字符串数组 Java以点为分隔符分割字符串数组数据类型，拆分字符串，

相关文章

C语言数组与字符串（包括：字符串与字符数组）Python Pandas分层索引 Python Pandas分类对象 Pandas groupby分组操作字节跳动社招数据分析

相关问答

Perl使用基于字符串的分隔符拆分字符串拆分由'['和']'分隔的字符串[重复]如何拆分逗号分隔的字符串？使用由分隔符Java分隔的位置值拆分字符串如何在java中用'~~'分隔符拆分字符串？

相关工具

Tiny分布式计算框架数据库处理框架 word分词 Pandas 盘古分词

相关文档

Python 和 Pandas 数据分析教程十分钟搞定 pandas 利用 Python 进行数据分析 · 第 2 版格式化字符串漏洞利用 Pandas 函数手册