当前位置: 首页 > 面试题库 >

从熊猫数据框单元格中的凌乱字符串中删除换行符?

晏卓君
2023-03-14
问题内容

我使用了多种方式来拆分和剥离熊猫数据框中的字符串,以删除所有的’\
n’字符,但是由于某些原因,它根本不想删除附加在其他单词上的字符,即使我拆分它们。我有一个带有列的pandas数据框,该列使用Beautifulsoup捕获网页中的文本。文本已经由beautifulsoup清除了一点,但是未能删除附加在其他字符上的换行符。我的字符串看起来像这样:

“动手\ n开发游戏。我们将研究与游戏相关的各种软件技术,包括编程语言,脚本\语言,操作系统,文件系统,网络,模拟\
n引擎和多媒体设计系统。还研究了来自计算机科学和相关领域的一些\ n基础科学概念,包括“

有没有简单的python方式来删除这些“ \ n”字符?

提前致谢!


问题答案:

编辑:对此的正确答案是:

df = df.replace(r'\\n',' ', regex=True)

我认为您需要replace

df = df.replace('\n','', regex=True)

要么:

df = df.replace('\n',' ', regex=True)

要么:

df = df.replace(r'\\n',' ', regex=True)

样品:

text = '''hands-on\ndev nologies\nrelevant scripting\nlang
'''
df = pd.DataFrame({'A':[text]})
print (df)
                                                   A
0  hands-on\ndev nologies\nrelevant scripting\nla...

df = df.replace('\n',' ', regex=True)
print (df)
                                                A
0  hands-on dev nologies relevant scripting lang


 类似资料:
  • 问题内容: 我有一个类似于以下内容的数据框: 我希望输出为以下格式: 想要从“名称”列中删除所有数字。 我最近来的是使用以下代码在 单元 级别进行的: 任何想法如何在 系列 / 数据框 级别上以更好的方式 实现 。 问题答案: 您可以结合使用正则表达式将str.replace应用于列: 输出: 在正则表达式中代表“任何数字”,代表“一个或多个”。 因此,其含义是:“将字符串中所有出现的数字全部替换

  • 问题内容: 我对此有一个类似的问题:Pandas DataFrame:从一列中的字符串中删除不需要的部分 。 所以我用了: 大多数项目以“ PPI /”开头,但并非全部。似乎当没有’PPI /’后缀的项目遇到此错误时: AttributeError:“ float”对象没有属性“ lstrip” 我在这里想念什么吗? 问题答案: 使用replace: 或string.replace:

  • 考虑到以下情况,我很难理解这里的机制。 我有一个从: 我想删除列a1中包含“aa”的所有行 我相信我已经尝试了这里的一切,但仍然得到了: ValueError:标签[False False False...False False]轴中不包含 是的,我也试过 任何帮助都将不胜感激,谢谢。

  • 我有一个数据帧df: 然后我想删除列表中指示的具有某些序列号的行,假设这里是然后离开: 如何或什么功能可以做到这一点?

  • 问题内容: 我可以使用 功能来删除将部分或全部列设置为的行。是否存在用于删除所有列的值为0的行的等效函数? 在此示例中,我们要删除数据帧的前4行。 谢谢! 问题答案: 事实证明,这可以向量化的方式很好地表达:

  • 问题内容: 这个问题已经在这里有了答案 : 在熊猫中的DataFrame上搜索“不包含” (6个答案) 去年关闭。 我在python中有一个非常大的数据框,我想在特定列中删除所有具有特定字符串的行。 例如,我想在数据框的列C中删除所有具有字符串“ XYZ”作为子字符串的行。 可以使用.drop()方法以一种有效的方式来实现吗? 问题答案: pandas具有向量化的字符串操作,因此您可以过滤掉包含不