我有一个带有一列字符串值的pandas DataFrame。我需要根据部分字符串匹配来选择行。
类似于这个成语
re.search(pattern, cell_in_question)
返回布尔值。我熟悉df[df['a']==“hello world”]
的语法,但似乎找不到一种方法来处理部分字符串匹配,比如'hello'
。
基于github问题#620,看起来您很快就可以执行以下操作:
df[df['A'].str.contains("hello")]
更新:向量化字符串方法(即series.str)在Pandas0.8.1及更高版本中可用。
问题内容: 我需要过滤pandas数据帧中的行,以便特定的字符串列包含提供的子字符串列表中的至少一个。子字符串可能具有不寻常的/正则表达式字符。比较不应该涉及正则表达式,并且不区分大小写。 例如: 我目前使用这样的面具: 我的数据框很大(〜1mio行),lst长度为100。是否有更有效的方法?例如,如果找到其中的第一项,lst则我们不必测试该行的任何后续字符串。 问题答案: 如果你坚持使用纯熊猫,
问题内容: 我正在尝试使用三列阈值过滤pandas数据框 但是,我想在一个函数中执行此操作,在字典中将列名及其阈值提供给我。这是我的第一次尝试,可以。本质上,我将过滤器放入变量中,然后运行它: 现在,最后我将所有内容都放到了函数中,并且它停止了工作(也许函数不喜欢在函数中使用!): 我知道函数在函数内部使用时的行为会有所不同,但不确定如何解决该问题。另外,我想知道在给定两个输入的情况下,必须有一种
本文向大家介绍Pandas的数据过滤实现,包括了Pandas的数据过滤实现的使用技巧和注意事项,需要的朋友参考一下 作者|Amanda Iglesias Moreno 编译|VK 来源|Towards Datas Science 从数据帧中过滤数据是清理数据时最常见的操作之一。Pandas提供了一系列根据行和列的位置和标签选择数据的方法。此外,Pandas还允许你根据列类型获取数据子集,并使用布尔
问题内容: 我正在尝试使用作为df一部分的几个布尔变量来过滤df,但一直未能做到。 样本数据: C和D列的dtype是布尔值。我想仅使用C或D为True的行创建一个新的df(df1)。它看起来应该像这样: 我已经尝试过类似的事情,因为它无法处理布尔类型,因此会遇到问题: 有任何想法吗? 问题答案: In [82]: d Out[82]: A B C D 0 John Doe 45 True Fal
问题内容: 我有一个很大的时间序列数据帧(称为 df ),前5条记录如下所示: 目标: 我正在尝试删除 “ stn” 列中存在列表中 任何 字符串 的 行。因此,我基本上是在尝试过滤此数据集,以使其不包含以下列表中包含任何字符串的行。 尝试: 返回值: 出[78]: 没有! 我尝试了一些引号,方括号甚至是lambda函数的组合;尽管我还很新,所以可能没有正确使用语法。 问题答案: 使用isin:
永远不要信任外部输入。请在使用外部输入前进行过滤和验证。filter_var()和 filter_input() 函数可以过滤文本并对格式进行校验(例如 email 地址)。 外部输入可以是任何东西:$_GET 和 $_POST 等表单输入数据,$_SERVER 超全局变量中的某些值,还有通过 fopen('php://input', 'r') 得到的 HTTP 请求体。记住,外部输入的定义并不局