当前位置: 首页 > 面试题库 >

当值与pyspark中的字符串的一部分匹配时过滤df

梁晋鹏
2023-03-14
问题内容

我的帐户很大pyspark.sql.dataframe.DataFrame,因此我想保留(so
filter)列中保存的URLlocation包含预定字符串(例如'google.com‘ )的所有行。

我试过了:

import pyspark.sql.functions as sf
df.filter(sf.col('location').contains('google.com')).show(5)

但这会抛出一个

TypeError: _TypeError: 'Column' object is not callable'

如何解决并正确过滤我的df?提前谢谢了!


问题答案:

Spark 2.2以上

df.filter(df.location.contains('google.com'))

Spark
2.2文档链接

Spark 2.1及更低版本

您可以使用 普通的SQLfilter

df.filter("location like '%google.com%'")

使用DataFrame列方法

df.filter(df.location.like('%google.com%'))

Spark
2.1文档链接



 类似资料:
  • 我正在处理一个关于codingbat的问题,这个问题说:给定一个字符串和第二个“单词”字符串,我们会说这个单词匹配字符串,如果它出现在字符串的前面,除了它的第一个字符不需要完全匹配...在匹配时,返回字符串的前面,或以其他方式返回空字符串。所以,所以用字符串“河马”,“嗨”这个词返回“嗨”,“xip”返回“臀部”。单词长度至少为1。我不能解决它,但在网上找到了一个解决方案,代码如下所示。代码工作,

  • 我有字符串: 字符串s=#JAY125150012 90,#JAY22150043 00, 我想过滤掉jay(125,222)之后的值并将其添加到单独的ArrayList中。 我想过滤掉150012, 151243一起添加到单独的数组列表中。 我想过滤掉90,00一起添加到单独的数组列表中。 我试着这么做,但它不完全符合我的要求

  • 我正在创建一个程序,它可以决定用户的移动方向是否是顺时针方向(N,E,S,W)。 例如,我有变量: UsersDirection不是顺时针方向,因为它必须是“sw”,就像在correctdirection。我不知道如何比较这两个字符串,我甚至不知道如何开始。

  • 问题内容: 我正在寻找使用ScanFilter搜索一组蓝牙设备。我知道所有这些设备的地址都以00:A0:50开头,然后最后6位数字有所不同,因此所有地址看起来都像00:A0:50:XX:XX:XX。我正在寻找一种使用setDeviceAddress来查找地址以那6位数字开头的设备的方法。这将字符串作为输入。相关代码如下。 我想我需要为此使用诸如正则表达式之类的东西,但是我对Java,Android

  • 我希望使用扫描过滤器来搜索一组蓝牙设备。我知道所有这些设备的地址都以00:A0:50开头,然后最后6位数字有所不同,因此所有地址看起来都像00:A0:50:XX:XX:XX。我正在寻找一种方法来使用setDeviceAddress来查找地址以这6位数字开头的设备。这将字符串作为输入。相关代码如下。 我想我需要为此使用类似正则表达式的东西,但是我对Java、Android和regex相当陌生,我不确

  • 问题内容: 我认为我遇到了一个听起来比实际容易的问题……我不太确定。我想定义一个正则表达式,并且要构建一些与之匹配的字符串。 我可以导入具有该功能的任何模块吗?最好不要使用或暴力破解方法。必须有一种更优雅的方法来做到这一点。 问题答案: 我一直在研究一个小的帮助程序库,用于使用Python生成随机字符串 它包含一个方法,该方法允许您从正则表达式创建字符串: 目前,它适用于大多数基本正则表达式。