当前位置: 首页 > 知识库问答 >
问题:

在pyspark DataFrame中显示不同的列值:python

呼延运恒
2023-03-14

请为Pandas提供pyspark dataframe替代方案df['col'].unique()

另外,我不需要groupby->countdistinct,而是希望检查该列中的distinct值。

共有1个答案

鲁羽
2023-03-14

这将有助于获取列的不同值:

df.select('column1').distinct().collect()

请注意,.collect()对可以返回的值的数量没有任何内置限制,因此这可能会比较慢--请使用.show()或在.collect()之前添加.limit(20)来管理这一点。

 类似资料:
  • 我试图编写正确的查询,但它们显示的结果不正确。例如,我有表ABC: 在c栏中只能b_id 因为111在a_id10或11不是12我怎样才能找到它?我需要找到列C中发生(无效)值b_id的所有行,它们不在同一个a_id中。Sql(postgresql)不能正常工作,为什么?感谢任何帮助。 我的sql:

  • 使用pyspark数据帧,你如何做相当于熊猫 我想列出pyspark数据框列中的所有唯一值。 不是 SQL 类型方式(注册模板,然后 SQL 查询不同的值)。 此外,我不需要< code>groupby然后< code>countDistinct,而是希望检查该列中的不同值。

  • 我试图编写一个程序,使用TableView在javafx gui中显示数据库中表的内容。我有一个通用gui,其中有一个空的TableView。在确定要显示的表之后,应用程序将表名发送给中间件,中间件从数据库中获取所有列名,并将其BACC发送给应用程序。然后循环所有列名,生成一个新的TableColumn并将其添加到TableView中,并调用TableView的方法。使用我可以看到这些列成功地添加

  • 我正在试图理解为什么下面的代码会像它那样运行。具体而言,为什么第一个表达式会输出的完整和最终版本?我意识到这和吊装有关(也许?)或者其他一些我没有完全理解的概念。只是在网上搜索这个是很有挑战性的,因为我没有合适的词库来搜索我想知道的东西。 我在为自己编写代码时发现了这一点,其中我希望通过for-loop看到对象在每次迭代时的状态。我很惊讶地看到输出到控制台的对象在每一个回合都是一样的;该状态是整个

  • 本文向大家介绍仅计算两个不同列中的空值,并在一个MySQL select语句中显示?,包括了仅计算两个不同列中的空值,并在一个MySQL select语句中显示?的使用技巧和注意事项,需要的朋友参考一下 使用IS NULL测试NULL值。让我们首先创建一个表- 使用插入命令在表中插入一些记录- 使用select语句显示表中的所有记录- 输出结果 这将产生以下输出- 以下是仅计算两个不同列中的空值并

  • 问题内容: 我看了一个使用此代码的代码示例: 但是,当我使用Eclipse时,我收到一条消息,提示它已过时,我想知道是否还有另一种方法可以在单击按钮时在CardLayout中显示不同的卡片?下面是我的CardLayout类的代码。如果代码的某些部分不正确,也可以提出建议。谢谢! 问题答案: 我看不到Java7 show(容器父代,字符串名称)或Java6 show(容器父代,字符串名称)已过时 如