当前位置：首页 > 面试题库 >

如何从pyspark中的数组中提取元素

曹自怡

2023-03-14

问题内容：

我有以下类型的数据框

col1|col2|col3|col4
xxxx|yyyy|zzzz|[1111],[2222]

我希望我的输出遵循以下类型

col1|col2|col3|col4|col5
xxxx|yyyy|zzzz|1111|2222

我的col4是一个数组，我想将其转换为单独的列。需要做什么？

我看到了很多关于flatmap的答案，但是它们正在增加一行，我只想将元组放在另一列中但在同一行中

以下是我的实际架构：

root
 |-- PRIVATE_IP: string (nullable = true)
 |-- PRIVATE_PORT: integer (nullable = true)
 |-- DESTINATION_IP: string (nullable = true)
 |-- DESTINATION_PORT: integer (nullable = true)
 |-- collect_set(TIMESTAMP): array (nullable = true)
 |    |-- element: string (containsNull = true)

也可以请一些人帮我解释一下数据帧和RDD

问题答案：

创建样本数据：

from pyspark.sql import Row
x = [Row(col1="xx", col2="yy", col3="zz", col4=[123,234])]
rdd = sc.parallelize([Row(col1="xx", col2="yy", col3="zz", col4=[123,234])])
df = spark.createDataFrame(rdd)
df.show()
#+----+----+----+----------+
#|col1|col2|col3|      col4|
#+----+----+----+----------+
#|  xx|  yy|  zz|[123, 234]|
#+----+----+----+----------+

用于getItem从数组列中提取元素，按实际情况替换col4为collect_set(TIMESTAMP)：

df = df.withColumn("col5", df["col4"].getItem(1)).withColumn("col4", df["col4"].getItem(0))
df.show()
#+----+----+----+----+----+
#|col1|col2|col3|col4|col5|
#+----+----+----+----+----+
#|  xx|  yy|  zz| 123| 234|
#+----+----+----+----+----+

类似资料：

如何从Javascript中的数组数组中提取值？

问题内容：我有一个变量，如下所示：该变量中包含许多城镇数据。如何有效地从数据中提取第三个元素？我，下面会是什么？如果我想将两个值都存储在数组中怎么办？那是我是Java的新手。我希望有一种不使用for循环的方法。问题答案：在较新的浏览器上，您可以使用，否则可以避免使用循环。但是for循环更兼容。
如何从水豚元素中提取硒元素？

比起Ruby、Capybara和SitePrism，我更熟悉Java和Selenium，所以如果这个问题太多，我深表歉意。 Selenium有一个非常有用的类来管理Select标签，Selenium::WebDriver::Support::Select，它可以通过传递代表select的Selenium Element（Selenium::WebDriver::Element）来创建。我想得到一个
如何从数组中获取前N个元素

问题内容：我正在使用Javascript（ES6）/ FaceBook进行反应，并尝试获取大小变化的数组的前3个元素。我想做相当于Linq take（n）。在我的Jsx文件中，我有以下内容：然后得到我尝试的前三个项目这不起作用，因为地图没有设置功能。你能帮忙吗？问题答案：我相信您正在寻找的是：
如何从数组中获取元素Arraylist？[重复]

在这种类型的数据结构中，我可以借助方法获取ArrayList的元素。有没有办法返回字符串数组的某个元素？（例如，当我说时，它返回，但我想返回）
从numpy数组中提取不在索引列表中的元素

问题内容：我想做一些类似于此处NumPy数组的操作，更改不在索引列表中的值，但不完全相同。考虑一个数组：我知道我可以通过索引列表访问其元素，例如：但是我还需要访问那些不在列表中的元素。天真地，这是：正确的方法是什么？问题答案： In [170]: a = np.array([0.2, 5.6, 88, 12, 1.3, 6, 8.9]) In [171]: idx=[1,2,5] I
从pyspark中的dataframe arraytype列获取“name”元素

我已经生成了＜code＞pyspark.sql.dataframe。DataFrame带有列名称cast和score。但是，我想在cast列中保留唯一的名字，而不是与它们相关联的id，与_score列并排。列中数据类型的结构如下所示有人可以帮助我如何提取只有演员姓名和分数列的数据。提前致谢

相关阅读

从JSON数组中提取数据如何从数组中随机获取n个元素如何从数组中删除元素如何从LocalDate和LocalDateTime中提取纪元？如何从数组中获取子数组？

相关文章

NumPy数组元素增删改查对数组元素进行排序 Java数组查找指定元素 JavaTuples 元组检查元素 Java求数组元素的最大和最小值

相关问答

如何从json_encode数组响应中获取元素-Codeigniter[duplicate]如何在java中从xsd appinfo元素中提取内容如何从这个JSON数组中提取一个值？从Json对象中提取数组在 PowerShell 中，如何从记录数组中提取键值对？

相关工具

PDManer[元数建模]下拉刷新提示微博数目开源数据访问组件DAC 元素周期表并元

相关文档

PySpark 中文教程 Ruby 中的元编程 Python 取证中文教程 Element UI 组件中文文档 MOYE 知心组件库中文文档