问题：

如何在Pyspark中拆除CLOB？

冯流觞

2023-03-14

我从Oracle中sqooped数据，该表有一个带有CLOB DataType的列，我将其设置为字符串以获得HDFS中的数据。现在，我必须拆除CLOB数据，并在Hive中为其创建一个单独的表。

我有txt格式的HDFS文件。我可以分离CLOB数据，并希望为CLOB制作DataFrame

[name] Bob [Age] 21 [City] London [work] No,
[name] Steve [Age] 51 [City] London [work] Yes,
.....
around a million rows like this

sc.setLogLevel("WARN")
log_txt=sc.textFile("/path/to/data/sample_data.txt")
header = log_txt.first()

log_txt = log_txt.filter(lambda line: line != header)
log_txt.take(10)
  [u'0\\tdog\\t20160906182001\\tgoogle.com', u'1\\tcat\\t20151231120504\\tgoogle.com']

temp_var = log_txt.map(lambda k: k.split("\\t"))

log_df=temp_var.toDF(header.split("\\t"))

log_df = log_df.withColumn("field1Int", log_df["field1"].cast(IntegerType()))
log_df = log_df.withColumn("field3TimeStamp", log_df["field1"].cast(TimestampType()))

log_df.schema
StructType(List(StructField(field1,StringType,true),StructField(field2,StringType,true),StructField(field3,StringType,true),StructField(field4,StringType,true),StructField(field1Int,IntegerType,true),StructField(field3TimeStamp,TimestampType,true)))

拆解后，我希望该表具有如下列：

+---------+---------------+----------+-----+
|Name     |Age            | City     | Work|
+---------+---------------+----------+-----+
|      Bob|           21  |London    | No  |
|    Steve|           51  |London    |Yes  |
+---------+---------------+----------+-----+

如有任何帮助，不胜感激。

共有1个答案

万选

2023-03-14

在这里：

import re
from pyspark.sql import Row

rdd = sc.parallelize(["[name] Bob [Age] 21 [City] London [work] No",
                      "[name] Steve [Age] 51 [City] London [work] Yes",
                      "[name] Steve [Age] [City] London [work] Yes"])

def clob_to_table(line):
    m = re.search(r"\[name\](.*)?\[Age\](.*)?\[City\](.*)?\[work\](.*)?", line)
    return Row(name=m.group(1), age=m.group(2), city=m.group(3), work=m.group(4))

rdd = rdd.map(clob_to_table)

df = spark.createDataFrame(rdd)
df.show()

+----+--------+-------+----+
| age|    city|   name|work|
+----+--------+-------+----+
| 21 | London |   Bob |  No|
| 51 | London | Steve | Yes|
|    | London | Steve | Yes
+----+--------+-------+----+

类似资料：

如何在Pyspark中将列表拆分为多列？

我有: 我想要：似乎在scala中我可以写:< code>df.select($"value。_1 "，$ "值。_2 "，$ "值。_3")，但这在python中是不可能的。那么有没有好的办法呢？
如何删除pyspark dataframe中的列

有两个，我想删除一个。我该怎么办？
如何在PySpark的Dataframe中用逗号分隔值拆分一列？

我有一个PySpark数据帧，其中一列包含逗号分隔的值。该列包含的值的数量是固定的（例如4）。示例：在这里，我想将col2拆分为4个单独的列，如下所示：如何做到这一点？
PySpark：如何将列拆分为3列[重复]

我有一个火花数据框如下，并希望分裂成3的空间列。下面是预期的结果。第一项留在text1列，第二项转到text2，其余的都转到text3(如果有)。原始列值可能包含空记录或带有任意数量分隔符的值，分隔符是空格。提前感谢！
如何在pyspark中获取Python库？

问题内容：我想在pyspark中使用matplotlib.bblpath或shapely.geometry库。当我尝试导入其中任何一个时，出现以下错误：我知道该模块不存在，但是如何将这些软件包带到我的pyspark库中？问题答案：在Spark上下文中，尝试使用：，引用文档：为将来要在此SparkContext上执行的所有任务添加.py或.zip依赖项。传递的路径可以是本地文件，HDF
如何在PySpark DataFrame中删除具有空值的所有列？

问题内容：我有一个很大的数据集，我想删除包含值的列并返回一个新的数据框。我怎样才能做到这一点？以下内容仅删除包含的单个列或行。例如在上述情况下，它将丢弃整个列，因为其值之一为空。问题答案：这是删除所有具有NULL值的所有列的一种可能的方法，以获取每列NULL值计数代码的源代码。之前：后：希望这可以帮助！

如何在Pyspark中拆除CLOB？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档