问题：

将Pandas数据帧转换为Spark数据帧时，是否可以将float转换为long？

沈健

2023-03-14

我有以下两个场景共享的前奏代码：

from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pyspark.sql.functions as F
    
import pandas as pd
import numpy as np
    
spark = SparkSession.builder.getOrCreate()

df = pd.DataFrame({"col1": [1, 2, 3], "col2": [22.0, 88.0, np.nan]})

现在，我想将df转换为pyspark数据帧（sdf）。在创建sdf的过程中，当我试图通过模式将“col2”隐式地“转换”到长型中时，失败了：

schema = StructType([StructField("col1", LongType()), StructField("col2", LongType())])
sdf = spark.createDataFrame(df[schema.fieldNames()], schema=schema)

错误：

类型错误：字段col2：LongType无法接受类型中的对象22.0

但如果我运行以下代码段，它就可以正常工作：

schema_2 = StructType(
    [StructField("col1", LongType()), StructField("col2", FloatType())]
)
sdf = spark.createDataFrame(df[schema.fieldNames()], schema=schema_2)
cast_sdf = sdf.withColumn("col2", F.col("col2").cast(LongType()))
cast_sdf.show()

与输出：

+----+----+                                                                     
|col1|col2|
+----+----+
|   1|  22|
|   2|  88|
|   3|   0|
+----+----+

共有1个答案

东门理

2023-03-14

将我的评论转化为答案。

这实际上就是Spark处理模式的方式。这并不特定于熊猫数据帧转换为pyspark数据帧。将createDataframe方法与元组列表一起使用时，会出现相同的错误：

import numpy as np

schema = StructType([StructField("col1", LongType()), StructField("col2", LongType())])
df = spark.createDataFrame([(1, 22.0), (2, 88.0), (3, np.nan)], schema)

# TypeError: field col2: LongType can not accept object 22.0 in type <class 'float'>

当您传递模式时，这也是CSV等数据源的行为（尽管在读取CSV时，模式PERMISSIVE不会失败，但值被加载为null）。因为模式不会自动转换类型，它只是告诉Spark行中的每列应该有哪个数据类型。

因此，在使用模式时，必须传递与指定类型匹配的数据，或者使用不会失败的StringType，然后使用显式转换将列转换为所需的类型。

schema = StructType([StructField("col1", LongType()), StructField("col2", StringType())])

df = spark.createDataFrame([(1, 22.0), (2, 88.0), (3, np.nan)], schema)

df = df.withColumn("col2", F.col("col2").cast("long"))
df.show()

#+----+----+
#|col1|col2|
#+----+----+
#|   1|  22|
#|   2|  88|
#|   3|null|
#+----+----+

类似资料：

将Pandas数据帧转换为Spark数据帧错误

我正在尝试将熊猫DF转换为Spark one。测向头：代码：我得到了一个错误：
Spark:将RDD[String]转换为数据帧[duplicate]

我正在尝试将RDD[String]转换为数据框。字符串是逗号分隔的，所以我希望逗号之间的每个值都有一列。为此，我尝试了以下步骤：但我明白了：这不是这篇文章的副本（如何将rdd对象转换为火花中的数据帧），因为我要求RDD[字符串]而不是RDD[行]。而且它也不是火花加载CSV文件作为DataFrame的副本？因为这个问题不是关于将CSV文件读取为DataFrame。
R将数据帧转换为JSON

问题内容：我有一个要转换为json格式的数据框：我的数据帧称为res1：当我做：我得到这个：我需要这个json输出像这样，有什么想法吗？问题答案：怎么样通过使用，我们实际上将大的data.frame分解为每一行的单独的data.frame。通过从结果列表中删除名称，该函数将结果包装在数组中，而不是命名对象中。
在Spark/Scala中将RDD转换为数据帧

RDD是以数组[数组[字符串]的格式创建的，具有以下值：我想用模式创建一个数据帧：接下来的步骤：给出以下错误：
无法将RDD转换为数据帧

我正在尝试将RDD转换为数据帧，但失败并出现错误： org.apache.spark.SparkException：由于阶段失败而中止作业：阶段2.0中的任务0失败4次，最近一次失败：阶段2.0中丢失任务0.3（TID 11，10.139.64.5，执行器0）这是我的代码：
将dict转换为数据帧？[副本]

如何将此dict转换为数据帧

将Pandas数据帧转换为Spark数据帧时，是否可以将float转换为long？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档