问题：

`火花。调试。MaxToString字段`

龚志

2023-03-14

Spark v2.4

<代码>火花。sql。调试。此处定义了MaxToString字段https://github.com/apache/spark/blob/master/sql/catalyst/src/main/scala/org/apache/spark/sql/internal/SQLConf.scala

不知何故，它变成了spark.debug.maxToStringFields在https://github.com/apache/spark/blob/master/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/util/package.scala#L178

事实上，火花。sql。调试。MaxToString字段在spark时不工作。调试。MaxToString字段有效

spark = SparkSession \
    .builder \
    .master('local[15]') \
    .appName('Notebook') \
    .config('spark.sql.debug.maxToStringFields', 2000) \
    .config('spark.debug.maxToStringFields', 2000) \
    .getOrCreate()

df = spark.createDataFrame(spark.range(1000).rdd.map(lambda x: range(100)))
df.repartition(1).write.mode('overwrite').parquet('test.parquet')

df = spark.read.parquet('test.parquet')
df.select('*').explain()


 FileScan parquet [_1#0L,_2#1L,_3#2L,_4#3L,_5#4L,_6#5L,_7#6L,_8#7L,_9#8L,_10#9L,_11#10L,_12#11L,_13#12L,_14#13L,_15#14L,_16#15L,_17#16L,_18#17L,_19#18L,_20#19L,_21#20L,_22#21L,_23#22L,_24#23L,_25#24L,_26#25L,_27#26L,_28#27L,_29#28L,_30#29L,_31#30L,_32#31L,_33#32L,_34#33L,_35#34L,_36#35L,_37#36L,_38#37L,_39#38L,_40#39L,_41#40L,_42#41L,_43#42L,_44#43L,_45#44L,_46#45L,_47#46L,_48#47L,_49#48L,_50#49L,_51#50L,_52#51L,_53#52L,_54#53L,_55#54L,_56#55L,_57#56L,_58#57L,_59#58L,_60#59L,_61#60L,_62#61L,_63#62L,_64#63L,_65#64L,_66#65L,_67#66L,_68#67L,_69#68L,_70#69L,_71#70L,_72#71L,_73#72L,_74#73L,_75#74L,_76#75L,_77#76L,_78#77L,_79#78L,_80#79L,_81#80L,_82#81L,_83#82L,_84#83L,_85#84L,_86#85L,_87#86L,_88#87L,_89#88L,_90#89L,_91#90L,_92#91L,_93#92L,_94#93L,_95#94L,_96#95L,_97#96L,_98#97L,_99#98L,_100#99L]

如果<代码>。config（'spark.debug.maxToStringFields'，2000）\被注释掉，然后它会显示出来。。。76个以上字段

spark.sql.debug.maxToStringFields有什么用？

共有1个答案

韩华美

2023-03-14

根据https://issues.apache.org/jira/browse/SPARK-26066和https://github.com/apache/spark/pull/23039

<代码>火花。sql。调试。MaxToString字段取代spark。调试。v3.0中的MaxToString字段

类似资料：

火花速度试验

我通过连接到一个有500'000'000行和14列的数据库。下面是使用的代码：上面的代码花了9秒来显示DB的前20行。后来，我创建了一个SQL临时视图上面的代码用了1355.79秒（大约23分钟）。这样可以吗？这似乎是一个大量的时间。最后，我尝试计算数据库的行数用了2848.95秒（约48分钟）。是我做错了什么，还是这些数额是标准的？
火花列明智字数

我们正试图在spark中生成数据集的逐列统计数据。除了使用统计库中的summary函数之外。我们使用以下程序： > 我们确定具有字符串值的列为整个数据集生成键值对，使用列号作为键，使用列的值作为值生成新的格式映射（K，V）- 然后我们使用reduceByKey来找到所有列中所有唯一值的总和。我们缓存这个输出以减少进一步的计算时间。在下一步中，我们使用for循环遍历列，以查找所有列的统计信息
火花：多个火花-并行提交

一些脚本在工作时什么也不做，当我手动运行它们时，其中一个失败了，出现了以下消息：错误SparkUI：未能绑定SparkUI java.net.bindexception：地址已在使用：服务“SparkUI”在重试16次后失败！所以我想知道是否有一种特定的方法来并行运行脚本？
火花数仓实习生笔试

1、返回每个部门工资排名前二的员工() A、使用ROW NUMBER()函数并通过子查询过滤 B、使用RANK()函数并通过子查询过滤RANK <2 C、使用DENSE RANK()函数并通过子查询过滤RANK <=2 D、使用NTILE(2)函数 2、SQL排序时希望特定某个值排在最后(如null、Unknow等) A、ORDER BY column name ASC B、ORDER BY co
RDD火花质疑

我想了解以下关于火花概念的RDD的事情。 > RDD仅仅是从HDFS存储中复制某个节点RAM中的所需数据以加快执行的概念吗？如果一个文件在集群中被拆分，那么对于单个flie来说，RDD从其他节点带来所有所需的数据？如果第二点是正确的，那么它如何决定它必须执行哪个节点的JVM？数据局部性在这里是如何工作的？
火花行到JSON

我想从Spark v.1.6（使用scala）数据帧创建一个JSON。我知道有一个简单的解决方案，就是做。但是，我的问题看起来有点不同。例如，考虑具有以下列的数据帧：我想在最后有一个数据帧其中C是包含、、的JSON。不幸的是，我在编译时不知道数据框是什么样子的（除了始终“固定”的列和）。至于我需要这个的原因：我使用Protobuf发送结果。不幸的是，我的数据帧有时有比预期更多的列，我仍然会

`火花。调试。MaxToString字段`

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档