无法使用SparkSQL从行大小>2GB的表中读取

常源

2023-03-14

我正在尝试使用SparkSQL将我的数据库导出到我的S3中的镶木地板格式。

我的一张表包含行大小

Spark似乎有一个限制：使用Avro/Parket的Spark作业中的最大行大小。但不确定是否是这样。

有解决方法吗？

共有1个答案

沃博裕

2023-03-14

spark.driver.maxResultSize的默认值是1g。如果遇到此问题，您可能需要将其设置得更高：

org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized
results of XXXX tasks (X.0 GB) is bigger than spark.driver.maxResultSize (X.0 GB)

参考

https://spark.apache.org/docs/2.4.8/configuration.html#application-属性

类似资料：

无法在java中读取SparkSQL中的文件

请帮帮我，我是一个完全的傻瓜，当涉及到火花和Haddop一般。我的代码如下所示：我的Spark集群作为一个集群部署在10.1.50.165中，运行RHEL6，当我运行这段简单的代码时，在尝试读取json文件时，我遇到了如下异常：
使用Java并发从大文件（2GB）读取并写入另一个文件

我有一个巨大的文件（2GB），其中只包含员工编号。我必须阅读此文件，获取员工号码并调用数据库以获取员工的工资，然后将其写入另一个文件中，并将员工姓名和工资作为其行。现在的问题是，通过直接读取这个巨大的文件通过简单的nio在java我的STS内存溢出或它需要4-5小时来完成整个读-取-写过程。所以我想用Java并发来拯救我。为此，我有一个实现Runnable的EmployeeDetails类，
Debezium无法捕捉大表大小的快照

我想我可能错过了一些配置，但我们正在尝试使用Debezium来从一个有大约800万条记录的表中快照所有行，一段时间后它就会停止。连接器配置为：连接器开始扫描行：然后过了一段时间，我们然后，扫描停止，我们多次尝试再次刷新提交偏移：一段时间后（大约9~10分钟），它似乎成功了，并开始再次扫描行。但是过了一段时间后，它再次失败，然后，没有完成所有记录，连接器将其状态更改为其中一个错误是我读
从UDF中的SparkSQL行中提取嵌套数组

我正在处理数据帧，需要提取数据。我有许多嵌套的级别，所以我使用分解和选择来创建第一个级别，但随后我对嵌套级别使用UDF。我有一个UDF，它取Root.Obj，这是一个数组，我希望它返回一个数组[MyObj] 我的输出类：简而言之，这是输入模式：我的自定义项：这是更复杂的IRL，因为我需要从其他地方检索值，并且有更多的嵌套数组。此外，Obj和FieldC的输入结构比这里复杂得多，我不能（或不
从图像相册中选择图像时，无法读取文件大小

在我的phonegap应用程序（android版本4.4.2）中，我需要选择图像形式sdcard。在这种情况下，我无法读取图像大小和名称。我的代码就像。在我的Android设备（v 4.4.2）专辑中显示“最近”，“驱动器”，“图像”，“图库”,...当从图库中选择图像时，只有图像大小是得到的。除了图库图像大小是无法得到.. 参考了这个，但没有获得成功 Cordova/PhoneGap照片文件大
通过SparkSQL读取嵌套JSON-[Analysis Exception]无法解析列

我有这样的JSON数据：从Spark读取数据后，我得到以下模式：现在，我想从中选择。但是当我尝试选择它时，我得到了。像这样：尽管如此，当我从df中仅选择children时，效果很好。我无法理解为什么它会出现异常，即使该列存在于数据帧中。感谢您的帮助！

无法使用SparkSQL从行大小>2GB的表中读取

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档