当前位置: 首页 > 知识库问答 >
问题:

无法使用SparkSQL从行大小>2GB的表中读取

常源
2023-03-14

我正在尝试使用SparkSQL将我的数据库导出到我的S3中的镶木地板格式。

我的一张表包含行大小

Spark似乎有一个限制:使用Avro/Parket的Spark作业中的最大行大小。但不确定是否是这样。

有解决方法吗?

共有1个答案

沃博裕
2023-03-14

spark.driver.maxResultSize的默认值是1g。如果遇到此问题,您可能需要将其设置得更高:

org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized
results of XXXX tasks (X.0 GB) is bigger than spark.driver.maxResultSize (X.0 GB)

参考

  • https://spark.apache.org/docs/2.4.8/configuration.html#application-属性
 类似资料:
  • 请帮帮我,我是一个完全的傻瓜,当涉及到火花和Haddop一般。我的代码如下所示: 我的Spark集群作为一个集群部署在10.1.50.165中,运行RHEL6,当我运行这段简单的代码时,在尝试读取json文件时,我遇到了如下异常:

  • 我有一个巨大的文件(2GB),其中只包含员工编号。我必须阅读此文件,获取员工号码并调用数据库以获取员工的工资,然后将其写入另一个文件中,并将员工姓名和工资作为其行。 现在的问题是,通过直接读取这个巨大的文件通过简单的nio在java我的STS内存溢出或它需要4-5小时来完成整个读-取-写过程。 所以我想用Java并发来拯救我。 为此,我有一个实现Runnable的EmployeeDetails类,

  • 我想我可能错过了一些配置,但我们正在尝试使用Debezium来从一个有大约800万条记录的表中快照所有行,一段时间后它就会停止。 连接器配置为: 连接器开始扫描行: 然后过了一段时间,我们 然后,扫描停止,我们多次尝试再次刷新提交偏移: 一段时间后(大约9~10分钟),它似乎成功了,并开始再次扫描行。但是过了一段时间后,它再次失败,然后,没有完成所有记录,连接器将其状态更改为 其中一个错误是 我读

  • 我正在处理数据帧,需要提取数据。我有许多嵌套的级别,所以我使用分解和选择来创建第一个级别,但随后我对嵌套级别使用UDF。 我有一个UDF,它取Root.Obj,这是一个数组,我希望它返回一个数组[MyObj] 我的输出类: 简而言之,这是输入模式: 我的自定义项: 这是更复杂的IRL,因为我需要从其他地方检索值,并且有更多的嵌套数组。此外,Obj和FieldC的输入结构比这里复杂得多,我不能(或不

  • 在我的phonegap应用程序(android版本4.4.2)中,我需要选择图像形式sdcard。在这种情况下,我无法读取图像大小和名称。我的代码就像。 在我的Android设备(v 4.4.2)专辑中显示“最近”,“驱动器”,“图像”,“图库”,...当从图库中选择图像时,只有图像大小是得到的。除了图库图像大小是无法得到.. 参考了这个,但没有获得成功 Cordova/PhoneGap照片文件大

  • 我有这样的JSON数据: 从Spark读取数据后,我得到以下模式: 现在,我想从中选择。但是当我尝试选择它时,我得到了。像这样: 尽管如此,当我从df中仅选择children时,效果很好。 我无法理解为什么它会出现异常,即使该列存在于数据帧中。 感谢您的帮助!