问题：

spark可伸缩性：我做错了什么？

葛桐

2023-03-14

我正在用spark处理数据，它可以处理一天的数据(40G)，但用OOM处理一周的数据失败了：

import pyspark
import datetime
import operator
sc = pyspark.SparkContext()
sqc = pyspark.sql.SQLContext(sc)
sc.union([sqc.parquetFile(hour.strftime('.....'))
          .map(lambda row:(row.id, row.foo))
          for hour in myrange(beg,end,datetime.timedelta(0,3600))]) \
  .reduceByKey(operator.add).saveAsTextFile("myoutput")

null

共有1个答案

司英飙

2023-03-14

原来问题不是出在火花上，而是出在纱线上。解决方案是用

spark-submit --conf spark.yarn.executor.memoryOverhead=1000

（或修改纱线配置）。

类似资料：

Jar可执行我做错了什么？

我正在使用EclipseIDE编程。在完成有关Apache POI的教程后： https://www.youtube.com/watch?v=RsrF2Ku7ad4 我通过eclipse和以下链接创建了一个可执行jar：http://help.eclipse.org/mars/index.jsp?topic=/org.eclipse.jdt.doc.user/tasks/tasks-37.htm
java.lang.NullPointerException我做错了什么？

我正在做一个项目，我的意图是运行一个玉米作业，并发送邮件给我的朋友，祝他们生日，我能够从MySQL DB获取电子邮件，并将其与当前日期进行比较，但当涉及到发送电子邮件时，我得到NullPointerException。我确信应用程序属性没有问题，我在其他项目中也使用了它们，它们的功能正常这是我得到以下信息的错误
NodeJS/ERP-性能/可伸缩性

在我工作的公司，我们计划更新和重新编码我们12年的在线销售网络应用程序。我们的客流量有点高；每天超过10万个销售订单意味着在web应用程序上每天至少有100万个交互。我想用NodeJS作为web服务器，集成到我们的ERP系统中，运行在Oracle Exadata数据库上。我的问题是：性能对我们来说是非常非常关键的，我不确定NodeJS的可伸缩性是否足以应付如此高的事务数。我在网上读了一些博
弹性伸缩

ScalingEntry SPI 名称详细说明 ScalingEntry 弹性伸缩入口已知实现类详细说明 MySQLScalingEntry 基于 MySQL 的弹性伸缩入口 PostgreSQLScalingEntry 基于 PostgreSQL 的弹性伸缩入口
弹性伸缩

背景 Apache ShardingSphere 提供了数据分片的能力，可以将数据分散到不同的数据库节点上，提升整体处理能力。但对于使用单数据库运行的系统来说，如何安全简单地将数据迁移至水平分片的数据库上，一直以来都是一个迫切的需求；同时，对于已经使用了 Apache ShardingSphere 的用户来说，随着业务规模的快速变化，也可能需要对现有的分片集群进行弹性扩容或缩容。简介 Sha
MySQL错误1215，我做错了什么？

11:15:57创建表如果不存在tblcompany（companyid INT（11）无符号NOT NULL,custfirst VARCHAR（50）,custlast VARCHAR（50）,company VARCHAR（50）,custphone VARCHAR（50）, custemail VARCHAR（50）,主键（companyid）,索引（companyid）,约束外键（com

spark可伸缩性：我做错了什么？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档