当前位置：首页 > 专题 >

《烽火》专题

火花数据帧按平均值和中值分组不完整
我使用Spark sql dataframes执行groupby操作，然后计算每组数据的平均值和中值。原始数据量约为1 TB。当我运行该查询时，我的工作被卡住，无法完成。如何调试该问题？是否存在导致groupby（）卡滞的按键不平衡？
是否存在火花默认值。与pip一起安装pyspark时的conf
我用pip安装了pyspark。我在jupyter笔记本中编码。一切正常，但我在导出大型。同样在spark文档中，它说注意：在客户端模式下，不能直接在应用程序中通过SparkConf设置此配置，因为此时驱动程序JVM已经启动。请通过--driver memory命令行选项或在默认属性文件中设置此配置但是用安装时恐怕没有这样的文件。我对吗？我该如何解决这个问题？谢啦！
并行化步骤中的火花内存错误
我们正在使用最新的Spark构建。我们有一个非常大的元组列表（8亿）作为输入。我们使用具有主节点和多个工作节点的docker容器运行Pyspark程序。驱动程序用于运行程序并连接到主机。运行程序时，在sc.parallelize（tuplelist）行，程序要么退出并显示java堆错误消息，要么完全退出而不出错。我们不使用任何Hadoop HDFS层，也不使用纱线。到目前为止，我们已经考虑了这
火花熄灭堆内存配置和钨丝
我认为，随着项目的整合，TUNGSTEN会自动使用堆外内存。 spark.memory.offheap.size和spark.memory.offheap.enabled?需要在此处手动指定钨的堆外内存量吗？
CountVectorizerModel错误与apache火花-JavaAPI
我正在使用Apache Spark的示例代码follow文档：https://spark.apache.org/docs/latest/ml-features.html#countvectorizer 但我收到错误消息： 22年10月15日23:04:20信息BlockManagerMaster：使用703.6 MB RAM注册block manager localhost:56882，Block
火花流中的状态函数问题
我尝试使用Spark Streaming并希望有一个全局状态对象，可以在每个批处理后更新。据我所知，至少有两种选择适合我：1。使用，其中Spark将在处理每个批处理后自动更新状态2。使用函数，在这里我必须自己调用更新类型javapairdStream 中的方法updateStateByKey(Function2 ,optional ,optional >)不适用于参数（new function2
Kafka:=线程“main”组织中的异常。阿帕奇。火花sql。流动。StreamingQueryException:找不到连接的条目
同时运行Kafka代码 1）错误流执行：查询[id=c6426655-446f-4306-91ba-d78e68e05c15， runId=420382c1-8558-45a1-b26d-f6299044fa04]终止与错误java.lang.ExceptionIn初始azerError 2）线程“针对[id=c6426655-446f-4306-91ba-d78e68e05c15，runId=
我得到一个java.lang.NoClassDefFoundError当我试图运行单词计数的例子在火花
我正在尝试运行Spark网站上的单词计数示例(http://spark.apache.org/docs/latest/quick-start.html)在Scala Spark中，但是当我尝试Spark提交时，我得到了一个例外：java。lang.NoClassDefFoundError:scala/runtime/LambdaDeserialize Spark版本为2.0。1，Scala版本是2
异常线程"main"java.lang.NoClassDefFoundError： org/apache/火花/rdd/RDD
请注意，我比程序员更擅长数据挖掘。我试图运行作者Sandy Ryza的书《Spark的高级分析》中的示例（这些代码示例可以从https://github.com/sryza/aas下载），我遇到了以下问题。当我打开这个项目在Intelij的想法，并试图运行它，我得到错误"异常线程"主"java.lang.NoClassDefFoundError： org/apache/火花/rdd/RDD"有人知
集群模式下的火花1.6.0投掷类铸异常在本地模式下运行良好
我在集群模式和本地模式中尝试火花上的简单字数示例它在本地模式中工作良好，但在集群模式中抛出类铸造异常这里是代码片段... 针对scala 2.11构建环境Spark 1.6。7. 例外情况：火花壳输出：
为什么从firebase控制台发送的通知能够绕过android后台任务限制？-反应-原生-火基-
我试图找到一种方法，向限制后台应用活动的android设备发送通知，这些设备大多是中国品牌，比如华为和OPPO。奇怪的是，我只能接收从firebase控制台发送的通知。
Symfony2安全不同的防火墙不能正确重定向到登录
我根据用户类型配置了3个安全区域：管理员、教师和学生。当我访问 /admin时，我被正确地重定向到 /admin/login.但是当我访问 /teacher或 /student重定向失败，尽管我被重定向到 /teacher/login或 /student/login我得到这个错误：页面重定向不正确Firefox检测到服务器正在以一种永远无法完成的方式重定向对此地址的请求。这是我的安全。yml：
按顺序执行火花流动作
我在火花流应用程序中从kafka读取数据并执行两个操作将dstream插入hbase表A 更新另一个hbase表B 我想确保对于dstream中的每个rdd，插入hbase表A将在对hbase表B进行更新操作之前发生（每个rdd依次发生上述两个动作）如何在火花流应用中实现这一点
从Kafka读取时如何异步制作火花流
我有一个Kafka分区，和一个parkStreaming应用程序。一个服务器有10个内核。当火花流从Kafka收到一条消息时，后续过程将需要5秒钟（这是我的代码）。所以我发现火花流读取Kafka消息很慢，我猜当火花读出一条消息时，它会等到消息被处理，所以读取和处理是同步的。我想知道我可以异步读取火花吗？这样从Kafka读取的数据就不会被后续处理拖动。然后火花会很快消耗来自Kafka的数据。然后我可
从Spark到HBase:org写作。阿帕奇。火花SparkException:任务不可序列化
我在我大学的热图项目中，我们必须从txt文件（坐标、高度）中获取一些数据（212Go），然后将其放入HBase以在带有Express的Web客户端上检索它。我练习使用144Mo文件，这是工作：但是我现在使用212Go文件，我有一些内存错误，我猜收集方法会收集内存中的所有数据，所以212Go太多了。所以现在我在尝试这个：我得到了“org.apache.spark.SparkException

首页

20

21

22

23

24

25

26

27

28

尾页

最新发布

天翼云-技术支持一面我的面试经历 Minimax算法研发实习一面滴滴三面半凉经百度广告算法策略实习一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

视频处理 - 如何使用VLC录制RTMP实时流并分块保存文件？javascript - vue3怎么遍历一个组件中的所有项？mysql添加联合索引之后排序发生变化？python - 求助：为什么whl包在容器环境安装失败？flutter - 如何在Flutter中实现隐私合规的权限调用流程？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Apprise RubyCritic Sonar Runner how-to-npm DiskGenius cmwrap Evernote SDK for iOS Easy-Monitor

文档资料

一个月纯 JS 挑战中文指南 Windows App 应用开发教程 IIS 管理控制器帮助手册 v6.0 Twisted 与异步编程入门 Vuetify 中文文档