当前位置：首页 > 专题 >

《同花顺面试》专题

火花SASL不使用纱线在emr上工作
首先，我想说的是我看到的解决这个问题的唯一方法是：Spark 1.6.1 SASL。但是，在为spark和yarn认证添加配置时，仍然不起作用。下面是我在Amazon's EMR的一个yarn集群上使用spark-submit对spark的配置：注意，我用代码将spark.authenticate添加到了sparkContext的hadoop配置中，而不是core-site.xml（我假设我可以
为什么Gradle要花这么长时间建造？
我的Gradle构建需要1分钟到2分钟，我不确定发生了什么。在事件日志中，我大部分时间都只看到一个条目执行任务:[:app:GenerateDebugSources，:app:PrepareDebugunitTestDependencies，:app:MockableAndroidJar，:app:AssembleDebug] 我不知道这个任务在做什么，我检查了设置，希望这能有所改变，但我运气不
如何计算阿帕奇火花的平均值？
我处理了像这样存储的双精度列表：我想计算这个列表的平均值。根据文档，： MLlib的所有方法都使用Java友好类型，因此您可以像在Scala中一样导入和调用它们。唯一的警告是，这些方法采用Scala RDD对象，而Spark Java API使用单独的JavaRDD类。您可以通过对JavaRDD对象调用.RDD（）将JavaRDD转换为Scala RDD。在同一页面上，我看到以下代码：根据我
如何在火花中打开 TRACE 日志记录
我注意到在 Spark 中的规则探索器每次催化剂更改计划时都会执行跟踪日志： https://github . com/Apache/spark/blob/78801881 c 405 de 47 f 7 e 53 EEA 3 e 0420 DD 69593 DBD/SQL/catalyst/src/main/Scala/org/Apache/spark/SQL/catalyst/rules/ru
火花：HDFS块与集群核心与rdd分区
我对spark有疑问：HDFS块vs集群核心vs rdd分区。假设我正在尝试在HDFS中处理一个文件（例如块大小为64MB，文件为6400MB）。所以理想情况下它确实有100个分裂。我的集群总共有 200 个核心，我提交了包含 25 个执行程序的作业，每个执行程序有 4 个核心（意味着可以运行 100 个并行任务）。简而言之，我在rdd中默认有100个分区，100个内核将运行。这是一个好方
了解火花中的洗牌和重新分区
如果有人能用简单的术语回答这些与火花洗牌相关的问题，我将不胜感激。在spark中，当加载一个数据集时，我们指定分区的数量，这表示输入数据（RDD）应该被划分为多少个块，并且根据分区的数量启动相等数量的任务（如果假设错误，请纠正我）。对于工作节点中的X个核心数。一次运行相应的X个任务。沿着类似的思路，这里有几个问题。因为，所有byKey操作以及联合、重新分区、连接和共组都会导致数据混乱。 >
两个表连接时的火花性能问题
我有两个大的Hive表，我想用spark.sql将它们连接起来。表格采用snappy格式，在Hive中存储为拼花文件。我想加入它们并对某些列进行一些聚合，假设计算所有行和一列的平均值（例如 doubleColumn），同时使用两个条件进行过滤（假设在 col1，col2 上）。注意：我在一台机器上进行测试安装（虽然功能非常强大）。我希望集群中的性能可能会有所不同。我的第一个尝试是使用spar
配置单元分区表上的火花行为
更新：恰恰相反。实际上，我们的表非常大，就像3个TB有2000个分区。3TB/256MB实际上会达到11720，但我们的分区数量与表的物理分区数量完全相同。我只想了解任务是如何在数据量上生成的。
如何在雪花中比较数字字符串
null null 字符串比较给出错误的输出。我无法使用cast或to_number函数将其转换为number，因为字符串值大于38位。
Talend中使用雪花组件的几个问题
为了将数据从Ms sql Server2008传输到Snowflake，我使用了talend，但每次我都错误为如果我在没有双引号的情况下手动执行相同的查询，它的工作很好，你能让我们知道这个问题的解决方案吗 talend在snowflake中执行的查询供参考
如何启用Kafka生产者指标在火花？
我们在Spark 2.1中使用Kafka0.10，我发现我们的制作人发布消息总是很慢。在给Spark executors提供8个内核后，我只能达到1k/s左右，而另一篇帖子则说它们很容易达到百万/秒。我试着调一下玲珑的曲调。ms和batch。大小来找出答案。然而我发现了玲儿。ms=0对我和这批人来说似乎是最佳选择。大小没有多大影响。我每次迭代发送160k个事件。看来我得让Kafka制作人知道到底发
火花流式阅读不是从Kafka的主题
我已经在Ubuntu上设置了Kafka和Spark。我正在尝试阅读Kafka的主题通过火花流使用pyspark（Jupyter笔记本）。Spark既没有读取数据，也没有抛出任何错误。 null Kafka生产者：bin/kafka-console-producer.sh--broker-list localhost:9092--topic new_topic Kafka使用者：bin/kafka-
将spark数据帧写入单个拼花文件
我试图做一些非常简单的事情，我有一些非常愚蠢的挣扎。我想这一定与对火花的基本误解有关。我非常感谢任何帮助或解释。我有一张非常大的桌子（~3 TB，~300毫米行，25k个分区），在s3中保存为拼花地板，我想给一些人一个很小的拼花文件样本。不幸的是，这要花很长时间才能完成，我不明白为什么。我尝试了以下方法：然后当这不起作用时，我尝试了这个，我认为应该是一样的，但我不确定。（我添加了，以尝试调试。
火花驱动器监视器工作不可靠
null
火花重新分区不均匀分布记录

首页

85

86

87

88

89

90

91

92

93

尾页

最新发布

长沙银行货拉拉应用运维实习拼多多面试华为运营经理面经（我跑了）我的面试经历

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

echarts - 如何用echart做一个有厚度的、正面视图的饼图呢？前端 - 求助，如何解决vite.config.js代理配置失效问题?前端 - Ant Design Vue Tree组件拖拽功能中dropToGap和dropPosition的含义是什么？php实现图片序列合成视频？javascript - 为什么节流函数中的定时器ID没有按预期变化？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Script.NET Deis MultiTablesView MiniExcel JasperServer HeyUI Admin jQuery slimscroll maple-bbs

文档资料

Serverless 应用开发指南 Vim 入门教程 AngularJS 中文教程下一代 Web 框架 Koa 快学 Scala 读书笔记