当前位置：首页 > 专题 >

《同花顺》专题

读Kafka的书，写拼花地板中的hdfs
我是大数据生态系统的新手，有点起步。我读过几篇关于使用spark流媒体阅读Kafka主题的文章，但我想知道是否可以使用spark作业而不是流媒体阅读Kafka主题？如果是的话，你们能帮我指出一些可以让我开始学习的文章或代码片段吗。问题的第二部分是以拼花格式向hdfs写信。一旦我读了Kafka的书，我想我会有一个rdd。将此rdd转换为数据帧，然后将数据帧写入拼花文件。这是正确的方法吗。感谢您
纱线持续灭火花EMR应用母版
我正在EMR EMR-4.3.0上运行一个spark应用程序，有1个主机和4个节点它们每一个都有5GB内存和2个核心。最后Yarn杀死了应用程序主人错误ApplicationMaster：接收信号15:SIGTERM 1）我是否可以进一步改进num-executors和executor-core的spark-submit选项。
火花加载CSV文件作为数据帧？
我想在spark中读取一个CSV，将其转换为DataFrame，并使用将其存储在HDFS中在Apache Spark中将CSV文件加载为DataFrame的正确命令是什么？
火花运行错误java.lang.NoClassDefFoundError： org/codehaus/jackson/annotate/JsonClass
自从有人提到Spark-jackson冲突问题以来，我使用mvn版本重建了Spark：使用最新版本-Dincludes=org。科德豪斯。jackson:jackson core asl mvn版本：使用最新版本-Dincludes=org。科德豪斯。jackson：jackson mapper asl 因此，JAR已更新为1.9。但我仍然有错误
禁用茉莉花测试的引导转换
我正试图写一个Jasmine测试来覆盖一个Twitter Boostrap模态对话框。当调试器行被注释掉时，测试失败。当调试器暂停处理并且我继续时，它通过。我认为引导模式的转换导致了这个问题，因为在我进行expect调用时，模式对话框还不在DOM中。如何在测试期间禁用转换？谢谢感谢Jarred，您的解决方案非常有效！这是我的工作测试：
火花：向csv文件添加列名失败
然后我跑：然后我得到： IllegalArgumentException：需求失败：列数不匹配。旧列名（1）：值新列名（5）：startIP,endIP,City,Longitude,Latitude at scala.predef$.require(predef.scala:224)at org.apache.spark.sql.dataset.todf（dataset.scala:376)a
自定义分隔符csv读取器火花
我想用Apache Spark读入具有以下结构的文件。 csv太大了，不能使用熊猫，因为读取这个文件需要很长时间。有什么方法类似于多谢！
火花数据帧列在jooq选择查询
我使用rdd读取csv文件，只从dataframe中获取一列，并使用scala toArray将其转换为数组。之后，我在sql中使用这个数组来检查这个数组中是否有一个字段值。我使用Postgresql和jooq 3.11，但无论我怎么努力，我不能呈现sql，因为它需要。下面的代码是。但是，它不会生成sql。我在用和，以及（）中的相同问题的版本：
WebStorm中的自动花括号，检查修改
我正在使用WebStorm制作React应用程序。首先，当我使用 JSX 标签属性时，它会自动创建大括号。如何禁用此选项？第二，当我们的源代码被修改时，许多IDE向我们显示这个文件被修改了。在VSCode中，它是这样做的：但WebStorm不是。所以我不知道这个文件是否已经更改。我如何设置？
Word2Vec ：阿帕奇火花和张量流实现
阅读 https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/feature/Word2Vec.scala 这种实现的文字是谷歌Word2Vec的一个端口 https://code.google.com/archive/p/word2vec/ 这是“向量空间中单词表示的有效估计”
HDFS目录作为火花流中的参数
我在使用 Spark 流式处理示例时遇到问题：https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/streaming/examples/HdfsWordCount.scala 当我尝试使用 SBT 启动它时我有这个例外我确定该目录存在于Hadoop fs上，我甚至在那里复制了一
工人之间的平衡RDD划分-火花
我正在使用的，并将其调用为。的方差非常高，以至于大约1%的对集（用百分位数方法验证）使得集合中的值总数的20%。如果Spark随机使用shuffle进行分区，那么很有可能会有1%的数据落入同一分区，从而导致工作人员之间的负载不平衡。有没有办法确保“重”元组在分区中正常分布？我实际上将分成两个分区，和，基于）给出的阈值，以便分离这组元组，然后重新分区。但获得几乎相同的运行时间。负载可能已
广播加入火花不工作为左外
我有一张小桌子（2k）的记录和一张大桌子（5 mil）的记录。我需要从小表中获取所有数据，只从大表中获取匹配数据，因此我在下面执行了查询
火花作业中的Kryo序列化错误
IOException：找不到键类'com.test.serializetest.toto'的序列化程序。如果使用自定义序列化，请确保配置“io.serializations”配置正确。在org.apache.hadoop.io.sequenceFile$writer.init(sequenceFile.java:1179)在org.apache.hadoop.io.sequenceFile$wr
OutofMemoryError用更多的阶段将DAG火花化
我有一个运行sql联接的火花作业。我可视化的DAG和它创建+5阶段的每个加入。无论如何，在DAG有大约40个阶段的阶段之后，下一个步骤总是以异常失败，即在8次迭代之后，每个迭代有5个阶段。每个节点3个实例(R3.2xLarge)=>12个执行器实例

首页

23

24

25

26

27

28

29

30

31

尾页

最新发布

长沙银行货拉拉应用运维实习拼多多面试华为运营经理面经（我跑了）我的面试经历

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

echarts - 如何用echart做一个有厚度的、正面视图的饼图呢？前端 - 求助，如何解决vite.config.js代理配置失效问题?前端 - Ant Design Vue Tree组件拖拽功能中dropToGap和dropPosition的含义是什么？php实现图片序列合成视频？javascript - 为什么节流函数中的定时器ID没有按预期变化？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Script.NET Deis MultiTablesView MiniExcel JasperServer HeyUI Admin jQuery slimscroll maple-bbs

文档资料

Serverless 应用开发指南 Vim 入门教程 AngularJS 中文教程下一代 Web 框架 Koa 快学 Scala 读书笔记