当前位置：首页 > 专题 >

《同花顺面试》专题

引发异常的火花sortby
我正在尝试按键对JavaPairRDD进行排序。块引号
Spark dataframe CSV vs拼花地板
我是Spark的初学者，试图理解Spark数据帧的机制。当从csv和parquet加载数据时，我比较了spark sql dataframe上sql查询的性能。我的理解是，一旦数据加载到spark数据框中，数据的来源（csv或parquet）应该无关紧要。然而，我看到了两者之间的显著性能差异。我使用以下命令加载数据，并对其编写查询。请解释差异的原因。
火花createDataFrame（）不使用Seq RDD
CreateDataFrame接受2个参数，一个rdd和模式。我的图式是这样的 <代码>val schemas=结构类型（Seq（StructField（“number”，IntegerType，false），StructField（“notation”，StringType，false）））在一种情况下，我能够从RDD创建数据帧，如下所示：在以下其他情况下。。我不能 data2不能成为Da
火花内存不足错误
我的spark程序在小数据集上运行良好。（大约400GB）但是当我将其扩展到大型数据集时。我开始得到错误
CountVectorizerModel错误与apache火花-JavaAPI
我正在使用Apache Spark的示例代码follow文档：https://spark.apache.org/docs/latest/ml-features.html#countvectorizer 但我收到错误消息： 22年10月15日23:04:20信息BlockManagerMaster：使用703.6 MB RAM注册block manager localhost:56882，Block
火花数据帧滤波器
我想过滤掉具有“c2”列前3个字符的记录，无论是“MSL”还是“HCP”。所以输出应该如下所示。有谁能帮忙吗？我知道df。过滤器（$c2.rlike（“MSL”））--用于选择记录，但如何排除记录？版本：Spark 1.6.2 Scala:2.10
火花与涌入：OKIO冲突
（当我在打字的时候，我想试试阴影，我现在就做）谢谢
火花-我读csv正确吗？
我使用以下方法将csv文件读入Spark： df=spark.read.format(file_type).options(header='true'，quote='\"'，ignoreleadingwhitespace='true'，inferschema='true').load(file_location) 这是正常行为还是读错了？更新：我将标记问题作为回答，因为下面的提示是有用的。然而，
火花CSV逃逸不工作
我使用spark-core 2.0.1版和Scala2.11。我有一个简单的代码来读取一个包含\escapes的csv文件。 null 有人面临同样的问题吗？我是不是漏掉了什么？谢谢
雪花UDF与数据加密
有没有人知道这样的特性、可能性或变通方法？谢谢！
火花访问行对象值
我想通过分区迭代一个dataframe，对于每个分区，迭代它的所有行，并创建一个deleteList，它将包含HBase的每一行的delete对象。我将Spark和HBase与Java一起使用，并使用以下代码创建了一个行对象：但它无法工作，因为我无法正确访问行的值。而df有一个名为“hbase_key”的列。
火花RDD中的分区数
我通过指定分区的数量从文本文件创建RDD（Spark 1.6）。但它给我的分区数与指定的分区数不同。案例1 案例2 案例3 案例4 文件/home/pvikash/data/test的内容。txt是：这是一个测试文件。将用于rdd分区基于以上案例，我有几个问题。对于案例2，显式指定的分区数为0，但实际分区数为1（即使默认最小分区为2），为什么实际分区数为1？对于案例3，为什么在指定数量的
火花连接：括号问题
我要加入两个rdd。示例文件1数据: 示例文件2数据：下面是代码： o/p是k，(v)，我想在做进一步处理时去掉值两边的括号。我尝试了一些事情，包括我还保存了结果：不幸的是，结果总是以下格式：我希望他们：
火花Kafka流媒体问题
它没有任何错误，我得到以下错误时，我运行火花提交，任何帮助都非常感谢。谢谢你抽出时间。线程“main”java.lang.noClassDeffounderror：org/apache/spark/streaming/kafka/kafkautils在kafkasparkstreaming.sparkstreamingtest(kafkasparkstreaming.java:40)在kafka
删除Java中的花括号

首页

36

37

38

39

40

41

42

43

44

尾页

最新发布

长沙银行货拉拉应用运维实习拼多多面试华为运营经理面经（我跑了）我的面试经历

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

echarts - 如何用echart做一个有厚度的、正面视图的饼图呢？前端 - 求助，如何解决vite.config.js代理配置失效问题?前端 - Ant Design Vue Tree组件拖拽功能中dropToGap和dropPosition的含义是什么？php实现图片序列合成视频？javascript - 为什么节流函数中的定时器ID没有按预期变化？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Script.NET Deis MultiTablesView MiniExcel JasperServer HeyUI Admin jQuery slimscroll maple-bbs

文档资料

Markdown Preview Enhanced 中文文档 Neo4j 中文使用手册以及例子笨办法学 Prolog Java.io 入门教程 Python 正则表达式操作指南