注意:我相信公认的答案不太对!我很高兴您提出这个问题,因为这些名称相似的函数的行为在一些重要的和意想不到的方面存在差异,而这些差异在官方的spark文档中没有很好的记录。
接受的答案的第一部分是正确的:调用df.repartitions(COL,numpartitions=k)
将使用基于哈希的分区器创建具有k
分区的dataframe。col
在这里定义分区键--它可以是单个列或列列表。基于哈希的分区器获取每个输入行的分区键,通过partition=hash(partitionKey)%k
这样的方式将其哈希到k
分区空间中。这保证了具有相同分区键的所有行最终都位于同一个分区中。但是,来自多个分区键的行也可能最终位于同一个分区中(当分区键之间发生哈希冲突时),并且某些分区可能是空的。
总之,df.repartition(COL,numpartitions=k)
不直观的方面是
k
分区可能为空,而其他分区可能包含来自多个分区键的行df.write.partitionby
的行为完全不同,这是许多用户意想不到的。假设您希望您的输出文件按日期分区,并且您的数据跨度超过7天。我们还假设DF
首先有10个分区。当您运行df.write.partitionby('day')
时,需要多少输出文件?答案是“视情况而定”。如果df
中起始分区的每个分区都包含每天的数据,那么答案是70。如果df
中的每个起始分区都包含一天的数据,那么答案是10。
我们该如何解释这种行为呢?当您运行df.write
时,df
中的每个原始分区都是独立编写的。也就是说,您最初的10个分区中的每一个都在'day'列中被单独地子分区,并且为每个子分区编写一个单独的文件。
问题内容: 我错放了太多次了,我想我一直忘记,因为我不知道两者之间的区别,只是一个给了我我期望的价值,而另一个却没有。 为什么是这样? 问题答案: 是的简写形式(尽管请注意,该表达式只会被计算一次。) 是的,即指定一元的到。 例子:
问题内容: 因此,我有一段简单的代码可以打印出整数1-10: 然后,如果仅在第3行上更改一个运算符,它将打印出无限数量的1整数(我知道为什么会这样做)。为什么在运行第二个程序时没有出现语法错误?如果赋值运算符后面跟着一个加法运算符,它不会调用语法错误吗? 问题答案: 与相同, 只是意味着。
问题内容: 有人可以解释一下 和 我不知道“确切”的含义 问题答案: 在这个例子中,什么都没有。当您具有多个具有相似名称的路径时,该参数将起作用: 例如,假设我们有一个显示用户列表的组件。我们还有一个用于创建用户的组件。的网址应嵌套在下。因此,我们的设置可能如下所示: 现在,这里的问题是,当我们转到路由器时,将通过所有定义的路由,并返回它找到的第一个匹配项。因此,在这种情况下,它将首先找到路线,然
问题内容: 我很好奇printStackTrace()和toString()之间的区别是什么。乍一看,他们 似乎 做的完全相同。 码: 问题答案: 不,有重要区别!使用toString,您只有异常的类型和错误消息。使用printStackTrace()可以获得异常的整个堆栈跟踪,这对于调试非常有帮助。 System.out.println(toString())的示例: printStackTra
问题内容: 我看不到两种方式之间的任何区别,@ Qualifier 始终与 @Autowired一起使用 。 VS 有人能让我知道其中的区别吗?谢谢! 问题答案: 可以单独使用。如果单独使用,将按类型进行接线。因此,如果在容器中声明了多个相同类型的bean,而又不知道要注入哪个bean,就会出现问题。结果,通过指定Bean名称(按名称进行绑定),与一起使用来阐明要实际连接的Bean 也按名称接线。