当前位置: 首页 > 知识库问答 >
问题:

数据分支和应用转换

施权
2023-03-14

我刚刚开始使用数据流,对于如何实现分支,我没有什么问题。

共有1个答案

宇文元明
2023-03-14

您可以使用Partition transform将数据划分为多个子集合,而不必对数据进行多次迭代。然后,您可以将其他转换和窗口分别应用于分区的不同输出。

例如:

PCollection<Student> students = ...;
// Split students up into 10 partitions, by percentile:
PCollectionList<Student> studentsByPercentile =
    students.apply(Partition.of(10, new PartitionFn<Student>() {
        public int partitionFor(Student student, int numPartitions) {
            return student.getPercentile()  // 0..99
                 * numPartitions / 100;
        }}))
for (int i = 0; i < 10; i++) {
  PCollection<Student> partition = studentsByPercentile.get(i);
  ...
}
 类似资料:
  • 我们用简单的实例来讲解topic分支和merge分支的操作方法。 例如,在开发功能的topic分支操作途中,需要修改bug。 这时,merge分支还是处于开发功能之前的状态。在这里新建修改错误用的主题分支,就可以从开发功能的作业独立出来,以便开始新的工作。 完成bug修正的工作后,把分支导入到原本的merge分支后就可以公开了。 回到原本的分支继续进行开发功能的操作。 但是,如果要继续进行操作,你

  • 我正在尝试解析运营商网络的USSD响应。找到一个链接https://github.com/alaasalman/ussdinterceptor,但它不支持4.2.2及以上版本。是否有任何api或方法可以达到此目的?

  • 问题内容: 我有一个具有此类数据的数据框(列过多): 列看起来像这样: 我想像这样将列中的所有值转换为整数: 我通过以下方法解决了这一问题: 现在,我的数据框中有两列-旧列和新列,需要删除旧列。 那是不好的做法。它是可行的,但是在我的数据框中有很多列,我不想手动进行。 pythonic如何巧妙地实现呢? 问题答案: 首先,要将“分类”列转换为其数字代码,可以使用以下命令更轻松地做到这一点。 此外,

  • 奔腾家族的处理器试图预测跳转的位置,条件跳转是否发生。如果预测正确,通过在跳转发生之前读取后续指令进入管道并解码,能够节省一大笔时间;如果预测失败,管道被清洗,花的代价取决于管道的长度。 预测基于分支目标缓存部件(Branch Target Buffer ,简称 BTB ),它为每一个分支存了历史记录或跳转指令,使预测基于每条指令执行的历史记录。 BTB组织得像一个组相联cache,那里新的表项按

  • 我想在mtcars数据集中做类似于将gpm(加仑每英里=1/mpg)模型与wt的拟合。这似乎很容易: 这就得到了一个有6行的行数据帧,正如预期的那样。 这张图确认了六组: 我可以使用augment()获得匹配的输出: 从其他地方的阅读中,我发现group_by和rowwise数据帧不兼容,因此lm1未分组,augment不能关联models和newdata。是否有另一种设计模式可以让我这样做?如果

  • 问题内容: 我有一个称为分钟的变量,例如250分钟。 如何使用以下格式的PHP将分钟数转换为小时数和分钟数: 问题答案: