当前位置: 首页 > 知识库问答 >
问题:

Spark java dataframe增量col

卢健
2023-03-14

我试图设置一个特定的id值,增量将从这个值开始。我需要在第一次运行应用程序时生成一个默认值。当我重新启动应用程序时,我需要设置初始id值。我需要增量继续,而不是从0或1开始。

没有传递初始值的代码如下所示:

dataset = dataset.withColumn(id, functions.monotonicallyIncreasingId())

共有1个答案

吕博耘
2023-03-14

我首先解决了这个问题,我创建了整数maxValue=0;在第二次运行时,我从保存的数据集中提取最大id值,并将其写入maxvalue。接下来我编写了代码:dataset=dataset.withcolumn(“id”,functions.row_number().over(window.orderby(“columnname”)).plus(functions.lit(maxValue)));

 类似资料:
  • 问题内容: 当我偶然发现名为JSpeed-Javascript优化的项目时,我正在浏览Google Code。 我注意到优化之一是更改为for循环语句。 优化之前 优化后 我知道前后的增量是什么,但是知道如何加快代码速度吗? 问题答案: 这是我阅读并可以回答你的问题:“前递增()加一的值,然后返回;相反,收益则增加了一个给它,这 _在理论上_中创建一个临时变量存储的值的结果在执行增量操作之前”。

  • 问题内容: 我试图更深入地了解后期和前置增量器,但以下表达式有些卡住: 我知道我在某个地方缺少逻辑,但是在哪里? 我尝试过的 从左到右(尽管我知道不建议这样做) 从内部支架开始,然后从那里开始。 谢谢您的帮助 PS:评论是我演算的细节 编辑1 我试图将硬编码值从表达式更改为其他值,结果总是 看这个例子: 该表达式在逻辑上应该相距不远,但确实可以打印出来。 当我使用负数时也会发生同样的情况: 编辑2

  • 背景 : 从库Pika得到主库的全部DB结构,接下来以partition维度做Trysync,如果从库确认可以增量同步,从库将以partition为维度进行增量同步。默认使用pika port+2000的端口进行增量同步。 Binlog 结构: Pika的主从同步是使用Binlog来完成的,一主多从的结构master节点也可以给多个slave复用一个Binlog,只不过不同的slave在bingl

  • 僵尸增量是一款放置游戏,你需要控制一群僵尸破坏小镇...

  • 《复制增量》又是一款受到《反物质维度》启发的放置游戏。

  • 带领你的英雄们永无止境的冒险!目前也出了 Steam 版。

  • Incremental Transcendence  增量超越是一款网页点击/放置类游戏,你需要在其中收集资源、发展自己的家园。 点击可玩 https://static.oschina.net/trytry/Incremental-Transcendence  

  • Sql Delta表和Database ricks Delta表有区别吗?看起来SQL我们在概念的基础上使用这个名字。存储Base表差异的表是Delta。对于数据库是一样的吗?