当前位置: 首页 > 知识库问答 >
问题:

Spark驱动程序解析转换需要很长时间,为什么?

许马鲁
2023-03-14
18/08/25 03:55:02 INFO Processor: Read JSON files
18/08/25 03:55:02 INFO Processor: Started splitting reservation by stay day
18/08/25 03:55:02 INFO Processor: Structuring BSeg
18/08/25 03:55:09 INFO Processor: Structuring oldSeg
18/08/25 03:55:15 INFO Processor: Structuring BN
18/08/25 03:55:20 INFO Processor: Structuring Name
18/08/25 03:55:23 INFO Processor: Structuring address
18/08/25 03:55:31 INFO Processor: Structuring Email
18/08/25 03:55:37 INFO Processor: Structuring Phone
18/08/25 03:55:48 INFO Processor: Structuring ptSeg
18/08/25 03:56:08 INFO Processor: Structuring TEST
18/08/25 03:56:51 INFO Processor: Structuring BN
18/08/25 03:58:07 INFO Processor: Adding tranaction type boolean
18/08/25 03:58:35 INFO Processor: updating status
18/08/25 03:58:47 INFO Processor: adding segment cancels
18/08/25 04:00:00 INFO Processor: los rule applied
18/08/25 04:00:13 INFO Processor: Geting date
18/08/25 04:00:30 INFO Processor: Getting Rate
18/08/25 04:00:43 INFO Processor: Exploding  BSeg/OLDSeg to multiple rows
18/08/25 04:00:55 INFO Processor: getting seg info
18/08/25 04:01:16 INFO Processor: Selecting required columns
18/08/25 04:01:24 INFO Processor: Applying UDFs
18/08/25 04:02:35 INFO Processor: calling get portal df
18/08/25 04:03:00 INFO Processor: Started Vector directory Name
18/08/25 04:03:12 INFO Processor: Step 3: Completed. GNR record exploded to 1 record/day
18/08/25 04:03:12 INFO Processor: join to Dimensions started
18/08/25 04:04:39 INFO Processor: Join to Dimension Completed 
18/08/25 04:06:28 INFO Processor: Join to Dimension Completed 
18/08/25 04:08:33 INFO Processor: Step 4: Completed. Joined to dimensions
18/08/25 04:12:08 INFO Processor: Checking for empty dataframe  -- persist method called
18/08/25 04:19:11 INFO Processor: Persist Data is true. Target Hive Table 
18/08/25 04:20:40 INFO Processor: Step 5: Completed. Saved to hive table

如果需要更多的细节,请让我知道。

共有1个答案

姚培
2023-03-14

如何编写转换&只在驱动程序上运行?这是毫无意义的。

你的火花的转换&行动将运行在工人身上。

无论如何,您应该提供代码。没有密码我们什么都说不出来

 类似资料:
  • 给出结果需要20多秒,而在mongo控制台中同样的查询需要不到一秒。 为什么会出现这种情况,如何减少速度差距?

  • 问题内容: 我可以长时间等待Selenium Web Driver吗? 即使我可以像下面那样设置隐式等待命令,它也不会等待我给定的时间。 这里有什么问题吗? 就我而言,我需要执行一个测试用例并等待4分钟,然后执行下一个测试用例。 我在这里使用Java。 问题答案: 其实这不是我的答案,两天前我在这里看到了这个答案,但是我没有时间应用它。今天我尝试了,这就是我想要的。 不幸的是,现在我在这里看不到该

  • 我正在尝试将excel文件转换为XSSFWorkbook,我有大约7000行和大约145列。将excel文件转换为第2行的XSSFWorkbook大约需要15分钟,代码如下:- 我不想向XFFSWorkbook添加7000行,只想在第2行转换时向XFFSWorkbook添加30行? 如果没有,如何减少将excel转换为XSSFWorkbook所需的时间?

  • 询问代码的问题必须证明对所解决问题的理解程度最低。包括尝试的解决方案、为什么不起作用以及预期的结果。另请参见:堆栈溢出问题检查表 我敢肯定,上面的程序不是无限循环的。我用进行了测试,得到了想要的结果 我不明白为什么我的CPU要花很长时间来运行它。 编辑:ProjectEuler的我的代码。网络问题3。

  • 升级到macOS Sierra后,“sbt测试”(包括查找本地主机名/IP地址)的性能似乎有问题。在以前版本的OSX上,完成该操作大约需要40-50秒。macOS Sierra时间远高于此。我最后一次跑步大约15分钟。编译时间与“El Capitan”上的编译时间大致相同。 我是我团队中唯一一个尝试这款新苹果电脑的人,所以我不知道它是只发生在我的苹果电脑上,还是一个普遍的问题。 我的同事在Ubun

  • 我使用javamail通过IMAP协议从exchage帐户读取邮件。这些邮件是纯格式的,内容是XML。 几乎所有这些邮件的大小都很短(通常小于100Kb)。然而,有时我不得不处理大型邮件(大约10Mb-15Mb)。例如,昨天我收到一封13Mb大小的电子邮件。仅仅读它就花了50多分钟。这正常吗?有没有办法提高它的性能?代码是: 花费如此长时间的方法是。我做错了什么?有什么提示吗? 非常感谢,我的英语