当前位置: 首页 > 知识库问答 >
问题:

有没有办法从粘合作业生成单个csv输出文件?[副本]

封梓
2023-03-14

如标题所示。我想我记得那是胶水作业生成单个csv输出文件而不是多个输出文件的某种选项,这是特定于某些胶水配置的,独立于任何apache火花相关功能。实现这一点需要对pyspark文件进行哪些设置更改?提前感谢日志

共有1个答案

戚澄邈
2023-03-14

您可以使用DynamicFrameWriter类中的选项指定要写入的格式,示例代码段如下

glue_context.write_dynamic_frame.from_options(
   connection_options = {"path": "$outpath", "partitionKeys": ["type"]},
   format = "csv")

您可以在此处找到支持的格式列表

附:代码片段基于python API,但如果您使用的是scala API,它也应该类似

 类似资料:
  • 我们每天上午11点从供应商收到1个s3桶中的csv文件。我在上午11:30使用Glue将此文件转换为拼花格式。 我已启用作业书签不处理已处理的文件。尽管如此,我看到一些文件正在重新处理,从而创建重复文件。 我阅读了这些问题和答案AWS Glue Bookmark为拼花地板制作副本和AWS Glue Job书签说明 他们很好地理解了工作书签,但仍然没有解决这个问题。 AWS留档表示,它支持CSV文件

  • 编程新手,如果这是个愚蠢的问题,我深表歉意。 当使用Scanner类时,我看不出是否有获取单个字符作为输入的选项。例如 上面的代码允许我将下一行拉入字符串,然后可以使用while或if语句使用.length()对其进行验证1,然后根据需要存储到字符中。 但是,有没有一种方法可以提取单个字符,而不是使用字符串然后进行验证?如果没有,有人能解释为什么这是不允许的吗?我认为这可能是由于类或对象与基本类型

  • 我试图找出是否有一种方法可以使用lombok手动设置getter方法名。考虑以下示例: 通过上面的示例,您可以像这样构建上下文: 然后将其用作 生成的方法的名称并不是我所想的那样,我想知道是否有办法对其进行自定义?是否有注释允许我将其命名为shouldLogReceivedMessages()而不是isLogReceivedMessages?我在文件里找不到这个。

  • 问题内容: 是否有一组命令行选项可以说服gcc从自包含的源文件生成平面二进制文件?例如,假设foo.c的内容是 没有外部引用,没有要导出到链接器的内容。我想获得一个仅带此功能机器说明的小文件,而无需任何其他装饰。有点像(DOS).COM文件,但32位保护模式除外。 问题答案: 试试看: 您可以使用来确保它是正确的: 并与二进制文件进行比较:

  • 我想知道是否有一种方法可以基于字符串生成相同的UUID 我尝试使用UUID,它似乎没有提供此功能。

  • 我正在使用Maven生成一个war文件。我正试图让它在战争中生成一个清单文件。现在它没有发生。我已经在我的pom中包括了以下内容。xml,但我无法让它输出包含该信息的清单文件。有人有什么想法或建议吗?没有舱单。mf被投入战争。