当前位置: 首页 > 知识库问答 >
问题:

如何从AWS Sagemaker保存S3中的拼花?

孟新知
2023-03-14

我想从AWS SageMaker保存一个Spark数据帧到S3。在笔记本上,我跑

mydf.write.mode('overwrite').parquet(“s3a:/my-bucket/dir/dir2/”)

在笔记本上该如何正确做?多谢!

共有1个答案

陆文博
2023-03-14

SageMaker笔记本实例没有运行Spark代码,也没有您试图调用的Hadoop或其他Java类。

您通常在SageMaker中的Jupyter笔记本中有Pandas等python库,并且可以使用它来编写parquet文件(例如,https://Pandas.pydata.org/pandas-docs/stable/generated/Pandas.dataframe.to_parquet.html)。

另一个选择是从Jupyter笔记本连接到现有的(或新的)Spark集群,并在那里远程执行命令。有关如何设置此连接的文档,请参阅此处:https://aws.amazon.com/blogs/machine-learning/build-amazon-sagemaker-notebooks-back-by-spark-in-amazon-emr/

 类似资料:
  • 我有一个用例,我需要将拼花文件从Lambda保存到S3。我需要以追加模式存储Lambda函数中触发的事件。 我尝试使用Avro,但它不允许将数据以追加模式存储在同一个拼花文件中。 到目前为止,我发现只要spark允许在附加模式下将数据存储在拼花文件中…然后,我可以使用Lambda提交一个存储数据的spark作业。你认为这个可能的解决方案如何? 然而,真的不存在不使用spark的解决方案吗?预先感谢

  • 我有一些。S3上bucket中的zip文件。我需要解压并将其保存回bucket中,无需本地文件系统。 我知道S3是静态存储,但我可以通过给S3提供路径来解压S3本身上的文件。 我有以下问题。 > 我可以通过桶/文件夹的路径到,所以它解压文件直接在那里。 BufferedOutputStream=new BufferedOutputStream(new FileOutputStream(filePa

  • 我正在使用PDFbox在我的代码中合并两个pdf文件,然后我想将结果(合并文件)存储到AWS s3桶中。我试图直接将pdf文件存储到s3,而不在我的系统中本地保存,但我无法找到任何方法来做到这一点。 我的代码合并两个pdf- 我不想在我的服务器上制作一个文件,而是想直接把它放在s3上,我如何修改这个代码来上载到s3桶。上面的代码只是我卡住的一部分。我使用创建的文件一和文件二。 整个想法是合并两个文

  • 如果我错了,请纠正我。。拼花文件是自描述的,这意味着它包含正确的模式。 我想使用S3接收器融合连接器(特别是因为它正确处理了S3的精确一次语义)从我们的Kafka中读取JSON记录,然后在s3中创建拼花文件(按事件时间分区)。我们的JSON记录没有嵌入模式。 我知道它还不被支持,但我对拼花地板和AVRO也有一些问题。 由于我们的JSON记录中没有嵌入模式,这意味着连接器任务必须从它自己的JSON字

  • 我看到Kafka Connect可以以Avro或JSON格式写入S3。但是没有Parket支持。添加这个有多难?

  • 我的程序试图保存按钮组的状态,以便在程序结束时将其写入文件,或者在用户选择“返回”时恢复到按钮。 我以前发现过这个问题: 如何从按钮组中选择哪个JRadioButton 但是,我下面的代码在编译为ButtonGroup时出错,在ActionPerformed方法中使用时无法识别。 补丁:找不到变量推文可信度 知道为什么会这样吗? 谢谢