问题：

如何从AWS Sagemaker保存S3中的拼花？

孟新知

2023-03-14

我想从AWS SageMaker保存一个Spark数据帧到S3。在笔记本上，我跑

mydf.write.mode('overwrite').parquet（“s3a:/my-bucket/dir/dir2/”）

在笔记本上该如何正确做？多谢！

共有1个答案

陆文博

2023-03-14

SageMaker笔记本实例没有运行Spark代码，也没有您试图调用的Hadoop或其他Java类。

您通常在SageMaker中的Jupyter笔记本中有Pandas等python库，并且可以使用它来编写parquet文件（例如，https://Pandas.pydata.org/pandas-docs/stable/generated/Pandas.dataframe.to_parquet.html)。

另一个选择是从Jupyter笔记本连接到现有的（或新的）Spark集群，并在那里远程执行命令。有关如何设置此连接的文档，请参阅此处：https://aws.amazon.com/blogs/machine-learning/build-amazon-sagemaker-notebooks-back-by-spark-in-amazon-emr/

类似资料：

使用java将拼花文件从Lambda保存到S3

我有一个用例，我需要将拼花文件从Lambda保存到S3。我需要以追加模式存储Lambda函数中触发的事件。我尝试使用Avro，但它不允许将数据以追加模式存储在同一个拼花文件中。到目前为止，我发现只要spark允许在附加模式下将数据存储在拼花文件中…然后，我可以使用Lambda提交一个存储数据的spark作业。你认为这个可能的解决方案如何？然而，真的不存在不使用spark的解决方案吗？预先感谢
如何从s3解压文件并将其保存回s3

我有一些。S3上bucket中的zip文件。我需要解压并将其保存回bucket中，无需本地文件系统。我知道S3是静态存储，但我可以通过给S3提供路径来解压S3本身上的文件。我有以下问题。 > 我可以通过桶/文件夹的路径到，所以它解压文件直接在那里。 BufferedOutputStream=new BufferedOutputStream（new FileOutputStream（filePa
如何将pdf保存到Aws s3

我正在使用PDFbox在我的代码中合并两个pdf文件，然后我想将结果（合并文件）存储到AWS s3桶中。我试图直接将pdf文件存储到s3，而不在我的系统中本地保存，但我无法找到任何方法来做到这一点。我的代码合并两个pdf- 我不想在我的服务器上制作一个文件，而是想直接把它放在s3上，我如何修改这个代码来上载到s3桶。上面的代码只是我卡住的一部分。我使用创建的文件一和文件二。整个想法是合并两个文
Kafka-从JSON记录到S3中的拼花文件

如果我错了，请纠正我。。拼花文件是自描述的，这意味着它包含正确的模式。我想使用S3接收器融合连接器（特别是因为它正确处理了S3的精确一次语义）从我们的Kafka中读取JSON记录，然后在s3中创建拼花文件（按事件时间分区）。我们的JSON记录没有嵌入模式。我知道它还不被支持，但我对拼花地板和AVRO也有一些问题。由于我们的JSON记录中没有嵌入模式，这意味着连接器任务必须从它自己的JSON字
从Kafka连接到S3的拼花输出

我看到Kafka Connect可以以Avro或JSON格式写入S3。但是没有Parket支持。添加这个有多难？
如何从ButtonGroup中保存选定的JRadioButton？

我的程序试图保存按钮组的状态，以便在程序结束时将其写入文件，或者在用户选择“返回”时恢复到按钮。我以前发现过这个问题：如何从按钮组中选择哪个JRadioButton 但是，我下面的代码在编译为ButtonGroup时出错，在ActionPerformed方法中使用时无法识别。补丁：找不到变量推文可信度知道为什么会这样吗？谢谢

如何从AWS Sagemaker保存S3中的拼花？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档