问题：

在读取parquet s3文件时使用pyspark的Scheme:s3没有文件系统

梅欣然

2023-03-14

我有一个桶，里面有几个小的拼花文件，我想把它们合并成一个更大的文件。

要完成此任务，我想创建一个spark作业来消费并写入一个新文件。

from pyspark import SparkContext
from pyspark.sql import SparkSession, SQLContext

spark = SparkSession.builder \
                    .master("local") \
                    .appName("Consolidated tables") \
                    .getOrCreate()

spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", "access")
spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "secret")

df = spark.read.parquet("s3://lake/bronze/appx/contextb/*")

知道怎么了吗？

共有1个答案

周博达

2023-03-14

下载此hadoop-aws-2.7.5.jar（或最新版本）并配置此可用于spark的jar

spark = SparkSession \
        .builder \
        .config("spark.jars", "/path/to/hadoop-aws-2.7.5.jar")\
        .getOrCreate()

类似资料：

用PySpark读取拼花文件

则错误如下： AttributeError：“property”对象没有属性“parquet”
在Flatter中读取CSV文件时没有此类文件

我试图在flifter中读取文件，但收到一个错误 csv文件已在pubspec的资产部分声明。yaml 并且文件的路径是正确的，下面是我同步读取文件的尝试： --课程开始时： -pubspec.yaml，资产科： --读取文件的方法 --调用上述方法---
使用PySpark将JSON文件读取为Pyspark Dataframe吗？

问题内容：如何使用PySpark读取以下JSON结构以触发数据帧？我的JSON结构我已经尝试过：我希望将输出a，b，c作为列，并将值作为相应的行。谢谢。问题答案： Json字符串变量如果您将 json字符串作为变量，则可以这会给你 Json字符串作为文件中的单独行（sparkContext和sqlContext）如果文件中有 json字符串作为单独的行，则可以使用spa
使用ConfigParser读取没有节名的文件

问题内容：我正在阅读脚本的运行时配置。我想拥有不提供部分名称的灵活性（有些脚本很简单；它们不需要“部分”）。将抛出异常，并且不接受该文件。如何才能使ConfigParser仅仅检索没有节名的配置文件的元组？例如：我宁愿不写配置文件。问题答案： Alex Martelli提供了一种用于解析文件（显然是无节的配置文件）的解决方案。例如：即将是一种.config格式，除了它缺少开头部分的
读取文本文件到元组pyspark

我有一个关于读取和创建数据集的问题。我有一个文本文件，其中包含：我这样实现了这段代码：而不是有这样的结果：它给了我一个结果：谁能告诉我怎么解决这个问题？
在写入文件时读取文件

问题内容：我必须阅读tomcat日志文件，并在一段时间（例如：一个小时）后再次读取该文件（仅针对新添加的内容），因此我创建了RandomAccessFile来记录我完成的最后一个位置并使用BufferedReader.readLine（）方法。但是，我发现有时我无法读取文件的整行。例如，tomcat正在尝试编写以下内容（仅作为示例）： 192.168.0.0本地主机/index.html .

在读取parquet s3文件时使用pyspark的Scheme:s3没有文件系统

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档