问题：

如何从S3读取parquet数据到spark dataframe Python？

司马飞

2023-03-14

我是火花的新手，我找不到这个...我有许多拼花地板文件上传到s3的位置：

s3://a-dps/d-l/sco/alpha/20160930/parquet/

此文件夹的总大小为20+GB，。如何将这些文件分块并读取到一个数据包中，如何将所有这些文件加载到一个数据包中？

    from pyspark import SparkContext
    from pyspark.sql import SQLContext
    from pyspark import SparkConf
    from pyspark.sql import SparkSession
    import pandas
    # SparkConf().set("spark.jars.packages","org.apache.hadoop:hadoop-aws:3.0.0-alpha3")
    sc = SparkContext.getOrCreate()

    sc._jsc.hadoopConfiguration().set("fs.s3.awsAccessKeyId", 'A')
    sc._jsc.hadoopConfiguration().set("fs.s3.awsSecretAccessKey", 's')

    sqlContext = SQLContext(sc)
    df2 = sqlContext.read.parquet("s3://sm/data/scor/alpha/2016/parquet/*")

错误：


    Py4JJavaError: An error occurred while calling o33.parquet.
    : java.io.IOException: No FileSystem for scheme: s3
        at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
        at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
        at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
        at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:372)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:370)
        at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
        at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
        at scala.collection.immutable.List.foreach(List.scala:381)
        at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
        at scala.collection.immutable.List.flatMap(List.scala:344)

共有1个答案

柴修筠

2023-03-14

从Spark2.0开始，您必须使用SparkSession而不是sqlContext

spark = SparkSession.builder
                        .master("local")             
                        .appName("app name")             
                        .config("spark.some.config.option", true).getOrCreate()

df = spark.read.parquet("s3://path/to/parquet/file.parquet")

类似资料：

Pyspark读取parquet数据过程解析

本文向大家介绍Pyspark读取parquet数据过程解析，包括了Pyspark读取parquet数据过程解析的使用技巧和注意事项，需要的朋友参考一下 parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支
如何从Hbase读取数据？

问题内容：嗨，我习惯了SQL，但是我需要从HBase表读取数据。任何帮助都会很棒。一本书，或者只是一些示例代码，可以从表中读取。有人说使用扫描仪可以解决问题，但我不知道如何使用。问题答案：从网站：
从postgreSQL读取100m行到Spark，并写入到parquet

任何帮助都将非常感谢。
Spark-从S3读取分区数据-分区是如何发生的？

当我使用Spark从S3读取多个文件时(例如，一个包含许多Parquet文件的目录)- 逻辑分区是在开始时发生，然后每个执行器直接下载数据(在worker节点上)吗？< br >还是驱动程序下载数据(部分或全部)，然后进行分区并将数据发送给执行器？此外，分区是否默认为用于写入的相同分区(即每个文件= 1个分区)？
从Redis读取数据到Flink

我一直在试图找到一个连接器，将数据从Redis读取到Flink。Flink的文档中包含了要写入Redis的连接器的描述。在我的Flink工作中，我需要从Redis读取数据。在使用ApacheFlink进行数据流传输时，Fabian提到可以从Redis读取数据。可用于此目的的接头是什么？
将文件从专用S3存储桶读取到数据帧

我试图读取CSV文件从私人S3桶到熊猫数据帧：我可以从公共存储桶中读取文件，但从私有存储桶中读取文件会导致HTTP 403:禁止错误。我已经使用aws配置配置了AWS凭据。我可以使用boto3从私人存储桶下载文件，boto3使用aws凭据。似乎我需要配置pandas以使用AWS凭据，但不知道如何配置。

如何从S3读取parquet数据到spark dataframe Python？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档