用PySpark读取拼花文件

卫浩瀚

2023-03-14

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

sqlContext.read.parquet("my_file.parquet")

from pyspark.sql import SQLContext

sc = SparkContext.getOrCreate()

SQLContext.read.parquet("my_file.parquet")

则错误如下：

AttributeError：“property”对象没有属性“parquet”

共有1个答案

朱经武

2023-03-14

您需要首先创建SQLContext的实例。

这将从pyspark Shell执行：

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)
sqlContext.read.parquet("my_file.parquet")

如果您正在使用spark-submit，则需要创建SparkContext，在这种情况下，您将执行以下操作：

from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.parquet("my_file.parquet")

类似资料：

从Pyspark中的多个目录读取拼花文件

我需要从不是父目录或子目录的多个路径读取拼花地板文件。例如，从dir1\u 1和dir1\u 2读取拼花文件现在，我正在读取每个目录并使用“unionAll”合并数据帧。有没有一种方法可以不使用unionAll从dir1\u 2和dir2\u 1读取拼花地板文件，或者有没有什么奇特的方法可以使用unionAll 谢谢
如何在使用pyspark读取拼花地板文件时指定模式？

使用scala或pyspark读取hadoop中存储的拼花地板文件时，出现错误：或导致相同的错误。错误消息非常清楚必须做什么：无法推断拼花的模式。必须手动指定。；。但是我在哪里可以指定它呢？ Spark 2.1.1、Hadoop 2.5、数据帧是在pyspark的帮助下创建的。文件被划分为10个peace。
从分区拼花文件读取DataFrame

如何读取带有条件作为数据帧的分区镶木地板，这工作得很好，分区存在的时间为< code>day=1到day=30是否可能读取类似于< code>(day = 5到6)或< code>day=5，day=6的内容，如果我输入< code>*,它会给出所有30天的数据，而且太大了。
创建Hive表以从拼花/avro模式读取拼花文件

我们正在寻找一种解决方案，以便创建一个外部配置单元表，根据parquet/avro模式从parquet文件中读取数据。换句话说，如何从拼花/avro模式生成hive表？谢谢:)
SparkSQL-直接读取拼花地板文件

我正在从Impala迁移到SparkSQL，使用以下代码读取一个表：我如何调用上面的SparkSQL，这样它就可以返回这样的东西：
如何使用ApacheFlink读取HDFS中的拼花文件？

我只找到TextInputFormat和CsvInputFormat。那么，如何使用ApacheFlink读取HDFS中的拼花文件呢？

用PySpark读取拼花文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档