问题：

Spark上下文问题

仲孙子辰

2023-03-14

    spark = SparkSession.builder.appName('QUEUEVQL').getOrCreate()
    jsonStrings = {"Name": "SRIDHAR", "Author": "jangcy", "BlogEntries": 100, "Caller": "jangcy"}
    dt = [jsonStrings]
    dfs = spark.createDataFrame(dt).collect()
    dfs2 = spark.sparkContext.parallelize(dfs).toDF()
    dfs2.createOrReplaceTempView("QVQL")
    resDf = spark.sql("select Name from QVQL")
    resDfPandas = resDf.toPandas()
    print(resDfPandas)

代码错误：

py4j。协议Py4JJavaError：调用o490时出错。collectToPython.：组织。阿帕奇。火花SparkException：作业因阶段失败而中止：阶段27.0中的任务0失败了4次，最近的失败：阶段27.0中的任务0.3丢失（TID 98）（172.17.7.28执行器1）：java。io。IOException：无法运行程序“python3.6”：CreateProcess错误=2，系统无法找到java中指定的文件。lang.ProcessBuilder。开始（ProcessBuilder.java:1048）

共有1个答案

谭仰岳

2023-03-14

这应该是一个2行，如果您仍然收到错误，那么您缺少一些jar文件，如错误消息所示。

    jsonStrings = {"Name": "SRIDHAR", "Author": "jangcy", "BlogEntries": 100, "Caller": "jangcy"}
    dfs = spark.createDataFrame([jsonStrings]).toPandas()
    print(dfs)

  # Author  BlogEntries  Caller     Name
  # 0  jangcy          100  jangcy  SRIDHAR

类似资料：

无法初始化spark上下文

我试图在Python中初始化火花上下文变量。但我得到了以下错误： py4j。协议Py4JJavaError:调用None时出错。组织。阿帕奇。火花应用程序编程接口。JAVAJavaSparkContext.：JAVAlang.NoClassDefFoundError:无法初始化类组织。阿帕奇。火花内部的配置。组织上的包$ 。阿帕奇。火花斯帕克孔夫。在组织上验证设置（SparkConf.scala
Spark上下文文本文件：加载多个文件

问题内容：我需要处理分散在各个目录中的多个文件。我想将所有这些加载到单个RDD中，然后在其上执行map / reduce。我看到SparkContext能够使用通配符从单个目录加载多个文件。我不确定如何从多个文件夹加载文件。以下代码段失败：这在第三个循环中失败，并显示以下错误消息：鉴于我仅提供了两个参数，所以这很奇怪。任何指针表示赞赏。问题答案：措辞如何呢？在Scala中，有两种变体
spark-submit log4j配置在spark上下文中没有影响

dockerized应用程序结构为：我得到以下错误： log4j:忽略配置文件[file://log4j.properties]时出错。log4j:错误无法从URL[file://log4j.properties]读取配置文件。
Spark Hive上下文-带分区的Avro表

对于分区的Avro配置单元表，在Avro模式中具有大写字符的字段名将被拉回为空。我想知道我是否缺少一些设置/解决方法，或者这只是一个配置单元上下文的错误。我已经尝试过将以下内容添加到DDL中： …并设置spark.sql。区分大小写，对真/假敏感 Spark版本1.5.0 Hive版本1.1.0 您可以通过在 Hive 中运行以下 DDL 来重新创建问题： ...
Flask-SQLAlchemy导入/上下文问题

问题内容：我想构建我的Flask应用，例如：是flask蓝图。现在，为了创建模型类，我需要拥有该应用程序，例如：但是，如果我尝试将该模型导入到我的应用程序中，则会感到恐惧。我如何在这里正确持有我的应用程序？相对导入可能有效，但是它们很丑陋，并且具有自己的上下文问题，例如：问题答案：该模块没有要与应用程序马上初始化-你可以这样做，而不是：然后在应用程序设置中，你可以调用init_app
在spark流上下文中将RDD写入HDFS

我有一个火花1.2.0的火花流环境，我从本地文件夹中检索数据，每次我发现一个新文件添加到文件夹中时，我都会执行一些转换。为了对DStream数据执行分析，我必须将其转换为数组然后，我使用获得的数据提取我想要的信息，并将其保存在HDFS上。由于我真的需要使用Array操作数据，因此不可能使用（这将正常工作）在HDFS上保存数据，我必须保存RDD，但使用此先决条件，我终于有了名为part-000

Spark上下文问题

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档