当前位置: 首页 > 知识库问答 >
问题:

如何使用scala将不同的文件名传递给spark

能旭
2023-03-14

我在集群中有以下代码:

def main(args: Array[String]) {
    val spark = SparkSession.builder.appName("SparkData").getOrCreate()
    val sc = spark.sparkContext
    sc.setLogLevel("ERROR")
    import spark.implicits._
    import spark.sql
    //----------Write Logic Here--------------------------
    //Read csv file
    val df = spark.read.format("csv").load("books.csv")//Here i want to accept parameter
    df.show()
   spark.stop
}
csv_file="/usr/usr1/Test.csv"

spark2-submit \
--num-executors 30 \
--driver-memory 12g \
--executor-memory 14g \
--executor-cores 4 \
--class driver_class \
--name TTTTTT \
--master yarn \
--deploy-mode cluster \
--files  myprop.properties,${csv_file} \
  abc.jar
 
  def main(args: Array[String]) {
            val spark = SparkSession.builder.appName("SparkData").getOrCreate()
            val sc = spark.sparkContext
            sc.setLogLevel("ERROR")
            import spark.implicits._
            import spark.sql
             val filepath = args(0)
            //----------Write Logic Here--------------------------
            //Read csv file
            val df = spark.read.format("csv").load(filepath)//Here i want to accept parameter
            df.show()
           spark.stop
        }

csv_file=“/usr/usr1/test.csv”

spark2-submit \
--num-executors 30 \
--driver-memory 12g \
--executor-memory 14g \
--executor-cores 4 \
--class driver_class \
--name TTTTTT \
--master yarn \
--deploy-mode cluster \
--files  myprop.properties \
  abc.jar  ${csv_file}

但是程序不是在挑FI。有人能帮忙吗?

共有1个答案

潘兴朝
2023-03-14

本地文件的URL格式应该是:csv_file=“file:///usr/usr1/test.csv”

请注意,本地文件也必须在所有工作节点上的同一路径上可访问。或者将文件复制到所有工作人员,或者使用网络挂载的共享文件系统

 类似资料:
  • 问题内容: 我创建了一个参数化的Jenkins作业,该作业将变量从Java传递到。 这是Java: 所以这很简单,因为我只是将s 传递给工作。但是,我现在想使用Jenkins中的A将A传递给工作。 我看到的一件事是Jenkins中的拥有一个和。因此,甚至不知道如何从Java将其设置为参数。 这可能吗? 问题答案: 这是一个可运行的类。使用apache-httpclient(4.5.1)和相关的ja

  • 我很好奇在Spark中把一个RDD传递给一个函数到底做了什么。 假设我们如上定义一个函数。当我们调用函数并传递一个现有的RDD[String]对象作为输入参数时,这个my_function是否将这个RDD作为函数参数进行“复制”?换句话说,是按引用调用还是按值调用?

  • 我试图将类名传递给react组件以更改其样式,但似乎无法正常工作: 我试图通过传递具有各自风格的类的名称来改变药丸的风格。我是新来的,所以也许我做得不对。谢啦

  • 我找不到如何将用户名和密码传递给KafkaConsumer。我使用SASL明文对Kafka服务器上的客户端进行身份验证。 我试图在上找到此信息https://kafka.apache.org/documentation/#consumerconfigs但结果是否定的。 我发现了一些作者使用参数“用户名”和“密码”的例子。我试图这样做: 但我得到了例外"未能构建Kafka消费者"。 如果有人知道如何

  • 我有一个通过PHP文件调用的bash脚本。首先,这些文件的内容如下: script.sh php文件 在上面的例子中,通过运行类似于的内容来查找。 但是,当运行PHP文件来获取相同的信息时,我得到了错误。 最终,我想通过一个PHP文件运行一个bash脚本,包括参数。 我花了大部分时间尝试使用这个答案中提出的解决方案,感觉我的PHP文件应该可以工作。 我知道我的脚本和编码肯定很混乱,显然没有工作——

  • 问题内容: 我必须在6个以上的环境中运行相同的其余api脚本集。因此,我已将所有测试数据和端点/资源路径存储在json文件中。然后,我尝试将此json文件读入我的karate- config.js文件,这是因为我要获取与从命令行(karate.env)传递的环境相对应的数据,该环境正在读入我的空手道-config.js文件 以下是我的json文件示例 下面是我的karate-config.js文件