当前位置: 首页 > 知识库问答 >
问题:

从本地spark实例读取google storage gs://文件系统

锺离旻
2023-03-14

问题很简单:您有一个本地spark实例(或者是集群,或者只是在本地模式下运行它),您希望从gs://读取

共有1个答案

宋英杰
2023-03-14

在我的Spark2.4.3中,我需要执行以下操作来启用从Spark Local的GCS访问。我使用了JSON密钥文件,而不是上面提出的client.id/secret

>

  • $spark_home/jars/中,从以下网址使用带阴影的gcs-connectorjar:http://repo2.maven.org/maven2/com/google/cloud/bigdataoss/gcs-connector/hadoop2-1.9.17/,否则我会遇到传递依赖项的各种故障。

    (可选)添加到我的build.sbt中:

    "com.google.cloud.bigdataoss" % "gcs-connector" % "hadoop2-1.9.17"
        exclude("javax.jms", "jms")
        exclude("com.sun.jdmk", "jmxtools")
        exclude("com.sun.jmx", "jmxri")
    

    $spark_home/conf/spark-defaults.conf中,添加:

    spark.hadoop.google.cloud.auth.service.account.enable       true
    spark.hadoop.google.cloud.auth.service.account.json.keyfile /path/to/my/keyfile
    

    一切正常。

  •  类似资料:
    • 编写了通过Spark读取文本文件的代码...在Local中运行良好...但在HDInsight中运行时产生错误->从Blob读取文本文件 org.apache.spark.sparkException:作业由于阶段失败而中止:阶段0.0中的任务0失败了4次,最近的失败:阶段0.0中丢失的任务0.3(TID 5,wn1-hchdin.bpqkkmavxs0ehkfnaruw4ed03d.dx.int

    • 本文向大家介绍java 读取本地文件实例详解,包括了java 读取本地文件实例详解的使用技巧和注意事项,需要的朋友参考一下 java 读取本地文件实例详解 用javax.xml、w3c解析 实例代码: 用dom4j解析 感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

    • 我是spark的新手,在Ubuntu18.0上用java学习spark,没有显式集群。我将data.csv文件保存在本地文件系统的java/main/resources文件夹中。 在执行下面的代码时,

    • 问题内容: 如何使用JQuery.getJSON()读取当前目录中的文件? 我正在尝试一些简单的操作(将data.json文件与html文件放在同一目录中): 我得到错误: XMLHttpRequest无法加载file:/// C:/Projects/test/data.json。Access-Control-Allow- Origin不允许使用Origin null。 我尝试了各种路径组合,但似

    • 在链接:https://github.com/owlcs/owlapi/blob/version5/contract/src/test/java/org/semanticweb/owlapi/examples/examples.java的当前文档示例中,没有关于如何从本地文件加载本体的示例。只有从字符串加载它的方法。 在过去,当我使用OWL-APIVersion3时,以下代码工作得很好: 但是,在

    • 我必须将Amazon S3中的文件解压缩到我的驱动程序节点(Spark集群)中,并且我需要将所有这些csv文件作为Spark Dataframe加载,但是当我试图从驱动程序节点加载数据时,我发现了下一个问题: Pyspark: “路径不存在:file://folder/*.csv” 我试图使用dbutils.fs.mv()将所有这些文件移到dbfs,但我运行的是一个Python文件,不能使用dbu