当前位置: 首页 > 知识库问答 >
问题:

Spark master是否自动将附加库复制到worker?

郤玉书
2023-03-14

我通过独立集群配置构建了Spark集群。

  1. 我设置PYSPARK_PYTHON如下。

PYSPARK_PYTHON=/usr/bin/python2。7.

    from pyspark import SparkContext
    from sklearn import datasets, svm

    def run(sc):
        iris = datasets.load_iris()
        digits = [ datasets.load_digits(), datasets.load_digits()]

        def learn(x):
            clf = svm.SVC(gamma=0.001, C=100.)
            clf.fit(x.data[:-1], x.target[:-1] )
            return clf.predict(x.data[-1])

        return sc.parallelize(digits).map(learn).collect()

    if __name__ == '__main__':
        print run(SparkContext() )

我使用spark submit将此代码提交给spark master。

spark-submit --master spark://192.168.18.31:7077 /master/scipy_example.py

我以为这段代码不会工作,因为我没有安装sci-py在工人。但它起作用了。这样做对吗?我通过Web-UI确认了此代码也在集群上运行。

共有1个答案

余铭晨
2023-03-14

我发现spark submit将python库从主程序复制到工作程序。

请参阅下面的代码。

https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala#L485

我还听说它很受欢迎,但没有记录在案。

 类似资料:
  • 问题内容: 我的Android手机上有一个数据库,我需要将信息保存到 SD卡上。 是否可以将数据库文件以可读状态保存到SD卡上? 我尚未找到有关如何执行此操作的任何信息。 一些将数据库文件复制到SD卡的源代码将是理想的。 问题答案: 数据库文件与任何其他文件一样,如果您复制二进制文件,它将起作用。 Java没有内置的文件复制方法,因此您可以使用以下方法: 在Java中复制文件的标准简洁方法? 只是

  • 有什么可以让我开始的指针或示例代码吗?

  • 我想每小时将更新的文件从本地文件系统复制到Hadoop,因为我想放入cron。我可以使用任何hadoop命令将更新的文件从本地复制到Hadoop吗?

  • 问题内容: 我只想查看流程的状态,是否可以将控制台附加到流程中,所以我可以在流程内部调用函数并查看一些全局变量。 最好在不受影响的情况下运行该进程(当然,性能可能会下降一点) 问题答案: 如果您有权访问程序的源代码,则可以相对轻松地添加此功能。 参见配方576515: 去引用: 这提供了允许所有使用它的python程序在当前点被中断并通过普通python交互式控制台进行通信的代码。这允许调查本地,

  • 如何以编程方式将文件从手机内部存储器传输到USB驱动器?我没有获得获取外部目录所需的代码。 上面发布的代码仅获取SD卡位置。如何访问USB驱动器?

  • 我想附加一个EBS卷,而不是快照,作为我的spot实例的持久存储。我知道如何手动附加卷,挂载它,并使它在重新引导时生存下来,但我如何使它在启动时自动附加? 在启动实例时,我可以在用户数据中做些什么吗? 注意:我需要将完整的路径添加到aws以使其工作。另外,由于ami已经具有/data设置,我不需要