我通过独立集群配置构建了Spark集群。
PYSPARK_PYTHON=/usr/bin/python2。7.
from pyspark import SparkContext from sklearn import datasets, svm def run(sc): iris = datasets.load_iris() digits = [ datasets.load_digits(), datasets.load_digits()] def learn(x): clf = svm.SVC(gamma=0.001, C=100.) clf.fit(x.data[:-1], x.target[:-1] ) return clf.predict(x.data[-1]) return sc.parallelize(digits).map(learn).collect() if __name__ == '__main__': print run(SparkContext() )
我使用spark submit将此代码提交给spark master。
spark-submit --master spark://192.168.18.31:7077 /master/scipy_example.py
我以为这段代码不会工作,因为我没有安装sci-py在工人。但它起作用了。这样做对吗?我通过Web-UI确认了此代码也在集群上运行。
我发现spark submit将python库从主程序复制到工作程序。
请参阅下面的代码。
https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala#L485
我还听说它很受欢迎,但没有记录在案。
问题内容: 我的Android手机上有一个数据库,我需要将信息保存到 SD卡上。 是否可以将数据库文件以可读状态保存到SD卡上? 我尚未找到有关如何执行此操作的任何信息。 一些将数据库文件复制到SD卡的源代码将是理想的。 问题答案: 数据库文件与任何其他文件一样,如果您复制二进制文件,它将起作用。 Java没有内置的文件复制方法,因此您可以使用以下方法: 在Java中复制文件的标准简洁方法? 只是
有什么可以让我开始的指针或示例代码吗?
我想每小时将更新的文件从本地文件系统复制到Hadoop,因为我想放入cron。我可以使用任何hadoop命令将更新的文件从本地复制到Hadoop吗?
问题内容: 我只想查看流程的状态,是否可以将控制台附加到流程中,所以我可以在流程内部调用函数并查看一些全局变量。 最好在不受影响的情况下运行该进程(当然,性能可能会下降一点) 问题答案: 如果您有权访问程序的源代码,则可以相对轻松地添加此功能。 参见配方576515: 去引用: 这提供了允许所有使用它的python程序在当前点被中断并通过普通python交互式控制台进行通信的代码。这允许调查本地,
如何以编程方式将文件从手机内部存储器传输到USB驱动器?我没有获得获取外部目录所需的代码。 上面发布的代码仅获取SD卡位置。如何访问USB驱动器?
我想附加一个EBS卷,而不是快照,作为我的spot实例的持久存储。我知道如何手动附加卷,挂载它,并使它在重新引导时生存下来,但我如何使它在启动时自动附加? 在启动实例时,我可以在用户数据中做些什么吗? 注意:我需要将完整的路径添加到aws以使其工作。另外,由于ami已经具有/data设置,我不需要