hduser@hadoop-master-mp:~$ jps
20102 ResourceManager
19736 DataNode
20264 NodeManager
24762 Master
19551 NameNode
24911 Worker
25423 Jps
并编写下面的查询,它是只在我的master上运行,还是将所有10个节点都用作worker?
scala> sqlContext.sql("CREATE TABLE sample_07 (code string,description string,total_emp int,salary int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TextFile")
如果不是,我必须做什么才能让我的Spark Sql使用完整的集群?
您需要群集管理器来管理主和工作人员。您可以选择spark Standonal、yarn或mesos集群管理器。我会建议spark独立集群管理器而不是yarn来启动这些事情。
要启动它,请在所有节点上下载spark发行版(为hadoop预编译),并在spark-env.sh中设置hadoop类路径和其他重要配置。
1)使用/sbin/start-master.sh启动主程序
再次检查主网页。它应该列出页面上的所有工人。如果它没有列出,那么你需要从日志中找出错误。
3)请检查机器的核心和内存,以及主网页上显示的每个工作人员的核心和内存,如果不匹配,您可以玩命令分配它们。
使用spark 1.5.2或更高版本,请遵循这里的详细信息
问题内容: 我尝试在Google Container Engine的群集节点上安装ElasticSearch(最新版本),但是ElasticSearch需要变量:>> 262144。 如果我ssh到每个节点并手动运行: 一切正常,但是任何新节点将没有指定的配置。 所以我的问题是: 有没有办法在引导时在每个节点上加载系统配置?Deamon Set并不是一个好的解决方案,因为在Docker容器中,系统
我对container worrld是新手,并试图在两个linux VM中本地设置一个kubernetes集群。在集群初始化期间,它卡在 KubeADM-1.6.0-0.x86_64.rpm KubectL-1.6.0-0.x86_64.rpm Kubelet-1.6.0-0.x86_64.rpm
不幸的是,我有一个工作是对RAM中的数据进行操作,但没有同步设置。我能看到的最简单的解决方案是让一个作业在所有节点上运行而不进行协调,就像使用一样。 是否有方法将作业配置为在LocalDataSourceJobStore下的所有节点上运行? 精确的定时并不重要,但作业必须每30分钟在每个节点上运行一次
我一直在试验Vert. x的高可用性功能来测试水平可扩展性和弹性。我有一个基于Hazelcast的几个节点的集群。我正在通过HTTP应用编程接口在任何节点上创建顶点。Verticle在创建时设置了标志。 如果我有< code>n个节点< code>Nn加载了HA-verticles,并且如果我添加了一个额外的节点,则没有从新节点上的< code>Nn节点迁移的vertices,因此负载将会平衡。有
我试图设置一个火花3光泽使用两个系统运行Windows10。我可以开始用master ,它在启动主程序