当前位置: 首页 > 知识库问答 >
问题:

在Windows 7中运行Spark SQL连接Yarn-Client

洪和平
2023-03-14

错误:

15/09/04 14:06:14 INFO HttpServer: Starting HTTP Server
15/09/04 14:06:14 INFO Utils: Successfully started service 'HTTP file server' on port 56407.
15/09/04 14:06:14 INFO SparkEnv: Registering OutputCommitCoordinator
15/09/04 14:06:15 INFO Utils: Successfully started service 'SparkUI' on port 4040.
15/09/04 14:06:15 INFO SparkUI: Started SparkUI at http://169.254.196.102:4040
15/09/04 14:06:18 INFO RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/09/04 14:06:20 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:22 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:24 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:26 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 3 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:28 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 4 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

Scala代码:

import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}


/**
 * Created by gfp2ram on 9/3/2015.
 */

object HiveConnect {
  def main(args: Array[String]) {
    System.setProperty("hadoop.home.dir", "C:\\hadoop\\hadoop-common-2.2.0-bin-master\\")
//    val conf = new SparkConf().setAppName("HiveConnect").setMaster("yarn-client").set("spark.yarn.access.namenodes","hdfs://127.0.0.1:8020")
    val conf = new SparkConf().setAppName("HiveConnect").setMaster("yarn-client")
    val sc = new SparkContext(conf)
    val sqlContext = new HiveContext(sc)
    val df = sqlContext.sql("create table yahoo_orc_table (date STRING, open_price FLOAT, high_price FLOAT, low_price FLOAT, close_price FLOAT, volume INT, adj_price FLOAT) stored as orc")
    val yahoo_stocks = sc.textFile("hdfs://127.0.0.1:8020/tmp/yahoo_stocks.csv")
    val header = yahoo_stocks.first
    val data = yahoo_stocks.filter(_(0) != header(0))
    case class YahooStockPrice(date: String, open: Float, high: Float, low: Float, close: Float, volume: Integer, adjClose: Float)
    val stockprice = data.map(_.split(",")).map(row => YahooStockPrice(row(0), row(1).trim.toFloat, row(2).trim.toFloat, row(3).trim.toFloat, row(4).trim.toFloat, row(5).trim.toInt, row(6).trim.toFloat))
    println(stockprice)
    stockprice.registerTempTable("yahoo_stocks_temp")
    val results = sqlContext.sql("SELECT * FROM yahoo_stocks_temp")
    results.map(t => "Stock Entry: " + t.toString).collect().foreach(println)
    results.saveAsOrcFile("yahoo_stocks_orc")
    val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
    val yahoo_stocks_orc = sqlContext.orcFile("yahoo_stocks_orc")
    yahoo_stocks_orc.registerTempTable("orcTest")
    sqlContext.sql("SELECT * from orcTest").collect.foreach(println)
  }
}

共有1个答案

邹学民
2023-03-14

我不能添加一个评论,由于缺乏声誉点。然而,从日志来看,spark似乎无法连接到资源管理器。

15/09/04 14:06:15信息SparkUI:在http://169.254.196.102:4040 15/09/04 14:06:18信息rmproxy:在/0.0.0.0:8032连接到ResourceManager

您能否ping并检查以确保resourcemanager可以从windows Mahine访问。

 类似资料:
  • 我正在玩Kafka-Connect。我让 在独立模式和分布式模式下工作。 他们宣传工人(负责运行连接器)可以通过 进行管理 但是,我还没有看到任何描述如何实现这一目标的文档。 我如何着手让< code>YARN执行工人?如果没有具体的方法,是否有通用的方法来让应用程序在< code>YARN中运行? 我已经使用< code>spark-submit将< code>YARN与SPARK一起使用,但是

  • Angel On Yarn运行 由于业界很多公司的大数据平台,都是基于Yarn搭建,所以Angel目前的分布式运行是基于Yarn,方便用户复用现网环境,而无需任何修改。 鉴于Yarn的搭建步骤和机器要求,不建议在小机器上,进行尝试该运行。如果一定要运行,最少需要6G的内存(1ps+1worker+1am),最好有10G的内存,比较宽裕。 1. 运行环境准备 Angel的分布式Yarn运行模式需要的

  • 配置 大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。 Spark属性 Property Name Default Meaning spark.yarn.applicationMaster.waitTries 10 ApplicationMaster等待Spark master的次数以及SparkContext初始

  • 问题内容: 我在本地计算机上设置了一个单节点Kafka Docker容器,如Confluent文档中所述(步骤2-3)。 另外,我还公开了Zookeeper的端口2181和Kafka的端口9092,以便能够从在本地计算机上运行的客户端连接到它们: 问题: 当我尝试从主机连接到Kafka时,连接失败,因为它。 这是我的Java代码: 例外: 问题: 如何连接到在Docker中运行的Kafka?我的代

  • 我的docker撰写文件如下所示: 如果我在浏览器中键入http://localhost:15672,我将获得Rabbitmq界面,但是如果我试图像这样从我的探索项目连接: 然后它在队伍中断了 错误是说 ExtendedSocketException:连接被拒绝127.0。0.1:5672系统。网插座。插座EndConnect(IAsyncResult异步结果) ConnectFailureExc

  • 我在docker compose yml文件中为广告侦听器配置了以下配置 警告O.apache.kafka.clients.networkclient-获取相关id为1的元数据时出错:{foo=leader_not_available} 主机可以从我的机器ping,因为它都在同一个网络中,没有防火墙问题。在docker容器中使用命令时,可以看到相同的主机名。我是不是漏掉了什么?