问题：

在Windows 7中运行Spark SQL连接Yarn-Client

洪和平

2023-03-14

错误：

15/09/04 14:06:14 INFO HttpServer: Starting HTTP Server
15/09/04 14:06:14 INFO Utils: Successfully started service 'HTTP file server' on port 56407.
15/09/04 14:06:14 INFO SparkEnv: Registering OutputCommitCoordinator
15/09/04 14:06:15 INFO Utils: Successfully started service 'SparkUI' on port 4040.
15/09/04 14:06:15 INFO SparkUI: Started SparkUI at http://169.254.196.102:4040
15/09/04 14:06:18 INFO RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/09/04 14:06:20 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:22 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:24 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:26 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 3 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:28 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 4 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

Scala代码：

import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}


/**
 * Created by gfp2ram on 9/3/2015.
 */

object HiveConnect {
  def main(args: Array[String]) {
    System.setProperty("hadoop.home.dir", "C:\\hadoop\\hadoop-common-2.2.0-bin-master\\")
//    val conf = new SparkConf().setAppName("HiveConnect").setMaster("yarn-client").set("spark.yarn.access.namenodes","hdfs://127.0.0.1:8020")
    val conf = new SparkConf().setAppName("HiveConnect").setMaster("yarn-client")
    val sc = new SparkContext(conf)
    val sqlContext = new HiveContext(sc)
    val df = sqlContext.sql("create table yahoo_orc_table (date STRING, open_price FLOAT, high_price FLOAT, low_price FLOAT, close_price FLOAT, volume INT, adj_price FLOAT) stored as orc")
    val yahoo_stocks = sc.textFile("hdfs://127.0.0.1:8020/tmp/yahoo_stocks.csv")
    val header = yahoo_stocks.first
    val data = yahoo_stocks.filter(_(0) != header(0))
    case class YahooStockPrice(date: String, open: Float, high: Float, low: Float, close: Float, volume: Integer, adjClose: Float)
    val stockprice = data.map(_.split(",")).map(row => YahooStockPrice(row(0), row(1).trim.toFloat, row(2).trim.toFloat, row(3).trim.toFloat, row(4).trim.toFloat, row(5).trim.toInt, row(6).trim.toFloat))
    println(stockprice)
    stockprice.registerTempTable("yahoo_stocks_temp")
    val results = sqlContext.sql("SELECT * FROM yahoo_stocks_temp")
    results.map(t => "Stock Entry: " + t.toString).collect().foreach(println)
    results.saveAsOrcFile("yahoo_stocks_orc")
    val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
    val yahoo_stocks_orc = sqlContext.orcFile("yahoo_stocks_orc")
    yahoo_stocks_orc.registerTempTable("orcTest")
    sqlContext.sql("SELECT * from orcTest").collect.foreach(println)
  }
}

共有1个答案

邹学民

2023-03-14

我不能添加一个评论，由于缺乏声誉点。然而，从日志来看，spark似乎无法连接到资源管理器。

15/09/04 14:06:15信息SparkUI：在http://169.254.196.102:4040 15/09/04 14:06:18信息rmproxy：在/0.0.0.0:8032连接到ResourceManager

您能否ping并检查以确保resourcemanager可以从windows Mahine访问。

类似资料：

如何在YARN中运行Kafka连接工作人员？

我正在玩Kafka-Connect。我让在独立模式和分布式模式下工作。他们宣传工人（负责运行连接器）可以通过进行管理但是，我还没有看到任何描述如何实现这一目标的文档。我如何着手让< code>YARN执行工人？如果没有具体的方法，是否有通用的方法来让应用程序在< code>YARN中运行？我已经使用< code>spark-submit将< code>YARN与SPARK一起使用，但是
Yarn运行

Angel On Yarn运行由于业界很多公司的大数据平台，都是基于Yarn搭建，所以Angel目前的分布式运行是基于Yarn，方便用户复用现网环境，而无需任何修改。鉴于Yarn的搭建步骤和机器要求，不建议在小机器上，进行尝试该运行。如果一定要运行，最少需要6G的内存（1ps+1worker+1am），最好有10G的内存，比较宽裕。 1. 运行环境准备 Angel的分布式Yarn运行模式需要的
在yarn上运行Spark

配置大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。 Spark属性 Property Name Default Meaning spark.yarn.applicationMaster.waitTries 10 ApplicationMaster等待Spark master的次数以及SparkContext初始
连接到在Docker中运行的Kafka

问题内容：我在本地计算机上设置了一个单节点Kafka Docker容器，如Confluent文档中所述（步骤2-3）。另外，我还公开了Zookeeper的端口2181和Kafka的端口9092，以便能够从在本地计算机上运行的客户端连接到它们：问题：当我尝试从主机连接到Kafka时，连接失败，因为它。这是我的Java代码：例外：问题：如何连接到在Docker中运行的Kafka？我的代
RabbitMq在docker中运行时拒绝连接

我的docker撰写文件如下所示：如果我在浏览器中键入http://localhost:15672，我将获得Rabbitmq界面，但是如果我试图像这样从我的探索项目连接：然后它在队伍中断了错误是说 ExtendedSocketException:连接被拒绝127.0。0.1:5672系统。网插座。插座EndConnect（IAsyncResult异步结果） ConnectFailureExc
无法连接在docker中运行的Kafka

我在docker compose yml文件中为广告侦听器配置了以下配置警告O.apache.kafka.clients.networkclient-获取相关id为1的元数据时出错：{foo=leader_not_available} 主机可以从我的机器ping，因为它都在同一个网络中，没有防火墙问题。在docker容器中使用命令时，可以看到相同的主机名。我是不是漏掉了什么？

在Windows 7中运行Spark SQL连接Yarn-Client

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档