错误:
15/09/04 14:06:14 INFO HttpServer: Starting HTTP Server
15/09/04 14:06:14 INFO Utils: Successfully started service 'HTTP file server' on port 56407.
15/09/04 14:06:14 INFO SparkEnv: Registering OutputCommitCoordinator
15/09/04 14:06:15 INFO Utils: Successfully started service 'SparkUI' on port 4040.
15/09/04 14:06:15 INFO SparkUI: Started SparkUI at http://169.254.196.102:4040
15/09/04 14:06:18 INFO RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/09/04 14:06:20 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:22 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:24 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:26 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 3 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
15/09/04 14:06:28 INFO Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 4 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
Scala代码:
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by gfp2ram on 9/3/2015.
*/
object HiveConnect {
def main(args: Array[String]) {
System.setProperty("hadoop.home.dir", "C:\\hadoop\\hadoop-common-2.2.0-bin-master\\")
// val conf = new SparkConf().setAppName("HiveConnect").setMaster("yarn-client").set("spark.yarn.access.namenodes","hdfs://127.0.0.1:8020")
val conf = new SparkConf().setAppName("HiveConnect").setMaster("yarn-client")
val sc = new SparkContext(conf)
val sqlContext = new HiveContext(sc)
val df = sqlContext.sql("create table yahoo_orc_table (date STRING, open_price FLOAT, high_price FLOAT, low_price FLOAT, close_price FLOAT, volume INT, adj_price FLOAT) stored as orc")
val yahoo_stocks = sc.textFile("hdfs://127.0.0.1:8020/tmp/yahoo_stocks.csv")
val header = yahoo_stocks.first
val data = yahoo_stocks.filter(_(0) != header(0))
case class YahooStockPrice(date: String, open: Float, high: Float, low: Float, close: Float, volume: Integer, adjClose: Float)
val stockprice = data.map(_.split(",")).map(row => YahooStockPrice(row(0), row(1).trim.toFloat, row(2).trim.toFloat, row(3).trim.toFloat, row(4).trim.toFloat, row(5).trim.toInt, row(6).trim.toFloat))
println(stockprice)
stockprice.registerTempTable("yahoo_stocks_temp")
val results = sqlContext.sql("SELECT * FROM yahoo_stocks_temp")
results.map(t => "Stock Entry: " + t.toString).collect().foreach(println)
results.saveAsOrcFile("yahoo_stocks_orc")
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
val yahoo_stocks_orc = sqlContext.orcFile("yahoo_stocks_orc")
yahoo_stocks_orc.registerTempTable("orcTest")
sqlContext.sql("SELECT * from orcTest").collect.foreach(println)
}
}
我不能添加一个评论,由于缺乏声誉点。然而,从日志来看,spark似乎无法连接到资源管理器。
15/09/04 14:06:15信息SparkUI:在http://169.254.196.102:4040 15/09/04 14:06:18信息rmproxy:在/0.0.0.0:8032连接到ResourceManager
您能否ping并检查以确保resourcemanager可以从windows Mahine访问。
我正在玩Kafka-Connect。我让 在独立模式和分布式模式下工作。 他们宣传工人(负责运行连接器)可以通过 进行管理 但是,我还没有看到任何描述如何实现这一目标的文档。 我如何着手让< code>YARN执行工人?如果没有具体的方法,是否有通用的方法来让应用程序在< code>YARN中运行? 我已经使用< code>spark-submit将< code>YARN与SPARK一起使用,但是
Angel On Yarn运行 由于业界很多公司的大数据平台,都是基于Yarn搭建,所以Angel目前的分布式运行是基于Yarn,方便用户复用现网环境,而无需任何修改。 鉴于Yarn的搭建步骤和机器要求,不建议在小机器上,进行尝试该运行。如果一定要运行,最少需要6G的内存(1ps+1worker+1am),最好有10G的内存,比较宽裕。 1. 运行环境准备 Angel的分布式Yarn运行模式需要的
配置 大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。 Spark属性 Property Name Default Meaning spark.yarn.applicationMaster.waitTries 10 ApplicationMaster等待Spark master的次数以及SparkContext初始
问题内容: 我在本地计算机上设置了一个单节点Kafka Docker容器,如Confluent文档中所述(步骤2-3)。 另外,我还公开了Zookeeper的端口2181和Kafka的端口9092,以便能够从在本地计算机上运行的客户端连接到它们: 问题: 当我尝试从主机连接到Kafka时,连接失败,因为它。 这是我的Java代码: 例外: 问题: 如何连接到在Docker中运行的Kafka?我的代
我的docker撰写文件如下所示: 如果我在浏览器中键入http://localhost:15672,我将获得Rabbitmq界面,但是如果我试图像这样从我的探索项目连接: 然后它在队伍中断了 错误是说 ExtendedSocketException:连接被拒绝127.0。0.1:5672系统。网插座。插座EndConnect(IAsyncResult异步结果) ConnectFailureExc
我在docker compose yml文件中为广告侦听器配置了以下配置 警告O.apache.kafka.clients.networkclient-获取相关id为1的元数据时出错:{foo=leader_not_available} 主机可以从我的机器ping,因为它都在同一个网络中,没有防火墙问题。在docker容器中使用命令时,可以看到相同的主机名。我是不是漏掉了什么?