当前位置：首页 > 软件库 > 数据库相关 > 数据库管理工具 >

Spark-edshift

Spark 和 Redshift 整合

授权协议 Apache

开发语言 Scala

所属分类数据库相关、数据库管理工具

软件类型开源软件

地区不详

投递者别子实

操作系统跨平台

开源组织无

适用人群未知

软件概览

Spark-edshift 是可以从 Amazon Redshift 加载数据到 Spark SQL DataFrames 中的库，并且还可以写回到 Redshift 列表中。Amazon S3 可以让数据高效地转入或转出 Redshift，并且可以自动触发 Redshift 相应的 COPY 和 UNLOAD 指令。

示例代码：

import org.apache.spark.sql._val sc = // existing SparkContextval sqlContext = new SQLContext(sc)// Get some data from a Redshift tableval df: DataFrame = sqlContext.read
    .format("com.databricks.spark.redshift")
    .option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
    .option("dbtable", "my_table")
    .option("tempdir", "s3n://path/for/temp/data")
    .load()// Can also load data from a Redshift queryval df: DataFrame = sqlContext.read
    .format("com.databricks.spark.redshift")
    .option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
    .option("query", "select x, count(*) my_table group by x")
    .option("tempdir", "s3n://path/for/temp/data")
    .load()// Apply some transformations to the data as per normal, then you can use the// Data Source API to write the data back to another tabledf.write
  .format("com.databricks.spark.redshift")
    .option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
    .option("dbtable", "my_table_copy")
    .option("tempdir", "s3n://path/for/temp/data")
  .mode("error")
  .save()

使用案例

SparkConf、spark-submit以及spark-defaults.conf

北风网spark学习笔记 SparkConf、spark-submit以及spark-defaults.conf spark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性，并传递给我们的spark应用程序加载默认的配置属性，一大好处就在于，我们不需要在spark-submit脚本中设置所有的属性比如说，默认属性中有一个spark.master属性，
spark-submit 命令使用详解

spark-submit 命令使用详解 spark-submit 用户打包 Spark 应用程序并部署到 Spark 支持的集群管理气上，命令语法如下： spark-submit [options] <python file> [app arguments] app arguments 是传递给应用程序的参数，常用的命令行参数如下所示： –master: 设置主节点 URL 的参数。支持： lo
搞懂spark-submit参数及应用程序提交（详细）

提交申请 spark的bin目录中的spark submit脚本用于在集群上启动应用程序。它可以通过一个统一的接口使用Spark支持的所有集群管理器，这样您就不必特别为每个集群管理器配置应用程序。捆绑应用程序的依赖项如果代码依赖于其他项目，则需要将它们与应用程序一起打包，以便将代码分发到Spark集群。为此，创建一个包含代码及其依赖项的程序集jar（或“uber”jar）。sbt和Maven都
spark-submit提交python脚本过程记录

最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数 1.spark-submit参数 --master MASTER_URL:设置集群的主URL，用于决定任务提交到何处执行。常见的选项有 loca
hive（spark-sql） -e -f -d以及传参数, sh并行

1、统计hive一个库下的表的个数 hive -e" use databases; show tables; --show tables like 'edw*'; "| grep -v tmp |wc -l 1、hive -e" use databases show tables; "> database_name_tables.txt 2、统计量 wc -l database_name_t
spark：spark-submit 提交任务及参数说明（yarn）

Spark：对于提交命令的理解： https://blog.csdn.net/weixin_38750084/article/details/106973247 spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。代码中配置： util： import org.apache.spark.serializer.KryoSeriali
spark-submit提交python任务

1、提交python文件，遇到的难点是python文件缺乏运行所需要的依赖模块。 python3 -m pip install xx 我使用的是将anaconda打包放在HDFS上。基础是已经有同事在linux服务器上安装好了anaconda2，很方便。首先是将文件夹，打包成zip格式: zip -r anaconda2.zip anaconda2。然后上传文件至HDFS服务器。对于缺乏的
如何在spark-shell中调试运行scala文件

概述本文讲述如何通过spark-shell来调试scala代码文件，这样不需要IDE就可以对scala文件进行调试，在代码量较小的情况下比较适用。方法1：使用:load 命令有时候为了在spark-shell中调试一段代码，可以在spark-shell中使用:load 命令。如下： test.scala文件内容 val df3 = Seq((100,"xiaoming",30)).toDF(
beeline，spark-beeline，spark-sql区别

命令连接用户执行计算框架说明备注 beeline 登录的集群用户 MapReduce 使用此命令可以以命令行的方式访问JDBCServer2x，进行Hive的元数据服务访问，以及执行查询语句等。 hive原生 spark-sql 登录的集群用户 spark2x 使用此命令可以很方便的访问Hive的元数据服务，并且使用命令行的形式执行查询等服务。 spark2x命令 spark-beelin

Spark-edshift

同类工具

相关阅读

相关文章

相关问答

相关文档