当前位置: 首页 > 知识库问答 >
问题:

如何在Azure HDInsight上向Hadoop YARN提交Apache Spark作业

郑锦
2023-03-14

也许一定有一个更合适的方式来提交火花工作。有人知道如何将Apache Spark作业远程提交到hDinsight吗?

多谢!

共有1个答案

阮桐
2023-03-14

您可以在hdinsight集群上安装spark。您必须创建一个自定义集群,并添加一个操作脚本,该脚本将在为集群创建VM时在集群上安装Spark。

在集群安装中使用操作脚本进行安装非常容易,您可以在C#或powershell中通过向标准的自定义创建集群脚本/程序中添加几行代码来完成。

PowerShell:

# ADD SCRIPT ACTION TO CLUSTER CONFIGURATION
$config = Add-AzureHDInsightScriptAction -Config $config -Name "Install Spark" -ClusterRoleCollection HeadNode -Urin https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1
// ADD THE SCRIPT ACTION TO INSTALL SPARK
clusterInfo.ConfigActions.Add(new ScriptAction(
  "Install Spark", // Name of the config action
  new ClusterNodeType[] { ClusterNodeType.HeadNode }, // List of nodes to install Spark on
  new Uri("https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv02/spark-installer-v02.ps1"), // Location of the script to install Spark
  null //because the script used does not require any parameters.
));
 类似资料:
  • 我试图提交一个作业在运行Presto的群集与postgresql连接器。 集群初始化如下所示: 指向一个bash文件,其中包含使用postgresql启动presto集群的初始化操作。 我不使用,因为我需要来执行非默认操作。同时具有和都不起作用。 当我尝试运行简单作业时: 我得到以下错误: 是否有其他方法来定义集群上的可选组件? 更新: 同时使用和,如下所示: 是从该repo复制的。只需对函数以创

  • 我有几千个作业要在一个有16个节点的SLURM集群上运行。这些作业应该只在大小为7的可用节点的子集上运行。一些任务是并行化的,因此使用单个节点的所有CPU能力,而其他任务是单线程的。因此,多个作业应该在单个节点上同时运行。任何任务都不应该在多个节点上产生。 强制slurm在指定节点上同时运行多个作业的的最佳参数是什么?

  • 在ResourceManager节点上启动flink作业(查找配置文件) 从ResourceManager下载配置文件到本地。 我想,这两种方式都不太好。如何将作业提交到远程纱线集群。有没有合适的办法?

  • im关注亚马逊文档,向emr集群提交spark作业https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/ 在按照说明进行操作后,使用frecuent进行故障排除,它由于未解析的地址与消息类似而失败。 错误火花。SparkContext:初始化SparkContext时出错

  • 文:薰依 和 Cocos2d-x 一样,Cocos Creator 也是一个开源引擎,连同范例、文档都是开源的。 在你开发游戏的过程中,当发现了引擎、文档或者范例不够完善的地方,如果仅仅是向官方团队提出建议,官方团队可能会因为人力资源的紧张而无法及时跟进。在此我们欢迎所有用户主动向我们提交 PR,帮助 Cocos 越做越好。引擎有 Bug?提 PR!范例难看?提 PR!API 注释不清晰?提 PR

  • 每个人都试着用https://console.developers.google.com/project/_/mc/template/hadoop? Spark对我来说安装正确,我可以SSH进入hadoop worker或master,Spark安装在/home/hadoop/Spark install/ 我可以使用spark python shell在云存储中读取文件 lines=sc.text