当前位置: 首页 > 知识库问答 >
问题:

使用JAR文件作为DataRicks集群库

鲍建业
2023-03-14

我需要安装一个JAR文件作为库,同时设置数据库群集作为Azure发布管道的一部分。到目前为止,我已经完成了以下工作-

  • 使用Azure CLI任务创建群集定义
  • 使用curl命令将JAR文件从Maven仓库下载到管道代理文件夹
  • 在管道代理上设置数据库CLI
  • 使用数据集fs cp将JAR文件从本地(管道代理)目录复制到dbfs:/FileStore/jars文件夹

我正在尝试创建一个集群范围的init脚本(bash)脚本,它将-

  • 安装熊猫,天蓝色宇宙和python魔术包
  • 将JAR文件(在前面的步骤中已经复制到dbfs:/FileStore/jars位置)安装为群集库文件

我的集群初始化脚本如下所示-

#!/bin/bash
/databricks/python/bin/pip install pandas 2>/dev/null
/databricks/python/bin/pip install azure-cosmos 2>/dev/null
/databricks/python/bin/pip install python-magic 2>/dev/null

但我不知道-

  • 如果这会将包添加到群集
  • 如何将现有的JAR文件作为库添加到集群中

我知道还有其他方法来编辑群集库元数据,但据我所知,群集库的任何更改都需要群集处于运行状态,而我们的情况可能不是这样。这就是为什么,我想在我的集群定义中添加一个初始化脚本,这样,当集群重新启动/运行时,初始化脚本将被执行。

请帮忙。

谢谢Subhash

共有1个答案

姬昀
2023-03-14

如果只想将jar文件复制到集群节点中,只需将它们复制到/databricks/jars文件夹中,如下所示(作为init脚本的一部分):

cp `/dbfs/FileStore/jars/<file-name.jar> /databricks/jars/

cp `/dbfs/FileStore/jars/*.jar /databricks/jars/

关于init脚本的其余部分——是的,它将根据需要在所有集群节点上安装软件包。只有两条评论:

  • 您可以使用一个pip命令安装多个软件包-它应该比逐个安装略快:
#!/bin/bash
/databricks/python/bin/pip install pandas azure-cosmos python-magic
  • 使用2

 类似资料:
  • 问题内容: 我正在尝试做类似的事情 其中client.ks是我正在运行的jar文件中com / messaging中存储的文件。 读取javax.net.ssl.keyStore的对象期望jar中的client.ks文件的路径。如果可能的话,我宁愿不提取文件并将其放在客户端的计算机上。那么可以在jar中引用文件吗? 这不起作用,因为getPath()返回null。还有另一种方法吗? 问题答案: 仍

  • 问题内容: 我想使用jar文件中的java代码播放.wav文件作为资源。我的代码看起来像这样- 我的jar文件之一中存在WindowsNavigationStart.wav文件。但是得到以下异常- 请给我一个解决方案。谢谢你们。 问题答案: 更改: 至:

  • Kubernetes 的认证方式对于不同的人来说可能有所不同。 运行 kubelet 可能有一种认证方式(即证书)。 用户可能有不同的认证方式(即令牌)。 管理员可能具有他们为个人用户提供的证书列表。 我们可能有多个集群,并希望在同一个地方将其全部定义——这样用户就能使用自己的证书并重用相同的全局配置。 所以为了能够让用户轻松地在多个集群之间切换,对于多个用户的情况下,我们将其定义在了一个 kub

  • 当两个或多个记录存储在同一文件中时,它称为群集。 这些文件在同一数据块中有两个或多个表,并且用于将这些表映射到一起的键属性仅存储一次。 该方法降低了在不同文件中搜索各种记录的成本。 当经常需要以相同条件连接表时,将使用群集文件组织。这些连接只会从两个表中提供几条记录。 在给定的示例中,仅检索指定部门的记录。此方法不能用于检索整个部门的记录。 在这种方法中,可以直接插入,更新或删除任何记录。 数据根

  • 注:内容翻译自 Clustering Guide 概述 启动 etcd 集群要求每个成员知道集群中的其他成员。在一些场景中,集群成员的 IP 地址可能无法提前知道。在这种情况下,etcd 集群可以在发现服务的帮助下启动。 一旦 etcd 集群启动并运行,通过 运行时重配置 来添加或者移除成员。为了更好的理解运行时重配置背后的设计,建议阅读 运行时重配置的设计。 这份指南将覆盖下列用于启动 etcd