有没有一种方法可以暂停Dataproc群集,这样当我不积极运行火花外壳或火花提交作业时就不会收到账单?此链接处的群集管理说明:https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/
仅演示如何销毁群集,但我安装了spark cassandra连接器API。这是我创建每次都需要安装的映像的唯一选择吗?
一般来说,最好的做法是将用于自定义群集的步骤提炼到一些安装脚本中,然后使用Dataproc的初始化操作来轻松地在群集部署期间自动执行安装。
通过这种方式,如果您希望在多个并发Dataproc群集上执行相同的设置,或希望更改机器类型,或接收Dataproc偶尔发布的次小版本错误修复,则可以轻松地再现自定义,而不需要手动参与。
目前确实没有官方支持的暂停Dataproc集群的方法,很大程度上仅仅是因为能够进行可复制的集群部署以及下面列出的其他几个考虑因素意味着99%的时候最好使用初始化-操作定制而不是暂停就地集群。也就是说,可能会有短期黑客攻击,例如进入谷歌计算引擎页面,选择您想要暂停的数据处理群集的实例,然后单击“停止”而不删除它们。
计算引擎每小时费用和Dataproc的每vCPU费用仅在基础实例运行时产生,因此当您手动“停止”实例时,尽管Dataproc仍然将群集列为“运行”,但您不会产生Dataproc或计算引擎的实例小时费用,尽管有警告如果转到Dataproc群集摘要页的"VM实例"选项卡,就会看到。
然后,您应该能够从谷歌计算引擎页面单击“开始”,让集群再次运行,但重要的是要考虑以下警告:
Dataproc最近推出了停止和启动群集的功能:https://cloud.google.com/dataproc/docs/guides/dataproc-start-stop
我使用Google Cloud Dataproc运行Jupyter笔记本(按照以下说明:https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook). 我运行了一个笔记本,保存了它,然后在稍后的某个时候,停止了集群(使用图形用户界面)。然后后来我重新启动集群,并试图运行Jupyter笔记本再次与相同的说明,但在最后一步,当我试
我有一个小游戏,当用户按下暂停按钮时,我需要暂停计时器,然后恢复计时器,并在用户按下恢复按钮时继续增加秒数。我研究了很多,我尝试了不同的解决方案,但没有一个对我有效。你能帮我实现这个功能吗?下面是我的代码: 谢谢你读这篇文章。
我使用下面的命令来创建数据进程集群: gCloud dataproc集群创建informetis-dev-初始化-动作"gs://dataproc-初始化-动作/jupyter/jupyter.sh, gs://dataproc-初始化-动作/Cloud-sql-代理/cloud-sql-proxy.sh, gs://dataproc-初始化-动作/hue/hue.sh, gs://datapro
我试图让这三个工具在谷歌云平台上一起工作。所以我使用Dataproc创建了一个带有初始化脚本的Spark集群来安装cassandra和jupyter。 当我用ssh连接集群并启动“pyspark—packages datastax:spark cassandra connector:2.3.0-s_2.11”时,一切似乎都正常 编辑:事实上,spark shell可以,但pyspark不行。 我不
暂停脚本的当前线程。 #p::Pause ; 按一次 Win+P 会暂停脚本. 再按一次则取消暂停. Pause [, On|Off|Toggle, OperateOnUnderlyingThread?] 参数 On|Off|Toggle 如果为空或省略, 则它默认为 Toggle. 否则, 请指定下列单词的其中一个: Toggle:如果在当前线程下的潜在线程处于运行状态,则暂停当前线程,否则让潜
本文向大家介绍集群计算与网格计算之间的区别,包括了集群计算与网格计算之间的区别的使用技巧和注意事项,需要的朋友参考一下 集群计算 群集计算机是指目标是作为同一单元工作的相同类型计算机的网络。当资源匮乏的任务需要较高的计算能力或内存时,可以使用这种网络。将两个或更多相同类型的计算机组合在一起以组成集群并执行任务。 网格计算 网格计算是指由相同或不同类型的计算机组成的网络,其目标是提供一种环境,在该环