当前位置: 首页 > 知识库问答 >
问题:

graphite或grafana可以用于监测pyspark指标吗?

朱通
2023-03-14

在pyspark项目中,我们有pysparkdataframe.foreach分区(func),在该func中,我们有一些aiohttp调用来传输数据。什么类型的监控工具可以用来监控数据速率、吞吐量、经过时间等指标...?在这种情况下,我们可以使用statsd和石墨或grafana吗(如果可能的话,它们是首选)?谢谢。

共有1个答案

微生智刚
2023-03-14

这是我的解决方案。我使用PySpark的累加器在每个分区的驱动程序节点收集指标(http调用数、每次调用发送的有效负载等),将这些累加器的值分配给statsD变量,并将这些指标发送到Graphite服务器,最终在Grafana仪表板中可视化。到目前为止效果很好。

 类似资料:
  • 描述 作为grafana和prometheus世界的新手,我正在努力将laravel php cli应用程序中的自定义指标添加到grafana云,最好是通过grafana代理。 情况 我在一个linux服务器上使用grafana云和他们的grafana代理,该服务器运行一个laravel php工作者,没有Web服务器。grafana代理运行node_exporter集成。我已经尝试找到一些关于如

  • 我们使用Jersey和web创建了多个APIendpoint。xml设置而不是资源配置设置。我们希望捕获并显示每个endpoint的所有请求的度量,包括所有不同的响应代码。到目前为止,我已经创建了一个类,它扩展了InstrumentedFilterContextListener,并在其中包含了Graphite reporter。 在web.xml中,我添加了以下块来使报告工作: 因此,通过上述配置

  • 我们正在使用(Graphite Grafana)收集某些指标,将它们用作监控系统运行状况和性能的工具。 对于其中一个延迟度量,我们得到总时间以及它组成的所有子组件的延迟。 我们显示所有值的第99个百分位。然而,如果我们将子组件延迟的第99个百分位相加,它们并不等于总时间的第99个百分位。 从本质上讲,如果百分位数可以遵循求和规则,那么它就会下降。即 这个行吗?

  • 做运维,不怕出问题,怕的是出了问题,抓不到现场,两眼摸黑。所以,依靠强大的监控系统,收集尽可能多的指标,意义重大。但哪些指标才是有意义的呢,本着从实践中来的思想,各位工程师在长期摸爬滚打中总结出来的经验最有价值。 在各位运维工程师长期的工作实践中,我们总结了在系统运维过程中,经常会参考的一些指标,主要包括以下几个类别: CPU Load 内存 磁盘 IO 网络相关 内核参数 ss 统计输出 端口采

  • 等。 此数据将持续过帐以在数据报告中使用。我们想要的是在这些数据上绘制可视化。 我们想要的图表,将说的事情,如有多少400s由网站等,这是最高的网站或呼叫者有400。 对于例如,这个http状态是这个站点的,因为它是一个记录。在这种情况下,我们需要像这样的东西 我们的目标是,然后使用grafana在这个数据上有图表,因为在什么是顶级网站有显示400状态?这样可以吗?问候

  • Spring-Boot执行器在中公开了许多有用的指标,例如正常运行时间、内存使用情况、GC计数。 在使用Dropwizard Metrics集成时,只有其中的一部分被发送到Graphite。具体来说,只有计数器和仪表 有什么方法可以将这些其他指标发布到石墨上吗? 文件表明,应该可以: Dropwizard“Metrics”库的用户会发现Spring Boot指标会自动发布到com。科达哈尔。韵律学