我读了很多和Storm有关的网站。但我仍然无法将拓扑结构完美地映射到Storm集群中。
请帮助我理解这一点。
在Storm集群中有这样的术语
所有这些都要用Storm集群来映射。我已经在一个项目里工作了。所以我知道拓扑结构。
物理群集设置:
术语节点通常指的是集群中的物理机器(或VM)。在每个节点上,一个supervisor运行在自己的JVM中。主管有工作人员插槽。这是一个逻辑配置,告诉一个主管可以启动多少个worker。每个工作者(如果启动)在自己的JVM中运行(因此,有些人称之为工作者进程)。总而言之:在一个节点上,有一个supervisor JVM和多个worker-slots的worker JVM。因此,工作JVM运行的节点可以称为工作节点。当supervisor始终运行时,如果需要(即部署了拓扑),则启动工人,并在终止拓扑时停止工人。在worker中,执行程序作为线程运行(即,每个执行程序映射到自己的线程)。
逻辑拓扑设置:
我试图在storm Clustre上部署一个简单的字数拓扑。我使用kafka作为输入(kafka Spout)。这是我得到的错误 java.lang.noClassDefFoundError:无法初始化类org.apache.log4j.log4jLogger.getLogger(logger.java:39)在kafka.utils.logging$class.logger(logger.sca
问题内容: 我在使用IDE向生产集群提交拓扑时遇到了一个问题,而如果我在命令行中使用command 执行同样的事情,它的运行就像天堂一样。我从githublink看到了同样的例子。 为了提交拓扑,我正在使用这些行集 请建议我这是否是运行的正确方法? 问题答案: 很好找到解决方案。当我们运行“ storm jar”时,它将在提交的jar中触发storm.jar的属性标志。因此,如果我们要以编程方式提
我正在尝试使用Eclipse在Linux中运行Storm启动示例。我收到以下错误和函数从未被调用。 错误: 我的拓扑类: 我正在虚拟机环境中工作,所以不知道这是否是由于安装了Zookeeper。有什么想法吗?
8台机器一直在使用。每一个都有22个核心和512 GB的RAM。但是,我们的代码运行得真的很慢。传输600万个数据需要10分钟才能完成。 60个文件中的10 MB在一秒钟内传输到HDFS。我们正在努力优化我们的代码,但很明显我们做了一些非常错误的事情。 对于蜂巢表,我们有64个桶。 在HDFS喷口;.setmaxextending(50000); 在蜂巢喷口选项;.WithTxNsperBatch
如何为storm拓扑提供自定义配置?例如,如果我构建了一个连接到MySQL集群的拓扑,并且我希望能够更改需要连接到哪些服务器而不需要重新编译,我将如何做到这一点?我更喜欢使用配置文件,但我担心文件本身没有部署到集群中,因此它不会运行(除非我对集群工作方式的理解有缺陷)。到目前为止,我所看到的在运行时将配置选项传递到storm拓扑的唯一方法是通过命令行参数,但当您获得大量参数时,这将是混乱的。 有一
> 灵光升起 StormUI启动 我使用的两个工人都起来了 Zookeper已启动 我和暴风一起跑 Storm罐myjar.jar MyClass Nimbus提交拓扑 该拓扑的日志文件不会出现在workers中。 我在supervisor.log上的worker中有以下日志: 所以我确信我与nimbus有连接问题,但是worker中的属性文件是: 错误在哪里,我如何修复它? 谢了!