如果有人能解释一下Twitter Storm和Apache Hadoop在架构上的区别,那就太好了?我正在寻找一些超出实时V/S批处理的内部东西。因为这两种技术在编写Storm的拓扑或Hadoop上的map-reduce、Hadoop的task tracker/Job tracker和Storm的等效Nimbus/Supervisor以及Storm上的Hadoop分区和等效的shuffling(随机、字段等)等方面非常相似(如果我说Storm在内部使用消息队列在spouts/bolt之间传输数据,这对Hadoop不完全是这样的,因为其中创建了中间文件,因此涉及I/O)
编辑:
我已经讨论了Apache Storm与Hadoop的比较问题,但公认的答案让我想知道的不仅仅是用例,即实时V/S批处理。
主要的区别是Storm可以实时处理Tupple s(传入数据)流,而Hadoop可以用MapReduce作业进行批处理。
它们都是以分布式的方式处理数据的,但是使用storm您可以使用实时的analitics,而您将不得不等待mapreduce作业完成后再使用结果。