当前位置: 首页 > 知识库问答 >
问题:

Apache Spark与Nifi集成

白宏义
2023-03-14

我想把Nifi flowfile发送到Spark,在Spark中做一些转换,然后再把结果发送回Nifi,这样我就可以在Nifi中进行进一步的操作。我不想写flowfile写到数据库或HDFS,然后触发火花作业。我想直接将flowfile发送到Spark,并直接从Spark接收到NIFI的结果。我尝试在Nifi中使用ExecuteSparkInteractive处理器,但我被卡住了。任何例子都是有帮助的

共有1个答案

松越
2023-03-14

除非是spark流,否则不能直接向spark发送数据。如果是批处理执行的传统Spark,那么Spark需要从某些类型的存储中读取数据,比如HDFS。ExecuteSparkInteractive的目的是触发一个Spark作业,在已经交付给HDFS的数据上运行。

如果你想走流媒体路线,那么有两个选择...

1)将NiFi与火花流直接集成

 类似资料:
  • 我有一个基于maven的scala/java混合应用程序,可以提交spar作业。我的应用程序jar“myapp.jar”在lib文件夹中有一些嵌套的jar。其中之一是“common.jar”。我在清单文件中定义了类路径属性,比如。Spark executor抛出在客户端模式下提交应用程序时出错。类(com/myapp/common/myclass.Class)和jar(common.jar)在那里

  • 我正在使用NIFI1.11.4构建一个数据管道,其中IoT设备以JSON格式发送数据。每次从IoT设备接收数据时,都会收到两个JSONS; JSON_Initial 和JSON_FINAL

  • 给定一个包含以下格式数据的大文件(V1,V2,…,VN) 我正在尝试使用Spark获得一个类似于下面的配对列表 我尝试了针对一个较旧的问题所提到的建议,但我遇到了一些问题。例如, 我得到了错误, 有人能告诉我哪些地方我可能做得不对,或者有什么更好的方法可以达到同样的效果?非常感谢。

  • 我有一个项目的RDD,还有一个函数 。 收集RDD的两个小样本,然后这两个数组。这很好,但无法扩展。 有什么想法吗? 谢谢 编辑:下面是如何压缩每个分区中具有不同项数的两个示例: 关键是,虽然RDD的. zip方法不接受大小不等的分区,但迭代器的. zip方法接受(并丢弃较长迭代器的剩余部分)。

  • 我已经在Docker中独立保护了NiFi 1.12.1,运行一切正常。我很乐意使用站点到站点的远程处理器,站点到站点的Nifi公告转发,调用Nifi API进行自我监控等等。我通过证书登录。到目前为止一切都很好。 当我试图使用NiFi注册表时,问题出现了。我可以访问两个实例:安全和不安全。 无论我指定了什么确切的格式(FQDN,只是一个名称,带/nifi-registry或不带),当我试图从NiF

  • 我已经将NIFI OPC UA[https://github.com/wadesalazar/nifi-opcua]处理器与Apache NIFI 1.3集成在一起。我遵循以下URL[https://community.hortonworks.com/articles/90355/collect-data-from-opc-ua-protocol.html]开始操作。我已经安装了一个模拟OPC服务