当前位置: 首页 > 知识库问答 >
问题:

如何在远程PC上的HDFS数据上运行任何转换逻辑

梁盛
2023-03-14

我在位于远程PC的HDFS中有巨大的数据(TBs或PBs)。现在,我不想将数据带到转换逻辑(这是不正确和高效的),而是想在存储数据的位置上运行python转换逻辑本身。

寻求有关可用于满足此要求的技术的有用想法。

我一直尝试的事情:

1)方法1

  • 获取远程PC的SSH连接(其中有HDFS数据),在那里复制我的python转换逻辑,并在从HDFS获取数据后执行

2) 方法2

  • 已将HDFS数据加载到远程PC上的Apache Spark RDDs,其中HDFS数据可用,并从另一台PC执行Spark作业

请建议可用于远程逻辑执行的其他技术。

共有1个答案

燕昊东
2023-03-14

我建议在拥有数据的同一本地网络中设置Spark群集,并在群集中远程运行Spark转换(SSH或远程桌面)。该设置的优点是:

>

使用分布式和内存处理引擎(如Apache Spark)运行转换速度很快。

注意:如果响应符合您的第二种方法,请忽略

 类似资料:
  • 问题内容: 在写这个问题之前,我已经 有使用Affine转换的经验 阅读Quartz 2D编程指南中的Transforms文档 看过这个详细的CALayer教程 从Github 下载并运行LayerPlayer项目 但是,我仍然难以理解如何在 图层 上进行基本转换。寻找用于平移,旋转和缩放的解释和简单示例非常困难。 今天,我终于决定坐下来,进行测试项目,然后找出答案。我的答案如下。 笔记: 我只做

  • 我想在PC和手机上使用不同的应用程序,那么在加载应用程序之前,最好的方法是什么?

  • 但是我指定了到JRE的路径。我如何解决这个问题并在我朋友的PC上启动我的Java项目?我的launch4j配置:

  • 我想在虚拟机上运行量角器测试。我已经尝试使用以下命令运行它: 不幸的是,这种方法非常缓慢。还有其他方法在虚拟机上运行量角器测试吗?也许是使用selenium的远程webdriver(我不知道如何进行设置)。

  • 我试图在一台机器上连接多个独立的Neo4j实例。 因为我无法找到正确的文档来正确安装Neo4j。 由于我是Neo4j graph db的新手,如果有人能在这方面帮助我,那将非常有帮助。 我使用的是Neo4j版本3.2。2. 下面是我试图在路径下启动新neo4j实例的命令: 我无法启动两个neo4j实例,因为我有两个具有不同端口的文件。 请分享你的想法。

  • 机器A和B之间的通信工作良好。我可以运行像或这样的命令,它会给出预期的结果: 我听说过,但还没有尝试过,但据我所知,这并不能解决我的问题。 有什么方法可以直接使用来实现这一点。解决办法可能是使用连接到远程主机,并直接从远程主机使用客户机,但我希望尽可能避免这种解决方案。 在上运行,而不是在本地计算机上运行。