当前位置: 首页 > 知识库问答 >
问题:

在配置电子病历后,如何在数据管道中将文件从S3复制到Amazon电子病历?

宰父涵忍
2023-03-14

我正在AWS中创建一个数据管道来运行Pig任务。但我的Pig任务需要EMR中的额外文件。我如何告诉数据管道在创建集群后和运行pig任务之前将文件复制到EMR?

我需要运行这两个命令。

hdfs dfs -mkdir /somefolder
hdfs dfs -put somefile_from_s3 /somefoler/

共有3个答案

竺勇
2023-03-14

此外,您是否尝试过直接使用“s3://”?在大多数情况下,您可以通过“s3://”方案将s3用作本机Hadoop文件系统。这避免了将数据从S3复制到HDFS的需要。

--
-- import logs and break into tuples
--
raw_logs =  -- load the weblogs into a sequence of one element tuples
  LOAD 's3://elasticmapreduce/samples/pig-apache/input' USING TextLoader AS (line:chararray);
上官正志
2023-03-14

您可以在创建集群时添加步骤,如下所示

您可以配置蜂巢或猪脚本来执行复制。您也可以使用命令行添加步骤。

酆高翰
2023-03-14

如果您可以选择修改Pig脚本,那么可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html).

否则,您可以使用在EmrCluster上运行的ShellCommandActivity,并在PigActivity运行之前执行这些命令。此选项有一个缺点,因为如果ShellCommandActivity成功,但PigActivity失败,只需再次运行PigActivity,将无法获得运行活动所需的文件,这意味着必须重新运行整个管道。因此,我推荐第一种解决方案。

无论哪种方式,我都很乐意为您提供工作样本。请让我知道您希望看到哪种解决方案。

谢谢

 类似资料:
  • 我正在用我的电子邮件Id发送我的邮件数据。我制作了一个包含editText(用于emailId)和按钮的mainActivity类。另一个类是BroadcastReceiver类,我在其中检索数据。现在我不明白如何将这些数据发送到后台提供的电子邮件中。我在谷歌上搜索了很多,但都没有得到所需的回复。请分享这些想法并帮助我。

  • 我正在试图找到Spark 2.0上的错误源。0,我有一个将表名作为键、数据帧作为值的映射,我循环遍历它,最后使用spark avro(3.0.0-preview2)将所有内容写入S3目录。它在本地运行非常完美(当然是本地路径而不是s3路径),但是当我在Amazon的EMR上运行它时,它运行了一段时间,然后它说文件夹已经存在并终止(这意味着相同的键值在for循环中被使用了不止一次,对吗?)。这可能是

  • 每个社区都需要发送电子邮件给用户,用来激活账户、重置密码、接收通知以及与其他用户通讯交流。作为论坛管理员,您首先要做的几件事之一就是配置好论坛的邮件服务!配置错误的话,用户在注册时会收到报错。 Flarum 默认提供以下所列驱动,若有需要,开发者可自行开发插件添加 自定义邮件驱动。 这是最常用的邮件驱动,需要您配置主机地址、端口、加密方式、用户名和密码,以使用外部 SMTP 服务。请注意,加密方式

  • 正如大家所知,我是JavaScript和Electron的完全初学者。 我想我已经找过大多数地方了,但我什么也没找到。 IDK怎么办 有什么建议吗?

  • 我什么都试过了,但还是做不到 我试图使用setValues()将数据从一个电子表格复制到另一个电子表格,因为link对我不起作用。我还需要保持触发器的编辑。 因此,我创建了一个名为AddConvocacao的函数,并且总是在有任何更改时运行脚本。 为什么我在编辑时使用不起作用? 非常感谢!=)

  • 王江向来对绝影腹诽就很多,眼看这学期的风光又被绝影抢尽,心里很是不爽,他是一个不甘于位居第二的人,显而易见,一处和二处就有本质上的区别。他郑重地告诉大家,他要买个电脑。 这是一件振奋人心的事情。王江往寝室搬电脑的那天,楼梯走廊和过道都围满了人,就差给显示器上戴朵大红花。虽然到最后在这栋楼里,电脑已经普及到几乎人手一台的地步,而且档次越来越高,但人们的心里,为啥要追求处女和美女,往往只有第一个和最贵