当前位置: 首页 > 知识库问答 >
问题:

使用spark submit on Thread的--archives选项上载zip文件

胡俊美
2023-03-14

我有一个包含一些模型文件的目录,由于某些原因,我的应用程序必须访问本地文件系统中的这些模型文件。

当然,我知道--file选项的火花提交可以上传文件到每个执行器的工作目录,它确实工作。

但是,我希望保留文件的目录结构,因此我提出了--archives选项,即

YARN-only:
......
--archives ARCHIVES         Comma separated list of archives to be extracted into the working directory of each executor.
......

但当我实际使用它上传models.zip时,我发现纱线只是把它放在那里而没有提取,就像它对--文件所做的那样。我是否误解了要提取的或误用了此选项?


共有1个答案

亢建白
2023-03-14

我自己找到了答案。

Thread确实提取了归档文件,但添加了一个与归档文件同名的额外文件夹。为了明确起见,如果我将models/model1models/models2放在models.zip中,那么我必须通过models.zip/models/model1models.zip/models/model2访问我的模型

此外,我们还可以使用#语法使其更加美观。

--files和--archives选项支持使用类似于Hadoop的#指定文件名。例如,您可以指定:--files localtest.txt#appSees.txt,这将把您在本地命名为localtest.txt的文件上载到HDFS中,但这将通过名称appSees.txt链接到该文件,并且您的应用程序在运行时应使用名称appSees.txt来引用它。

编辑:

这个答案是在spark 2.0.0上测试的,我不确定其他版本中的行为。

 类似资料:
  • 我有下面的代码从mkyong得到,到本地的zip文件。但,我的要求是在服务器上压缩文件,并需要下载。谁能帮忙吗。 写入zipFiles的代码: 我可以在fileoutputstream这里提供什么?内容文件和导航文件是我从代码中创建的文件。

  • 我想通过截击下载一个zip文件。现在,我可以使用下载和解压缩Android中的Zip文件来下载文件。 我想改用截击库。我该怎么做?

  • 我有我的网站在和我想下载一些文件从另一个域但没有得到下载和显示302移动临时错误。我使用cURL代码。

  • 但应用程序仍然允许上传任何MIME类型的文件。哪里有问题?另外,限制maxFiles也不起作用--它允许我上传无限多个文件。

  • 我正在使用Python2.7、mechanize和beautifulsoup,如果有帮助,我可以使用urllib 我打算使用下面的代码来访问第二个表: 我猜class=“fe-form”是错误的,因为它不能工作,但是该表没有其他属性将它与其他表区分开来。所有表都有cellpadding=“0”cellspacing=“0”border=“0”width=“50%”。我想我不能使用find()函数。

  • 问题内容: 如何使用php将多个文件下载为zip文件? 问题答案: 您可以使用该类创建一个ZIP文件并将其流式传输到客户端。就像是: 并流式传输: 第二行强制浏览器向用户显示一个下载框,并提示名称filename.zip。第三行是可选的,但某些(主要是较旧的)浏览器在某些情况下会出现问题,而未指定内容大小。