当前位置: 首页 > 面试题库 >

Spark支持gzip格式吗?

东方辉
2023-03-14
问题内容

对于大数据项目,我计划使用spark,它具有一些不错的功能,例如用于重复工作负载的内存计算。它可以在本地文件或HDFS之上运行。

但是,在官方文档中,我找不到有关如何处理压缩文件的任何提示。实际上,处理.gz文件而不是解压缩文件可能非常有效。

有没有一种方法可以手动实现读取gzip文件,或者在读取.gz文件时已经自动完成解压缩?


问题答案:

从Spark Scala编程指南的“ Hadoop数据集”部分中:

Spark可以从Hadoop分布式文件系统(HDFS)或Hadoop支持的其他存储系统(包括您的本地文件系统,Amazon
S3,Hypertable,HBase等)中存储的任何文件创建分布式数据集。Spark支持文本文件,SequenceFiles和任何其他Hadoop
InputFormat。

对gzip输入文件的支持应与Hadoop中的支持相同。例如,sc.textFile("myFile.gz")应该自动解压缩并读取gzip压缩的文件(textFile()实际上是使用Hadoop的来实现的TextInputFormat,该Hadoop
支持gzip压缩的文件)。

正如@ n​​ick-chammas在评论中提到的:

请注意,如果调用sc.textFile()压缩文件,Spark将为您提供一个只有1个分区的RDD(从0.9.0开始)。这是因为压缩文件不可拆分。如果您不以某种方式对RDD进行分区,则该RDD上的任何操作都将限于单个内核



 类似资料:
  • Three.js有一系列导入外部文件的辅助函数,是在three.js之外的,使用前需要额外下载,在https://github.com/mrdoob/three.js/tree/master/examples/js/loaders可以找到。 *.obj是最常用的模型格式,导入*.obj文件需要OBJLoader.js;导入带*.mtl材质的*.obj文件需要MTLLoader.js以及OBJMTL

  • 问题内容: 库Apache Commons HttpClient是否支持Gzip?我们想在Apache服务器上使用enable gzip压缩来加速客户端/服务器通信(我们有一个php页面,允许我们的Android应用程序与服务器同步文件)。 问题答案: Apache HttpClient 4.1支持现成的内容压缩以及以前认为超出范围的许多其他功能。

  • 我想用haar cascade数数汽车。 我将图像正确地转换为灰度,并成功地在框架上画了一条线。问题是我得到了这个错误 错误:OpenCV(3.4.2)C:\build\3\u 4\u winpack-bindings-win32-vc14-static\OpenCV\modules\imgproc\src\contours。cpp:199:错误:(-210:不支持的格式或格式组合)[Start]

  • 问题内容: 我搜索了Google,发现了一些矛盾之处。xlwt是否支持xlsx文件(MS Office 2007)。我听说xlwt 0.7.4支持xlsx文件。有谁尝试过使用xlwt 0.7.4编写xlsx文件 这个问题的目的是,如果我需要安装,我没有安装库的权限,我需要提供更多详细信息。我需要用python编写xlsx文件,所以如果有人做过类似的事情将有助于提供更好的信息 我已经查看了这个Wik

  • 音频导入格式 AAC AIFF M2A M4A MP2 MP3 视频导入格式 .264 3GP、3GPP AVC AVI F4V FLV MOV (QuickTime) MPE MPEG‑1 MPEG‑4 MPEG‑2(如果已安装解码器,例如使用 Adobe 视频套件) MTS MXF R3D TS VOB 视频导出格式 DPX MOV (QuickTime) MP4 图形文件格式 Photosh

  • 查找 Photoshop 中支持的文件格式列表。 音频导入格式 (*) 表示在 Photoshop CS6 中引入的支持格式。 AAC* AIFF* M2A* M4A* MP2* MP3* 视频导入格式 (*) 表示在 Photoshop CS6 中引入的支持格式。 .264* 3GP 3GPP* AVC* AVI(请参阅下面的注释) F4V* FLV* MOV (QuickTime) MPE*