当前位置: 首页 > 知识库问答 >
问题:

EMR上的Snappy不可用错误

赫连冠玉
2023-03-14

我在EMR上使用一个主节点和一个核心节点的Spark,我面临着一个Follow问题:

java.lang.RuntimeException: native snappy library not available: this version of libhadoop was built without snappy support.
16/04/28 15:03:27 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native
16/04/28 15:03:27 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop:  true /usr/lib/hadoop/lib/native/libhadoop.so.1.0.0
zlib:    true /lib64/libz.so.1
snappy:  true /usr/lib/hadoop/lib/native/libsnappy.so.1
lz4:     true revision:99
bzip2:   true /lib64/libbz2.so.1
openssl: true /usr/lib64/libcrypto.so

应用:Spark 1.6.1

共有1个答案

淳于泓
2023-03-14

我终于找到了解决方案,我设置了LD_LIBRARY_PATH,现在可以工作了!!

export LD_LIBRARY_PATH=/usr/lib/hadoop/lib/native/

我在所有节点上都做了这个操作。我希望它能帮助某人:)!

 类似资料:
  • Snappy是一个压缩/解压缩库。它不旨在最大程度地压缩,也不旨在与任何其他压缩库兼容。相反,它的目标是非常高的速度和合理的压缩。例如,与zlib的最快模式相比,Snappy对于大多数输入而言要快一个数量级,但是生成的压缩文件要大20%至100%。(有关更多信息,请参见下面的“性能”。) Snappy具有以下属性: 快速:压缩速度达到250 MB /秒及以上,无需汇编代码。请参阅下面的“性能”。

  • 我对PySpark和AWS EMR都是新手。我得到了一个小项目,在这个项目中,我需要每小时擦洗大量的数据文件,并在其基础上构建聚合数据集。这些数据文件存储在S3上,我可以利用Spark中的一些基本函数(如filter和map)来导出聚合数据。为了节省出口成本,并且在执行了一些CBA分析之后,我决定创建一个EMR集群并进行pypark调用。使用由S3 bucket中创建的文件触发的Lambda函数,

  • 我只能猜测这是因为我使用了不同的AWS-SDK版本构建了jar,而不是安装在Spark2.1.0中的版本 安装在EMR的Spark 2.1.0上的正确AWS_SDK版本是什么? 有办法强制我提交的spark任务与我的jar一起运行吗?

  • Snappy Slider 是 UISlider 的子类,捕捉到预先指定的值和截止值。

  • snappy-start 是从 snapshot 启动 Linux 进程的工具。它允许程序的多个实例从 snapshot 快速启动。 特性: 更快的启动,当程序在启动时正在做大量的计算。 节省内存,因为程序启动过程写入的内存页将在实例之间共享。

  • Snappy 是一个可以根据 URL 和 HTML 内容来生成快照、PDF 的 PHP5 库。它依赖于wkhtmltopdf  示例代码: <?phprequire_once '/path/to/snappy/src/autoload.php';use Knp\Snappy\Pdf;$snappy = new Pdf('/usr/local/bin/wkhtmltopdf');// or you