https://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
这里我用于测试,随便选了一个版本,你可以去官网选择你自己的版本。
导入了jar包,就能运行了,必须注意版本问题
bin/spark-shell --packages io.delta:delta-core_2.11:0.5.0
实际测试中,无法下载,可能需要翻墙或修改源地址才能下载
我这里没有外网,且不会修改spark的下载源,所以我在maven里导入了这个delta
然后我maven配置的是国内的源,所以下载顺利,下载成功后,找到仓库里的jar包,
把它上传到linux,然后执行以下命令手动添加delta依赖
bin/spark-shell --jars /home/20200420/delta-core_2.11-0.5.0.jar
务必要在spark2.4.x版本导入,如果spark版本太低,比如我用spark2.2.0测了以下,就把spark-shell干废了。
导入POM依赖之后就可以使用Delta Lake的API了。
<dependency>
<groupId>io.delta</groupId>
<artifactId>delta-core_2.11</artifactId>
<version>0.5.0</version>
</dependency>
Delta Lake 只有源码
https://github.com/delta-io/delta/releases
解决github下载速度慢的方法:
https://blog.csdn.net/qq_38977097/article/details/80770987
delta-0.5.0.tar.gz百度网盘备份
链接:https://pan.baidu.com/s/1CUcQNE6Sgsoz49ZeYbFfwA
提取码:vt8k