python经过Kerberos认证连接hdfs
1. Kerberos认证
最近在工作中,需要将备份数据上传到hdfs上,在服务器上需要进行Kerberos认证。 在Hadoop1.0.0或者CDH3 版本之前,是不存在安全认证的,hadoop集群默认所有节点都是可信任的。这导致恶意用户可以伪装成正常用户入侵集群,恶意提交任务。使用了Kerberos认证后,将认证的秘钥事先放在可靠的节点上,集群运行时,只有通过认证的节点才能正常使用。
python进行kerberos认证时,需要关心两样东西,一个是keytab文件,一个是 principal ,他们两个是有内在联系的。 一个 principal 就是 realm 里的一个对象,一个 principal 总是和一个密钥(secret key)成对出现的 , keytab 是包含 principals 和加密 principal key 的文件 。
2. krbcontext 和 hdfs
krbcontext 和 hdfs 是python连接hdfs时需要用到的库,它所建立的连接本质上是一个http连接,安装hdfs时,需要指定kerberos插件
pip install hdfs[kerberos]
pip install krbcontext
from hdfs.ext.kerberos import KerberosClient
from krbcontext import krbcontext
keytab_file = '/etc/coolpython.keytab'
principal = 'hadoop/admin@coolpython.net'
with krbcontext(using_keytab=True, keytab_file=keytab_file, principal=principal, ccache_file='/tmp/cache_keytab_zds'):
client = KerberosClient(url='http://10.110.50.1:50070')
hdfs_save_path = '/user/hadoop/backup/2020-06-10'
client.makedirs(hdfs_save_path) # 新建目录