TLDRAccording to the docs
您需要将python文件上传到S3存储桶中。如果你有一个以上你需要拉他们。启动dev端点时,Security configuration, script libraries, and job parameters (optional)下有一个设置Python library path,用于设置包含自定义库(包括脚本、模块、包)的S3存储桶的路径。您还需要确保附加到dev端点使用的IAM角色的IAM策略能够访问该bucket的list/head/getobject等。在
详情
这是一项额外的工作,但主要原因是库需要加载到Spark集群中的每个DPU(执行容器)。在
当您使用Sparkmagic (pyspark)内核时,它使用一个名为livy的Spark库来连接并在远程Spark集群上运行代码。dev endpoint实际上是一个Spark集群,您的“Sagemaker笔记本”^正在连接到Spark集群上的livy主机。在
这与普通的Python环境大不相同,主要是因为当前的工作目录和执行代码的位置不在同一个地方。Sagemaker允许使用大量的Jupyter magics,因此您可以测试一下并查看。在
例如在一个段落中%pwd
它会向你展示你期望看到的东西,比如/home/ec2-user/SageMaker
试试这个:
^{pr2}$
你会看到这样的东西Glue Examples/ lost+found/ shared/ a_notebook.ipynb
这些魔术是在使用笔记本的上下文,并显示与之相关的目录。
如果你尝试这个:import os
print(os.getcwd())
你会看到完全不同的东西:/mnt/yarn/usercache/livy/appcache/application_1564744666624_0002/
这是集群上驱动程序容器中的一个Spark(hadoopHDFS真的)目录。Hadoop目录是以冗余方式分布的,所以说目录在容器中并不一定正确,这也不是真正重要的。关键是目录在远程集群上,而不是运行笔记本的ec2实例上。在
有时加载模块的一个很好的技巧是修改sys.path以包含一个要从中导入模块的目录。不幸的是,这在这里不起作用,因为如果您将/home/ec2-user/Sagemaker附加到路径,首先该路径在HDFS上不存在,其次pyspark上下文无法搜索笔记本电脑EC2主机上的路径。在
另一件可以证明这一切都是真的,那就是在运行的笔记本中更改内核。在Jupyter中有一个kernel菜单选项。我建议conda_python3。在
当然,这个内核将而不是连接到Spark集群,因此没有Spark代码可以工作,但是您可以再次尝试上面的%pwd,和{}的测试,看看它们现在显示的是同一个本地目录。你也应该能够导入你的模块,尽管你可能需要修改路径,例如import os
import sys
shared_path = '/home/ec2-user/SageMaker/shared'
if shared_path not in sys.path:
sys.path.append(shared_path)
你应该可以运行这个import helper
但此时,您不在Sparkmagic(pyspark)内核中,因此这对您没有好处。在
这是一个很长的解释,但它应该有助于弄清楚为什么需要将脚本上传到S3存储桶。当您的dev端点启动时,它有一个钩子从该位置加载您的自定义库,以便它们可用于Spark集群容器。在
^请注意Sagemaker是Jupyter笔记本电脑的AWS重新品牌,这有点令人困惑。Sagemaker也是AWS中用于自动化机器学习模型培训/测试/部署生命周期管理的服务的名称。它本质上是Jupyter笔记本电脑加上一些日程安排加上一些API端点。如果不是像papermill在引擎盖下面跑的话,我会很惊讶的。在