我在库伯内特斯连夜运行了一项工作。当我早上检查它时,它已经失败了。通常,我会检查pod日志或事件来确定原因。然而,pod被删除了,没有事件。
kubectl describe job topics-etl --namespace dnc
下面是描述
输出:
Name: topics-etl
Namespace: dnc
Selector: controller-uid=391cb7e5-b5a0-11e9-a905-0697dd320292
Labels: controller-uid=391cb7e5-b5a0-11e9-a905-0697dd320292
job-name=topics-etl
Annotations: kubectl.kubernetes.io/last-applied-configuration:
{"apiVersion":"batch/v1","kind":"Job","metadata":{"annotations":{},"name":"topics-etl","namespace":"dnc"},"spec":{"template":{"spec":{"con...
Parallelism: 1
Completions: 1
Start Time: Fri, 02 Aug 2019 22:38:56 -0500
Pods Statuses: 0 Running / 0 Succeeded / 1 Failed
Pod Template:
Labels: controller-uid=391cb7e5-b5a0-11e9-a905-0697dd320292
job-name=topics-etl
Containers:
docsund-etl:
Image: acarl005/docsund-topics-api:0.1.4
Port: <none>
Host Port: <none>
Command:
./create-topic-data
Requests:
cpu: 1
memory: 1Gi
Environment:
AWS_ACCESS_KEY_ID: <set to the key 'access_key_id' in secret 'aws-secrets'> Optional: false
AWS_SECRET_ACCESS_KEY: <set to the key 'secret_access_key' in secret 'aws-secrets'> Optional: false
AWS_S3_CSV_PATH: <set to the key 's3_csv_path' in secret 'aws-secrets'> Optional: false
Mounts:
/app/state from topics-volume (rw)
Volumes:
topics-volume:
Type: PersistentVolumeClaim (a reference to a PersistentVolumeClaim in the same namespace)
ClaimName: topics-volume-claim
ReadOnly: false
Events: <none>
这是作业配置yaml。它有restart Policy: OnFailure
,但是它从来没有重启过。我也没有设置TTL,所以豆荚永远不会被清理。
apiVersion: batch/v1
kind: Job
metadata:
name: topics-etl
spec:
template:
spec:
restartPolicy: OnFailure
containers:
- name: docsund-etl
image: acarl005/docsund-topics-api:0.1.6
command: ["./create-topic-data"]
env:
- name: AWS_ACCESS_KEY_ID
valueFrom:
secretKeyRef:
name: aws-secrets
key: access_key_id
- name: AWS_SECRET_ACCESS_KEY
valueFrom:
secretKeyRef:
name: aws-secrets
key: secret_access_key
- name: AWS_S3_CSV_PATH
valueFrom:
secretKeyRef:
name: aws-secrets
key: s3_csv_path
resources:
requests:
cpu: 1
memory: 1Gi
volumeMounts:
- name: topics-volume
mountPath: /app/state
volumes:
- name: topics-volume
persistentVolumeClaim:
claimName: topics-volume-claim
我如何调试这个?
TTL将清理工作本身及其所有子对象ttlSecondsAfterFinished
未设置,因此作业尚未清理。
从工作docco
注意:如果作业已restartPolicy=“OnFailure”
,请记住,一旦达到作业退避限制,运行作业的容器将被终止。这会使调试作业的可执行文件变得更加困难。我们建议在调试作业或使用日志系统时设置restartPolicy=“Never”
,以确保失败作业的输出不会意外丢失。
您发布的作业规范没有backoffLimit
,因此它应该尝试运行基础任务6次。
如果容器进程以非零状态退出,那么它将失败,因此可以在日志中完全保持沉默。
规范没有指定定义的activeDeadlineSeconds
seconds,所以我不确定最终的超时类型。我认为这将是容器中的一个严重故障,因此不会出现超时。
我在谷歌云平台上运行数据流作业,我得到的一个新错误是“工作流失败”,没有任何解释。我得到的日志如下: 我该怎么找出哪里出了问题?对象上的权限不应该有问题,因为类似的作业会成功运行。当我试图从谷歌云控制台重新运行模板时,我会收到消息: 找不到此模板的元数据文件 但是我能够启动模板,现在它成功运行。这可能与超额配额有关吗?我们刚刚增加了数据流的CPU和IP配额,我将并行运行的作业从5个增加到15个,以
问题内容: 大家好,我有一个Java问题。对于我的高级研究班,我已经差不多完成了,但是我只需要分析生成的图像中的一些数据即可。我不想将其标记为家庭作业,因为它不是任何必需任务的一部分……这是我自己想出的结果。我编写了一个程序,可以逐像素比较两个图像。它对两个目录中的所有.bmp文件执行此操作。现在,我的程序将文件名读取到String数组中,并检查了所有文件名的值,因此我知道最初可以很好地访问目录和
本文向大家介绍Python 没有main函数的原因,包括了Python 没有main函数的原因的使用技巧和注意事项,需要的朋友参考一下 毫无疑问 Python 中没有所谓的 main 入口函数,但是网上经常看到一些文章提“Python 的 main 函数”、“建议写 main 函数”…… 有些人是知情的,他的意图可能是模仿那些正宗的 main 函数,但还有不少人明显是被误导了(或自己误解了),就写
我有个问题。我创建了一个SQL查询,以便在数据库中插入一些内容: 但我总是得到错误: 您的SQL语法有错误;请查看与您的MySQL server版本相对应的手册,以了解在第1行“order(kundennummer,empfaenger,adresse,plz,ort,land,email,time,approvalPending)”附近使用的正确语法 我的代码是PHP 我只是不知道怎么了--我瞎
我正在构建一个Android应用程序,在尝试读取XLSX文件时,面临一个非静态方法异常。 尝试了所有的可能性,如更新应用程序/build.gradle中的依赖关系,但没有成功。 请帮助我解决此问题。 我正在添加app.gradle文件。其他代码是使用XSSF的基本XLSX文件读取。当我试图在Spring Suite工具中运行这个java片段时,它运行正常。然而,当我将这些java片段集成到Andr
我正在尝试在Windows 8 Professional(64位)笔记本电脑上安装TestCular(使用nmp),但在尝试安装socket.io(作为此过程的一部分)时失败。我得到的错误是 我显然有。NET框架3.5安装(它在控制面板中的添加/删除Windows组件位下检查),尽管我没有设法找到vcbuild.exe.我尝试安装VS2005的旧副本,但这导致了一个关于无效项目的不同错误(. vc