当前位置: 首页 > 知识库问答 >
问题:

Kubernetes作业失败,没有日志,没有终止原因,没有事件

轩辕涵亮
2023-03-14

我在库伯内特斯连夜运行了一项工作。当我早上检查它时,它已经失败了。通常,我会检查pod日志或事件来确定原因。然而,pod被删除了,没有事件。

kubectl describe job topics-etl --namespace dnc

下面是描述输出:

Name:           topics-etl
Namespace:      dnc
Selector:       controller-uid=391cb7e5-b5a0-11e9-a905-0697dd320292
Labels:         controller-uid=391cb7e5-b5a0-11e9-a905-0697dd320292
                job-name=topics-etl
Annotations:    kubectl.kubernetes.io/last-applied-configuration:
                  {"apiVersion":"batch/v1","kind":"Job","metadata":{"annotations":{},"name":"topics-etl","namespace":"dnc"},"spec":{"template":{"spec":{"con...
Parallelism:    1
Completions:    1
Start Time:     Fri, 02 Aug 2019 22:38:56 -0500
Pods Statuses:  0 Running / 0 Succeeded / 1 Failed
Pod Template:
  Labels:  controller-uid=391cb7e5-b5a0-11e9-a905-0697dd320292
           job-name=topics-etl
  Containers:
   docsund-etl:
    Image:      acarl005/docsund-topics-api:0.1.4
    Port:       <none>
    Host Port:  <none>
    Command:
      ./create-topic-data
    Requests:
      cpu:     1
      memory:  1Gi
    Environment:
      AWS_ACCESS_KEY_ID:      <set to the key 'access_key_id' in secret 'aws-secrets'>      Optional: false
      AWS_SECRET_ACCESS_KEY:  <set to the key 'secret_access_key' in secret 'aws-secrets'>  Optional: false
      AWS_S3_CSV_PATH:        <set to the key 's3_csv_path' in secret 'aws-secrets'>        Optional: false
    Mounts:
      /app/state from topics-volume (rw)
  Volumes:
   topics-volume:
    Type:       PersistentVolumeClaim (a reference to a PersistentVolumeClaim in the same namespace)
    ClaimName:  topics-volume-claim
    ReadOnly:   false
Events:         <none>

这是作业配置yaml。它有restart Policy: OnFailure,但是它从来没有重启过。我也没有设置TTL,所以豆荚永远不会被清理。

apiVersion: batch/v1
kind: Job
metadata:
  name: topics-etl
spec:
  template:
    spec:
      restartPolicy: OnFailure
      containers:
        - name: docsund-etl
          image: acarl005/docsund-topics-api:0.1.6
          command: ["./create-topic-data"]
          env:
            - name: AWS_ACCESS_KEY_ID
              valueFrom:
                secretKeyRef:
                  name: aws-secrets
                  key: access_key_id
            - name: AWS_SECRET_ACCESS_KEY
              valueFrom:
                secretKeyRef:
                  name: aws-secrets
                  key: secret_access_key
            - name: AWS_S3_CSV_PATH
              valueFrom:
                secretKeyRef:
                  name: aws-secrets
                  key: s3_csv_path
          resources:
            requests:
              cpu: 1
              memory: 1Gi
          volumeMounts:
            - name: topics-volume
              mountPath: /app/state
      volumes:
        - name: topics-volume
          persistentVolumeClaim:
            claimName: topics-volume-claim

我如何调试这个?

共有1个答案

房泉
2023-03-14

TTL将清理工作本身及其所有子对象ttlSecondsAfterFinished未设置,因此作业尚未清理。

从工作docco

注意:如果作业已restartPolicy=“OnFailure”,请记住,一旦达到作业退避限制,运行作业的容器将被终止。这会使调试作业的可执行文件变得更加困难。我们建议在调试作业或使用日志系统时设置restartPolicy=“Never”,以确保失败作业的输出不会意外丢失。

您发布的作业规范没有backoffLimit,因此它应该尝试运行基础任务6次。

如果容器进程以非零状态退出,那么它将失败,因此可以在日志中完全保持沉默。

规范没有指定定义的activeDeadlineSecondsseconds,所以我不确定最终的超时类型。我认为这将是容器中的一个严重故障,因此不会出现超时。

 类似资料:
  • 我在谷歌云平台上运行数据流作业,我得到的一个新错误是“工作流失败”,没有任何解释。我得到的日志如下: 我该怎么找出哪里出了问题?对象上的权限不应该有问题,因为类似的作业会成功运行。当我试图从谷歌云控制台重新运行模板时,我会收到消息: 找不到此模板的元数据文件 但是我能够启动模板,现在它成功运行。这可能与超额配额有关吗?我们刚刚增加了数据流的CPU和IP配额,我将并行运行的作业从5个增加到15个,以

  • 问题内容: 大家好,我有一个Java问题。对于我的高级研究班,我已经差不多完成了,但是我只需要分析生成的图像中的一些数据即可。我不想将其标记为家庭作业,因为它不是任何必需任务的一部分……这是我自己想出的结果。我编写了一个程序,可以逐像素比较两个图像。它对两个目录中的所有.bmp文件执行此操作。现在,我的程序将文件名读取到String数组中,并检查了所有文件名的值,因此我知道最初可以很好地访问目录和

  • 本文向大家介绍Python 没有main函数的原因,包括了Python 没有main函数的原因的使用技巧和注意事项,需要的朋友参考一下 毫无疑问 Python 中没有所谓的 main 入口函数,但是网上经常看到一些文章提“Python 的 main 函数”、“建议写 main 函数”…… 有些人是知情的,他的意图可能是模仿那些正宗的 main 函数,但还有不少人明显是被误导了(或自己误解了),就写

  • 我有个问题。我创建了一个SQL查询,以便在数据库中插入一些内容: 但我总是得到错误: 您的SQL语法有错误;请查看与您的MySQL server版本相对应的手册,以了解在第1行“order(kundennummer,empfaenger,adresse,plz,ort,land,email,time,approvalPending)”附近使用的正确语法 我的代码是PHP 我只是不知道怎么了--我瞎

  • 我正在构建一个Android应用程序,在尝试读取XLSX文件时,面临一个非静态方法异常。 尝试了所有的可能性,如更新应用程序/build.gradle中的依赖关系,但没有成功。 请帮助我解决此问题。 我正在添加app.gradle文件。其他代码是使用XSSF的基本XLSX文件读取。当我试图在Spring Suite工具中运行这个java片段时,它运行正常。然而,当我将这些java片段集成到Andr

  • 我正在尝试在Windows 8 Professional(64位)笔记本电脑上安装TestCular(使用nmp),但在尝试安装socket.io(作为此过程的一部分)时失败。我得到的错误是 我显然有。NET框架3.5安装(它在控制面板中的添加/删除Windows组件位下检查),尽管我没有设法找到vcbuild.exe.我尝试安装VS2005的旧副本,但这导致了一个关于无效项目的不同错误(. vc