Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

我在根据演示案例nvidia.com/gpu:2启动pod 出现了UnexpectedAdmissionError #590

Open
wei1793786487 opened this issue Nov 1, 2024 · 3 comments

Comments

@wei1793786487
Copy link

Please provide an in-depth description of the question you have:
我使用helm安装了HAMi 一切按照默认环境 以及显示了
image
但是在我调度的时候无法调度
image

What do you think about this question?:
是因为需要依赖nvidia device plugin吗 我只安装了HAMi
Environment:

  • HAMi version:v2.4.0
  • Kubernetes version:v1.22.17
  • Others:
@Nimbus318
Copy link
Contributor

@wei1793786487
从目前的现象看:

  1. 调度都没有走到 hami-scheduler
  2. 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

从我的猜测出发,目前的排查思路:

  1. worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation
  2. 确认一下咱们 hami 相关组件都正常运行
    • hami-scheduler 和 hami-device-plugin 是否都正常
    • hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
  3. 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了

@wei1793786487
Copy link
Author

@wei1793786487 从目前的现象看:

  1. 调度都没有走到 hami-scheduler
  2. 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

从我的猜测出发,目前的排查思路:

  1. worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation

  2. 确认一下咱们 hami 相关组件都正常运行

    • hami-scheduler 和 hami-device-plugin 是否都正常
    • hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
  3. 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了

好的 感谢 ! 我按照这个思路排查一下

@wei1793786487
Copy link
Author

@wei1793786487 从目前的现象看:

  1. 调度都没有走到 hami-scheduler
  2. 被 default-scheduler 调度到了 worker1 上,然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

从我的猜测出发,目前的排查思路:

  1. worker1 是 GPU 节点吗?是的话,贴出节点的 Annotation

  2. 确认一下咱们 hami 相关组件都正常运行

    • hami-scheduler 和 hami-device-plugin 是否都正常
    • hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
  3. 如果都正常,就得往 api-server 调用 hami 的 webhook 通不通的思路查了

我知道 是当时helm安装的时候有一部报错了 修改了端口之后就好了 碰巧这个端口被占用了
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants