版本:下一个
Kubernetes 的 HAMi DRA
介绍
HAMi 已经提供了对 K8s DRA(动态资源分配)功能的支持。 HAMi DRA webhook 是一个 Kubernetes mutating webhook,能够自动将 GPU 设备资源请求转换为 DRA ResourceClaim,从而实现 GPU 工作负载的动态资源分配。它可以让你在 DRA 模式下获得与传统 DevicePlugin 使用方式一致的使用体验。
功能特性
- 自动资源转换:将 GPU 资源请求转换为 ResourceClaim
- 资源清理:自动移除 Pod spec 中的 GPU 资源字段,并创建对应的 ResourceClaim
- 注解支持:支持通过 Pod 注解进行设备选择(UUID、设备类型)
- 指标监控:可选的 monitor 组件,通过 Prometheus 采集并暴露 GPU 资源指标
前提条件
- Kubernetes 版本 >= 1.34 并且 DRA Consumable Capacity featuregate 已启用
- 底层容器运行时(例如 containerd 或 CRI-O)必须启用 CDI
- NVIDIA GPU 驱动版本 440 及以上
安装
1. 安装 cert-manager
HAMi DRA Webhook 依赖 cert-manager 提供 TLS 证书,需要提前安装:
helm repo add jetstack https://charts.jetstack.io
helm install cert-manager jetstack/cert-manager \
--namespace cert-manager \
--create-namespace \
--set crds.enabled=true