假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod ,但目前一个 Pod 独占整数张 4090.
想要的效果是:2 个(or 多个) Pod 可以同时共享一张显卡。
看了一下 NVIDIA 官方的方案:
需求是:
请问站内有无大佬有相关的实践/思路/方案?
1
adsryen 136 天前
蹲答案就是学习 嘻嘻
|
2
yinwai 136 天前 via Android
这个需求直接 nvidia-docker 不就可以了,可指定每个容器分配哪几张,单张 gpu 可映射到多个容器,不过这样做没法像 mig 一样对每个容器调节 gpu 性能。
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html |
4
piero66 136 天前 via Android
没有可能,游戏卡开 vgpu 止步于 20 系
|
5
piero66 136 天前 via Android
建议用 nvidia-docker 竞技场,资源先到先得
|
6
choury 136 天前 via Android
要是能让你这样搞,那些计算卡卖给谁
|
7
yinwai 136 天前 via Android 2
|
9
carmark 136 天前 1
具体的方案可以参考这里: https://zhuanlan.zhihu.com/p/398369404
参考方案就是阿里的 cGPU ,腾讯的 qGPU 。 主要实现的思路就是 ioctl 层面的拦截,干预调度和显存管理。 |
11
longredzzz 136 天前 1
https://github.com/Project-HAMi/HAMi
推荐这个项目,支持显存切分,算力切分,虚拟显存。 |