/images/avatar.png

runzhliu

nvidia-docker安装系列

概述 按照官网文档,可以按照下面的命令进行安装。 1 2 3 4 5 6 7 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo yum-config-manager --enable libnvidia-container-experimental # 验证 nvidia-docker run -–rm nvidia/cuda nvidia-smi Kubernetes GPU插件安装 https://github.com/NVIDIA/k8s-device-plugin#deployment-via-helm 1 2 3 4

nvidia-smi速度慢

概述 同事反馈 GPU 机器的 nvidia-smi 速度很慢,有卡住的情况。 分析 正常还是通过 strace 查看一下,发现系统调用 open 会卡住一段时间。 参考 persistence-mode

Prometheus和Grafana

概述 Grafana 内置支持 Prometheus 的用法。 添加数据源 关于添加数据源,就不多赘述了。跟其他数据源的添加是类似的。 Query editor 这里需要重点介绍一下 Query editor 的配置。 Name 描述 Query expression 这