/images/avatar.png

runzhliu

算力平台MPI的通信问题

概述 我司 GPU 算力 Kubernetes 集群有 MPI 命令的报错,下面是排查的过程。 背景 GPU 容器执行 mpirun -n 1 echo hello 没有问题,在算力平台的 GPU 容器执行则会报错。 GPU 容器无法执行 mpirun 远程