概述 测试环境可以在办公网内访问,本文主要介绍在测试环境的 GPU 节点,通过 Docker 来运行一个 PyTorch 环境的 GPU 容器,用于测试和调试。 操作 假设 10.189.109.88 这个节点是经过跳板
概述 CephFS CSI 使用过程中,会出现偶发的 Kubernetes 节点挂载的目录提示 Permission denied 的问题,这个问题会一直持续到节点重启为止。为了避免遇到这种情况下,需要重启节点,影响
概述 近期在家里搭建一台测试服务器,基础的需求就是可以测试 GPU 和高性能网卡,比如一下 RDMA 网卡,另外有一些基础的需求,如果买刀片机或者塔式服务器,太
概述 Mellanox: 迈洛思是基于InfiniBand和以太网技术的计算机网络产品供应商,已经被Nvidia收购 RDMA: Remote Direct Memory Access也叫远程直接内存访问,是
概述 OFED 是 OpenFabrics Enterprise Distribution 的简称,是一个开放源代码软件堆栈,用于实现高性能计算(HPC)和企业数据中心的低延迟和高带宽网络。OFED 提供了一组开放的通信
概述 实验的条件是机器有 Mellanox 的 RDMA 网卡,并且支持 RoCEv2,通过 Docker HostNetwork 以及 Macvlan 的方式测试,实验都是分别在两台物理机上分别创建一个容器来测试跨机通信的