概述 关于 DCGM Exporter 中 DCGM_FI_DEV_GPU_UTIL 存在异常值的问题,官方有相关的 issue 进行讨论,具体的表现是 DCGM_FI_DEV_GPU_UTIL 偶尔会被采集到异常大的值,超过了正常的 [0, 100] 区间。 问题影响 从下图可以发
概述 笔者在之前的文章kube-scheduler的二次开发示例有提过说直接基于 kube-scheduler 的源码做二次开发,把需要增加的插件代码加入之后重新编译和构建
概述 如果经常在公司有访问家里服务器/主机的需求,有很多方式,包括在公司电脑/内网做一些「不安全的」的配置,比如用 tailscale,cpol
概述 本文以 Kubernetes v1.30.4 为例,详细讲解一下如何在原来的 kube-scheduler 的基础上,通过增加 Plugins 的方式,完成二次开发和上线验证。 调度场景 Kubernetes 原生的调度器里没有根据节点磁盘空
概述 grafana-image-renderer 这个插件安装之后,Grafana 支持通过 API 将 dashboard 导出成图片,不过官方镜像并没有直接将 grafana-image-renderer 插件安装进去,原因可能是图片渲染插件依赖很多系统的
概述 大模型时代,GPU 已经了各个大模型和互联网公司的重要资产,如何高效地使用 GPU 资源,最大限度地满足业务需求变成了基础架构部门的重点项目。而传