跳到正文
SkyWang的博客
返回

服务器交付前检查清单:硬件、系统、网络和 GPU

服务器交付不是把系统装上就结束。真正交付前,至少要确认硬件、系统、网络、存储、驱动和日志都没有明显问题。否则机器到了客户现场或进入业务池后,再排查会很被动。

Table of contents

Open Table of contents

一、先确认硬件清单

拿到服务器后,先按配置单核对硬件:

Linux 下可以先看:

lscpu
free -h
lsblk
lspci
dmidecode -t memory
dmidecode -t system

如果配置单写了 8 块盘,系统只看到 7 块,不要继续装系统。先确认硬盘、背板、线缆、RAID 卡和 BMC 告警。

二、检查 BIOS 和 BMC

交付前建议记录 BIOS 和 BMC 版本:

dmidecode -t bios
ipmitool mc info

需要关注:

BMC 是后续远程排障的入口,交付时不能只看系统能启动。

三、检查 RAID 和硬盘

如果使用 RAID 卡,先确认虚拟磁盘和物理盘状态。不同厂商工具不同,常见有:

storcli /call show
perccli /call show
megacli -AdpAllInfo -aALL

至少记录:

系统盘常见用 RAID1,数据盘按业务选择 RAID5、RAID6 或 RAID10。不要把 RAID 当备份,交付文档里最好明确写清楚。

四、系统安装后检查

系统装完后,不要只看能登录。建议统一检查:

cat /etc/os-release
uname -r
hostname
ip a
df -h
lsblk
timedatectl

再看基础服务:

systemctl --failed
journalctl -p err -b
dmesg | tail -n 100

如果 systemctl --failed 里有失败服务,要在交付前处理或记录原因。

五、网络检查

网络至少确认三件事:

常用命令:

ip a
ip route
cat /etc/resolv.conf
ping <gateway>
ping <peer-node>
ethtool <nic>

如果是多网卡服务器,还要记录网卡名和物理端口对应关系。后面做 PXE、NCCL、存储网络或业务绑定时,这个信息很有用。

六、GPU 服务器额外检查

GPU 服务器交付时,除了普通服务器检查,还要看:

nvidia-smi
nvidia-smi topo -m
lsmod | grep nvidia
dmesg | grep -i xid

如果是 A100/H800 SXM 这类机器,还要确认 Fabric Manager:

systemctl status nvidia-fabricmanager

GPU 交付不能只看 nvidia-smi 有输出,还要看驱动版本、GPU 数量、拓扑、温度、功耗和错误日志。

七、基础压力测试

交付前可以做轻量测试,不一定每台都跑很长时间,但至少要发现明显问题。

磁盘:

fio --name=test --filename=/tmp/fio.test --size=4G --rw=readwrite --bs=1M --numjobs=1 --direct=1

网络:

iperf3 -s
iperf3 -c <server-ip>

GPU:

./deviceQuery
./bandwidthTest

正式项目里测试项要按交付标准来,不要临时想起什么跑什么。

八、交付文档建议记录什么

每台机器建议至少记录:

交付文档不是形式。后续出问题时,最有用的往往就是这些版本和测试记录。

九、小结

服务器交付前检查的核心是把问题尽量留在交付前。硬件、系统、网络、存储、GPU 和日志都看一遍,虽然会多花一点时间,但比交付后返修或远程排障要划算得多。


分享这篇文章:

上一篇
Supermicro 服务器交付记录:硬件装配、BIOS、BMC 和系统安装
下一篇
在 Ubuntu 上搭 PXE:批量安装 RHEL 和 Kylin