跳到正文
SkyWang的博客
返回

服务器 BIOS、BMC 和 Firmware 升级记录

服务器固件升级看起来只是点几下或跑一个包,但现场最怕升级中断、版本不匹配、升级后硬件识别异常。这里记录一套比较稳妥的检查方式。

Table of contents

Open Table of contents

一、先确认为什么要升级

不要为了“新”而升级。常见升级原因包括:

如果服务器已经在线稳定运行,升级前要确认维护窗口和回退方案。

二、升级前记录版本

升级前先记录当前版本:

dmidecode -t bios
ipmitool mc info
lspci
lsblk

如果是 Dell,可以看 iDRAC;如果是 Supermicro,可以看 BMC Web 或 IPMI。建议把升级前后的版本都写进交付记录。

三、确认固件包来源

固件包尽量从厂商官网、项目指定渠道或内部文件库获取。不要随便使用来路不明的包。

下载后确认:

有些固件不能跨太多版本直接升。遇到这种情况,按厂商说明分段升级。

四、升级顺序

常见顺序:

  1. BMC。
  2. BIOS。
  3. RAID 卡、网卡、HBA、硬盘背板等 Firmware。
  4. 系统内驱动或管理工具。

不是所有项目都必须按这个顺序,但 BMC 先正常,后面远程操作和日志查看会更方便。

五、升级时注意电源和网络

升级期间最怕断电和网络中断。建议:

如果是批量升级,不要一口气全升。先做小批量验证,再扩大范围。

六、升级后检查

升级完成后至少检查:

dmidecode -t bios
ipmitool mc info
ipmitool sensor
ipmitool sel list
lspci
lsblk
systemctl --failed
dmesg | tail -n 100

重点看:

七、GPU 服务器的额外检查

GPU 服务器升级 BIOS/BMC 后,最好再看:

nvidia-smi
nvidia-smi topo -m
dmesg | grep -i xid

如果拓扑变化、GPU 少卡、驱动报错,先检查 BIOS 里的 PCIe 相关配置,比如 Above 4G Decoding、Resizable BAR、启动模式和 PCIe 插槽设置。

八、升级失败怎么办

如果升级失败,先不要连续乱试。按下面顺序判断:

有条件时,保留升级日志、截图和当前版本信息,再联系厂商支持。

九、小结

服务器固件升级的关键是准备工作。版本、型号、维护窗口、升级顺序和升级后检查都要提前想清楚。升级本身可能只需要几分钟,但没有检查清单,后面排查会很麻烦。


分享这篇文章:

上一篇
Linux 服务器初始化脚本一般做哪些事
下一篇
Supermicro 服务器交付记录:硬件装配、BIOS、BMC 和系统安装