服务器固件升级看起来只是点几下或跑一个包,但现场最怕升级中断、版本不匹配、升级后硬件识别异常。这里记录一套比较稳妥的检查方式。
Table of contents
Open Table of contents
一、先确认为什么要升级
不要为了“新”而升级。常见升级原因包括:
- 修复已知硬件兼容性问题。
- 支持新 CPU、内存、网卡、GPU 或硬盘。
- 修复 BMC 安全漏洞。
- 解决风扇、温度、传感器或远程控制台异常。
- 项目要求统一版本。
如果服务器已经在线稳定运行,升级前要确认维护窗口和回退方案。
二、升级前记录版本
升级前先记录当前版本:
dmidecode -t bios
ipmitool mc info
lspci
lsblk
如果是 Dell,可以看 iDRAC;如果是 Supermicro,可以看 BMC Web 或 IPMI。建议把升级前后的版本都写进交付记录。
三、确认固件包来源
固件包尽量从厂商官网、项目指定渠道或内部文件库获取。不要随便使用来路不明的包。
下载后确认:
- 型号是否匹配。
- 主板版本是否匹配。
- BIOS 和 BMC 是否是同一平台。
- 是否有升级说明。
- 是否要求先升级某个中间版本。
有些固件不能跨太多版本直接升。遇到这种情况,按厂商说明分段升级。
四、升级顺序
常见顺序:
- BMC。
- BIOS。
- RAID 卡、网卡、HBA、硬盘背板等 Firmware。
- 系统内驱动或管理工具。
不是所有项目都必须按这个顺序,但 BMC 先正常,后面远程操作和日志查看会更方便。
五、升级时注意电源和网络
升级期间最怕断电和网络中断。建议:
- 使用稳定电源。
- 不要在升级过程中重启或断电。
- 远程升级时保证管理网络稳定。
- 同批机器先拿一台测试。
- 升级完成后按要求重启。
如果是批量升级,不要一口气全升。先做小批量验证,再扩大范围。
六、升级后检查
升级完成后至少检查:
dmidecode -t bios
ipmitool mc info
ipmitool sensor
ipmitool sel list
lspci
lsblk
systemctl --failed
dmesg | tail -n 100
重点看:
- BIOS/BMC 版本是否更新。
- CPU、内存、硬盘、网卡、GPU 是否都还在。
- BMC 传感器是否正常。
- 风扇是否异常。
- 系统日志是否有新错误。
七、GPU 服务器的额外检查
GPU 服务器升级 BIOS/BMC 后,最好再看:
nvidia-smi
nvidia-smi topo -m
dmesg | grep -i xid
如果拓扑变化、GPU 少卡、驱动报错,先检查 BIOS 里的 PCIe 相关配置,比如 Above 4G Decoding、Resizable BAR、启动模式和 PCIe 插槽设置。
八、升级失败怎么办
如果升级失败,先不要连续乱试。按下面顺序判断:
- BMC 是否还可以访问。
- 机器能否正常上电。
- BIOS 是否能进入。
- 厂商是否支持恢复模式。
- 是否有备份固件或回退版本。
有条件时,保留升级日志、截图和当前版本信息,再联系厂商支持。
九、小结
服务器固件升级的关键是准备工作。版本、型号、维护窗口、升级顺序和升级后检查都要提前想清楚。升级本身可能只需要几分钟,但没有检查清单,后面排查会很麻烦。