当前位置: 首页 > IT厂商, 系统 > 正文

Dell 12代服务器出现 CPU 1 has an internal error (IERR)错误

[摘要] Dell 12代 Dell PowerEdge R420服务器突然挂掉,无响应,Idrac可以连接,但是通过Idrac reset后毫无反应。记得之前同样的机器也挂掉过一台,因为没抓到更多有用的系统日志,当时也没太在意。
这次发现日志里面有错误出现了:“CPU 1 has an internal error (IERR)”,因为系统用keepalived配置了高可用,挂掉一台并不影响服务,所以并不着急,正好可以找找问题原因所在。
一边请教谷歌大神,一边致电Dell金牌服务:400-886-8618,技术支持听我描述一番后给出了如下建议:

(1)BIOS中修改System Profile Settings -> System Profile,修改为Performance
(2)升级BIOS版本:BIOS下载地址

Google的结果也说Dell12代服务器电源管理有问题,建议使用acpi-cpufreq电源管理模块

因为Idrac无法重启,于是找到了机房的remote hand,断电重启,居然能点亮,看来电源或者主板没问题,接下来好办了,Idrac全部可以搞定。
慢慢来,首先BIOS中修改了System Profile为Performance
然后升级了BIOS版本,从1.5.2升级到了2.1.2
过程如下:

重启之后ssh登陆到系统,dmsg中发现有很多这样的日志:

看来google到的处理方法应该是有必要的,于是执行两条命令

继续Google。。
找到这样一篇jaseywang.me的文章,在Performance模式下是无法加载任何module的:

于是又回到BIOS中把 System Profile,修改为 Performance Per Watt(OS): OS DBPM

再次重启,dmsg中已经正常了,看来问题解决了,不过还有待于时间的考验!

Trouble shooting的过程中发现cpufreq_setup的使用方法比较有价值
https://access.redhat.com/site/documentation/zh-CN/Red_Hat_Enterprise_Linux/6/html/Power_Management_Guide/cpufreq_setup.html

另外Dell的Idrac命令里面真的有很多选项
比如Idrac取到的sel日志如下:

其他帮助参数

本文固定链接: https://www.sudops.com/dell-12g-cpu-1-has-an-internal-error.html | 运维·速度

该日志由 Fisher 于2014年05月23日发表在 IT厂商, 系统 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: Dell 12代服务器出现 CPU 1 has an internal error (IERR)错误 | 运维·速度
关键字: ,

Dell 12代服务器出现 CPU 1 has an internal error (IERR)错误:等您坐沙发呢!

发表评论


Time limit is exhausted. Please reload the CAPTCHA.

快捷键:Ctrl+Enter