EDAC错误

这一段时间一直在忙测试内存,足足测试了2个月了,真是悲剧阿,垃圾内存,测试中还发生过比较恶心的连锁反应——把相连的H3C交换机搞挂了,经过抓包及更换交换机、内存进行排查,基本可以断定是新加的兼容内存的不稳定性,在高负载压力时扰乱的网卡发出的电平信号,进而影响了H3C交换机(-_-我也觉得不可思议,不过确实发生了),换其他牌子的交换机就没事,换原装的内存也没事.唯一欣慰的是, 事情也快结束,希望2月底能全部弄完

以下是整个事情的经过

在检查一批新加兼容内存服务器时, 遇到一个错误,不断的刷到屏幕上,而没有加新内存的服务器却正常,首先怀疑新加内存不兼容,报的错误如下

Jan 8 10:17:08 xxx kernel: [506809.272631] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4
Jan 8 10:17:08 xxx kernel: [506809.272668] EDAC i5000 MC0: >Tmid Thermal event with intelligent throttling disabled
Jan 8 10:17:08 xxx kernel: [506809.272722] EDAC MC0: UE row 3,channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=2 RDWR=Write RAS=9879 CAS=0 FATAL Err=0x4)
Jan 8 10:17:09 xxx kernel: [506811.737687] EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x4
Jan 8 10:17:09 xxx kernel: [506811.737724] EDAC i5000 MC0: >Tmid Thermal event with intelligent throttling disabled
Jan 8 10:17:09 xxx kernel: [506811.737778] EDAC MC0: UE row 1,channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=11057 CAS=0 FATAL Err=0x4)

故障分析

EDAC是内核监控ECC内存状态的模块
i5000是Intel内存控制器
这个错误信息从字面理解是温度过高,而智能调节也没打开产生的告警,在Intel的资料里有提到此信息
第208页,3.22.1
http://www.intel.com/Assets/PDF/datasheet/313071.pdf

故障可能原因

1.新内存散热性能不佳产生报警
2.新内存与BIOS不兼容,触发了EDAC模块与BIOS的冲突

故障解决方法

1.最好就是换掉有问题的内存
2.如果实在负载不高,那也可以考虑下屏蔽这个报警,不过这个只是让它不报警,实际问题依然存在,依然存在风险
由于EDAC只是起监控功能,且BIOS本身也有自己的内存监控,可通过屏蔽EDAC来屏蔽这个错误

在/etc/modprobe.conf添加以下字段
blacklist i5000_edac

不加载edac后,再测试内存,不报警,暂时表现正常,但不能排除依然存在内存过热等或不兼容情况对服务造成影响.

参考资料:
1.https://bugs.launchpad.net/ubuntu/+source/linux/+bug/276444
2.http://forums.oracle.com/forums/thread.jspa?threadID=890202&tstart=0
3.https://bugzilla.novell.com/show_bug.cgi?id=418116
4.http://tomoyo.sourceforge.jp/cgi-bin/lxr/source/drivers/edac/i5000_edac.c
5.http://www.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/5.3/html/Release_Notes/sect-Release_Notes-Known_Issues.html
6.http://www.intel.com/Assets/PDF/datasheet/313071.pdf

以下是RH网站提供的方法
http://www.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/5.3/html/Release_Notes/sect-Release_Notes-Known_Issues.html

如果EDAC模块被加载,BIOS的内存报告功能将失效,因为EDAC模块清除了寄存器里的信息,导致BIOS获取不到有关内存错误的信息
如果想打开BIOS的内存报告功能,需要阻止EDAC模块的加载,把以下信息添加到/etc/modprobe.conf:
blacklist edac_mc
blacklist i5000_edac
blacklist i3000_edac
blacklist e752x_edac
2010-02-09 11:28964EDAC