从内存故障看云服务优化管理.docx
《从内存故障看云服务优化管理.docx》由会员分享,可在线阅读,更多相关《从内存故障看云服务优化管理.docx(4页珍藏版)》请在第壹文秘上搜索。
1、一、告警现象(1)内存在22点11分触发可更正的Ecc故障;(2)内存在22点32分触发不可更正的ECC故障:(3)服务器于22点39分发生重启.22:39:33SYSeRestan系磔访0新启动开始通件复位.触发22:3906SYSeRestart系统启y三新启动开始热复位,收发22:39:05CPU1_C0D1内存可更正的ECCttW-解除223905CPU1C0D0内存可更正的ECC32,解除22:3852CPU1.C0D1内存和EEfigECCSOT-g22:3235CPU1.C0D1内存三TEK)ECC三-位22:19:55ACPUIeCODO内存三j三EB9Eccaa-22:11:
2、48ACPU1-C0D1内存三J三K)ECCM-tKi二、告警处理一般流程(1)服务器配者snmp告警监控;(2)自动触发告警形成告警工单;(3)工单流转运维工程师处理;运维工程师确认故障情况,确认迁移;(4)虚拟机迁移;(5)迁移后确认虚拟机业务状态;6)故障硬件维修,恢宏原节点状态。三、故障情况分析(D内存基本知识内存DDRSDRAM简称DDR,双倍速率SDRAM,目前内存有DDR4、DDR5等.RAS全称为:ReliabilityAvailabilityServiceability.作用在于确保整个系统尽可能长期可靠的运行而不下线,并且具备足够强大的容错机制。RAS主要处理的方向有:CP
3、U、内存、10/PC1.e上错误、芯片组的错误及平台硬件褶误.内存RAS方案:纠错码ECC存储器,通过为实际数据生成ECCSECDED(单位纠错和双比特错误检测)代码,并将其存储在额外的DRAM存储中,DDR控制器可以纠正单位错误并检测从DRAM接受的数据上的双比特错误.具体检查过程为:1 )ECC代码由控制器根据实际WR写入数据生成,存储器存慵WR数据和ECC代码;2 )在RD读操作期间,控制器从内存中读取数据和相应的ECC代码.并将其接收到ECC代码进行比较;3 )如果存在匹配项,则未发生错误.如果存在不匹配,ECCSECDED机制允许控制器纠正任何单位错误并检测双比特错误.通过上述机制,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 内存 故障 服务 优化 管理