大屏系统应急预案及快速恢复方案
一、系统故障级别划分
具备突发事件相应的故障分析及诊断能力,主动发现故障或接到使用方的故障报修时,应给予反馈并提供故障处理意见。并在处理故障后的24小时内提供故障诊断分析。
故障分级:
一级故障:指一个或多个系统发生瘫痪,系统功能无法实现,持续时间超过一小时;关键数据丢失,但可恢复;导致系统性能下降50%以上,影响系统所承担的业务50%以上的。
二级故障:系统应用软件或设备异常,系统基本功能无法实现,未超过一小时并未导致大面积实时业务中断;关键数据丢失,但可恢复;导致系统性能下降50%以上,影响系统所承担的业务不超过50%的。
三级故障:导致系统性能下降但不超过50%的,业务功能仍能完成,业务质量不受影响的;系统未瘫痪但影响使用方正常使用的;
四级故障:个别终端无法使用;不影响系统正常运行的单点功能故障,业务功能和业务质量基本不受影响;
故障处理时限:
一级故障:故障处理响应20分钟,处理完成时限4小时;
二级故障:故障处理响应30分钟,处理完成时限8小时;
三级故障:故障处理响应60分钟,处理完成时限12小时;
四级故障:故障处理响应120分钟,处理完成时限24小时;
故障处理尽量减少故障时间,以最短时间恢复业务功能为第一原则;
对于以上一般故障,即设备无需返厂大修或是具备备品备件的情况下,在24小时内解决并恢复设备的正常运行。
对于重大故障,即设备损坏无法正常运行的情况下,且无备品备件,应及时获取设备原厂的技术服务支持,对设备进行返厂大修或是更换等处理,需在3-5个自然日内予以解决。
故障处理完成后要在24小时内出具针对本次故障的分析报告,并做好故障分析记录。
二、预案事件描述
序号
故障类型
解决办法
1
大屏幕故障
分析故障原因,对电源、投影单元进行全方位检查,判断故障原因更换维修。
2
服务器内存故障
分析故障原因,对故障硬盘进行更换处理。
3
服务器系统故障
分析故障原因,通过其他方式进入系统,对系统盘重要数据进行备份,备份完成后重新安装系统。
4
服务器声卡故障
分析故障原因,对故障设备声卡进行更换处理。
5
服务器电源故障
分析故障原因,对故障设备电源进行更换处理 。
6
系统漏洞
下载最新漏洞补丁包,与客户协商进行补丁安装。
7
应用软件故障
对桌面终端软件、 Microsoft office 、WPS 、常用工具软件、共享软件、杀毒及防毒软件等进行安 装升级、调试 。
8
服务器发现病毒
通过杀毒软件查杀,同时检查可疑进程及注册表信息,找到关键病毒文件进行删除。
三、主要操作流程
硬件故障操作流程如果发生硬件故障报警或设备着机,应急措施包括 :
故障检测定位检查硬件物理状态,收集相关故障信息。
硬件备份替换如果设备不能在业务允许停机的时间内修复,根据设备备份规划,
先用备份设备替换故障设备,确保业务持续运行。
如果发生比较复杂的多种故障,或存在相互关联的不确定故障部件,将逐一更换怀疑故障部件 ,逐步排除和解决问题 。
整机替换如果不能在短时间恢复故障系统时,我公司将提供不低于故障设备性能的整机运到贵方,替换故障设备,恢复应用运行。这样可以确保有较为宽裕的时间修复故障设备,待故障设备修复后,再将系统回迁到原来的设备,重新接管业务运行,替换下我们的备机。
故障分析时间我方工程师在系统恢复正常运行后,应对系统运行情况进行跟踪,并结合故障现场信息对故障产生原因进行分析,并对后续改进提出技术建议。
四、应急策略
针对运维服务过程中遇到的各种故障和风险,公司总结多年运维经验,针对一些可能出现的情况,制定了一些列预防处理措施。系统运维应急方案是对中断或严重影响业务的故障,如岩机、数据丢失、业务中断等,进行快速响应和处理, 在最短时间内恢复业务系统,将损失降到最低 。
对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。
紧急情况
预防措施
应急策略
硬件损坏
项目运维范畴内服务器故障
在磁盘数据未丢失情况下,保证数据安全性,进入设备维保流程
操作失误
加强培训力度,掌握培训效果,检验操作人员操作水准,提示注意事项。强调使用前配置方法和步骤,并特别提示需要在使用前按要求操作。
操作失误未造成即成结果或数据未丢失情况下,保障数据安全,反之, 协调相关部门,进行补救。对操作 人员强调注意事。
感染病毒
安装正版病毒防护软件,定期清理查杀。及时按照国网要求更新补丁等。
安装杀毒软件进行病毒查杀。
数据丢失
强调使用过程中注意定期备份重要据,日常维护过程中,上门服务人员实时备份数据并告知用户
协调有关部门,进行补救,无法补 救,提交报告说明原因。
五、系统运行维护安全性和稳定性保障
1、物理和环境安全
在运维工作中,要严格依照安全第一的原则进行运维服务,在运维时相关部门管理负责人及工控机使用用户的监督下进行设备运行维护 。在未经管理人员允许的情况下不得私自进入服务范围以外的区域,同时不得接触本次合同约定以外的网络、安全及服务器等设备。
2、信息系统口令管理制度
原则上不掌握用户口令 ,不设置临时口令,用户设置密码必须是强口令,巡检过程中有用户登录 ,对工控机进行日志采集、优化调整等工作 。
(1)用户及业务管理员账户信息泄露遗失用户及业务管理员账户信息泄露遗失时,应在24小时内通知本级系统管理员 。本级系统