idc机房应急预案手册

2022-11-26 版权声明 我要投稿

第1篇:idc机房应急预案手册

吉林省重大食品安全事故应急预案农业部门操作手册制定依据

一、《国家重大食品安全事故应急预案》(国办函[2005]52号)和《国家重大食品安全事故应急预案操作手册》(国食药监协[2006]52号)

二、《中华人民共和国农产品质量安全法》

三、《国务院关于加强食品安全工作的决定》(国发[2004]23号)。

工作原则

按照《国家重大食品安全事故应急预案》、《国家重大食品安全事故应急预案操作手册》,根据《中华人民共和国农产品质量安全法》,各级农业行政主管部门在当地政府和上级农业行政主管部门领导和指导下,根据职责分工,依法开展工作。

一、分级管理、分级响应

根据农产品质量安全事故的范围、性质和危害程度,对重大农产品质量安全事故实行分级管理,分级响应。

二、明确职责、落实责任

按照“全国统一领导、地方政府负责、部门指导协调、各方联合行动”的农产品质量安全工作机制,落实各自的职责。

三、科学决策、依法应急

采用先进技术,实行民主决策,依法规范程序,确保事故处置的科学、有效。

四、加强监测、群防群控

坚持群防群控,加强日常检测,及时分析、评估和预警。对可能引发的重大农产品质量安全事故,要做到早发现、早报告、早控制。

五、及时反应、快速行动

对重大农产品质量安全事故要作出快速反应,及时启动应急预案,严格控制事态发展,有效开展应急处置工作,做好善后处理及整改督查。

事故分级

按照《国家重大食品安全事故应急预案操作手册》分级办法,农产品质量安全事故相应分为四级。

一、特别重大农产品质量安全事故(Ⅰ级)

(一)事故危害特别严重,对2个以上省份造成严重威胁,并有进一步扩散趋势的;

(二)超出事发地省级人民政府处置能力水平的;

(三)发生跨境(香港、澳门、台湾)、跨国农产品质量安全事故,造成特别严重社会影响的;

(四)国务院认为需要由国务院或国务院授权有关部门负责处置的。

二、重大农产品质量安全事故(Ⅱ级)

(一)事故危害严重,影响范围涉及省内2个以上市(地)级行政区域的;

(二)造成伤害人数100人以上,并出现死亡病例的;

(三)造成10人以上死亡病例的;

(四)省级人民政府认定的重大农产品质量安全事故。

三、较大农产品质量安全事故(Ⅲ级)

(一)事故影响范围涉及市(地)级行政区域内2个以上县级行政区域,给人民群众饮食安全带来严重危害的;

(二)造成伤害人数100人以上,并出现死亡病例的;

(三)市(地)级人民政府认定的较大农产品质量安全事故。

四、一般农产品质量安全事故(Ⅳ级)

(一)事故影响范围涉及县级行政区域2个以上乡镇,给公众饮食安全带来严重危害的;

(二)造成伤害人数30—90人,未出现死亡病例的;

(三)县级人民政府认定的一般重大农产品质量安全事故。

组织体系

一、吉林省重大农产品质量安全事故应急指挥领导小组

重大农产品质量安全事故发生后,根据吉林省重大食品安全事故应急指挥部要求和工作需要,启动重大农产品质量安全事故应急指挥领导小组(以下简称“应急指挥领导小组”)。

(一)职责:在吉林省重大食品安全事故应急指挥部的统一领导下,负责重大农产品质量安全事故应急处置工作。

1.协助有关部门和地方政府采取措施,对重大农产品质量安全事故开展应急处置工作;

2.对重大农产品质量安全事故进行调查,提出处理意见和建议;

3.組织有关单位和专家开展相关技术鉴定工作;

4.根据需要发布事故的重要信息;

5.审议批准应急指挥领导小组办公室的应急处理工作报告等。

(二)总指挥:由吉林省农业委员会副主任担任。

(三)成员单位:根据重大农产品质量安全事故的性质和应急处理工作的需要确定,主要有:省农委办公室、市场信息处、发展计划处、财务处、科技教育处、农业处、农机处、农垦处、乡镇企业处、监察室,以及事故发生地市(地)级农业行政主管部门(组织机构图见附件一)。

相关部门职责如下:

1.办公室:负责制定信息发布方案及对外口径,组织、协调重大农产品质量安全事故的信息发布、汇总和报送等工作。

2.市场信息处:负责省应急指挥领导小组办公室日常工作,落实该办公室各项职责;拟定应急处置预案,组织协调应急处置工作,收集信息,分析动态等工作。

3.发展计划处:负责协调相关处室编制事故应急处置所需固定资产的方案,积极争取国家及省发改委追加应急处置所需固定资产投资。

4.财务处:负责事故应急处置资金保障及管理。

5.科技教育处:负责应急处置教育培训的归口管理,将应急处置相关知识作为农民培训的内容加以落实。

6.农业处:负责组织与种植业领域农药残留等有关农产品质量安全事故的调查,依法开展对重大农产品质量安全事故的处理和相关技术鉴定等工作。

7.农机处:负责组织涉及农业机械管理的农产品质量安全事故的调查,依法开展对农业机械造成的重大农产品质量安全事故的处理和相关技术鉴定等工作。

8.农垦处:负责组织垦区农产品质量安全事故的调查,依法开展对重大农产品质量安全事故的处理和相关技术鉴定等工作。

9.乡镇企业处:负责组织与加工食品相关的农产品质量安全事故的调查,依法开展对重大农产品质量安全事故的处理和相关技术鉴定等工作。

10.监察室:负责对政府公务员和政府行政机关任命的其他人员,在造成重大农产品质量安全事故以及应急处理工作中,有失职、渎职等违纪行为的调查、督查督办,并依法依纪提出处理建议或作出处分决定。

二、吉林省重大农产品质量安全事故应急指挥领导小组办公室

应急指挥领导小组下设办事机构。省应急指挥领导小组启动后,应急指挥领导小组办公室工作立即启动。

(一)职责

1.贯彻落实应急指挥领导小组的各项部署,组织实施事故应急处置工作;

2.检查督促各地区、委各处(室)做好各项应急处置工作,及时有效控制事故,防治蔓延扩大;

3.研究协调解决事故应急处理工作中的具体问题;必要时决定采取有关控制措施;

4.向省政府、应急指挥领导小组及其成员单位报告、通报事故应急处置工作情况;

5.为新闻机构提供事故有关信息,必要时接受媒体的专访;

6.完成应急指挥领导小组交办的其他任务。

(二)主任与副主任

1.主任:由吉林省农业委员会市场信息处处长担任;

2.副主任:由应急领导小组成员单位省农委办公室、市场信息处、发展计划处、财务处、科技教育处、农业处、农机处、农垦处、乡镇企业处、监察室主管处长(主任),以及事故发生地市(地)级农业行政主管部门的主管负责人担任(见附件二)。

(三)联络员、联系人

1.各成员单位设联系员(见附件二)。

2.各市(州)农业主管部门设联络员、联系人,联络员由主管负责人担任,联系人由主管科室负责人担任。

3.吉林省受理举报电话:0431-88906017。

4.省重大农产品质量安全事故应急指挥领导小组办公室地址:长春市人民大街1486号;邮编 130051;

电话(传真):0431-88906017 82711364。

三、应急处置工作小组

吉林省重大农产品质量安全事故应急预案启动后,各工作小组及其成员应当根据预案规定的职责要求,服从应急指挥领导小组的统一指挥,立即按要求履行职责,及时组织实施应急处置措施,并随时将处理情况报告给应急指挥领导小组办公室。应急指挥领导小组办公室应当将有关事故以及处理情况及时报告应急指挥领导小组。

(一)事故调查组

1.组成:应急指挥领导小组根据事故发生的原因和环节,明确省农委市场信息处、农业处、农机处、农垦处、乡企处等部门负责或其中一个部门牵头负责。监察室视情况参与对重大事故的调查。同时,根据需要成立专家咨询组,协助调查事故(专家库见附件三)。

2.职责:调查事故发生原因,做出调查结论,组织协调当地政府职能部门实施应急处置工作,监督相应措施的落实,评估事故影响,提出事故防范意见。专家咨询组负责为事故处置提供技术帮助,综合分析和评价检测数据,查找事故原因和评估事故发展趋势,预测事故后果及造成的危害,为制定现场处置方案提供参考。

(二)事故处理组

1.组成:由事故发生环节的具体监管职能部门为主负责。

2.职责:依法实施行政监督、行政处罚,监督召回有毒有害农产品,严格控制流通渠道,及时移送相关案件,依法追究责任人责任。

(三)综合组

1.组成:由省重大农产品质量安全事故应急指挥领导小组办公室按照《吉林省突发公共事件新闻发布应急预案》的规定,根据事故的类别等情况确定具体成员。

2.职责:迅速制定信息发布方案,及时采用适当方式组织信息发布。在发生可能产生国际影响的重大农产品质量安全事故或涉外事件时,及时组织对外发布,并视情况通过有关部门向我驻外有关使领馆、港澳台地区通报情况。负责受理事故发生地现场的记者采访申请和管理工作。负责互联网有关信息的管理和指导。

运行体系

一、监测、预警、报告、举报、通报

(一)监测与预警

吉林省建立农产品质量安全监测制度。省农委市场信息处负责农产品质量安全监测工作的综合协调、归口管理和监督检查。各相关处室和单位根据各自职责分工负责组织开展农药及农药残留等质量安全监测工作。

吉林省建立农产品质量安全信息公告制度,及时发布有关农产品农药残留等质量安全监测信息。

各有关处室应当按照各自职责,加强对重点品种、重点环节、重点场所,尤其是高风险农产品种养殖过程的质量安全日常监管。

(二)报告

吉林省建立健全重大农产品质量安全事故报告制度,包括信息报告和通报,以及社会监督、舆论监督、信息采集和报送等。

1.责任报告单位和人员

(1)农产品种植、养殖的单位和个人以及农产品批发市场;

(2)农产品质量安全检验检测机构、科研院所;

(3)重大农产品质量安全事故发生(发现)单位;

(4)地方各级农业主管部门和有关部门;

(5)消费者;

(6)其他单位和个人。

任何单位和个人对重大农产品质量安全事故不得瞒报、迟报、慌报或者授意他人瞒报、迟报、谎报,不得阻碍他人报告。

2.报告程序

遵循从下至上逐级报告原则,允许越级上报。鼓励其他单位和个人向农业行政主管部门报告农产品质量安全突发事件的发生情况,发生重大、特别重大农产品质量安全事故时,市(地)级农业行政主管部门应当立即向省应急指挥领导小组办公室及对口处室报告。

(1)农产品质量安全事故发生(发现)后,有关单位和个人应当采取控制措施,及时向所在地乡级人民政府和县级人民政府农业行政主管部门报告;收到报告的机关应当及时处理并报上级人民政府和有关部门。

(2)发生重大农产品质量安全事故时,农业行政主管部门应当及时报告同级人民政府和上级农业行政主管部门,并及时通报同级食品药品监督管理部门。

(3)发生重大、特别重大农产品质量安全事故时,市(地)级农业行政主管部门应当立即向省农委报告。

(4)省农委各处室在接到重大农产品质量安全事故报告后,应当立即报省应急指挥领导小组办公室,省应急指挥领导小组办公室按程序向省应急指挥领导小组报告,并及时通报省食品药品监督管理局。

3.报告要求

(1)初次报告

事故发生地农业行政主管部门应尽可能报告事故发生的时间、地点、单位、危害程度、死亡人数、事故报告单位及报告时间、报告单位联系人员及联系方式、事故发生原因的初步判断、事故发生后采取的措施及事故控制情况等,如有可能应当报告事故的简要经过。

(2)阶段报告

事故发生地农业行政主管部门既要报告新发生的情况,必要时也要對初次报告的情况进行补充和修正,包括事故的发展与变化、处置进程、事故原因等。

(3)总结报告

事故发生地农业行政主管部门应当在事故处理后10日内做出总结报告。总结报告包括重大农产品质量安全事故鉴定结论,对事故的处理工作进行总结,分析事故原因和影响因素,提出今后对类似事故的防范和处置建议。

(三)举报

任何单位和个人有权向省农委举报重大农产品质量安全事故和隐患,以及相关责任部门、单位、人员不履行或者不按规定履行农产品质量安全事故监管职责的行为。

省农委接到举报后,应当及时组织对举报事项的调查处理工作。

(四)通报

农产品质量安全事故发生后,有关部门之间应当及时通报。

1.通报范围和方式

(1)市(地)级农业行政主管部门应当及时将可能引发的重大农产品质量安全事故的风险信息报送省农委。根据重大农产品质量安全事故危险源监控信息,对可能引发的重大农产品质量安全事故的险情,省农委应当及时通报有关市(地)级人民政府、省食品药品监督管理局及其他有关部门和单位,必要时上报省人民政府。同时,视情况向社会及时通报,避免风险和危害范围进一步扩大。

(2)省农委接到重大农产品质量安全事故报告后,及时与事故发生地农业行政主管部门沟通情况;有蔓延趋势的还应向相关地区的农业行政主管部门通报,加强预警预防工作。同时,应当立即向省食品药品监督管理局通报。

2.特殊通报

涉及港、澳、台地区人员或者外国公民,或者事故可能影响到境外,需要向香港、澳门、台湾地区有关机构或者有关国家通报时,经省人民政府或省应急指挥部批准,由省农委及时通报省港澳办、台办或省外办,有关部门按照相关预案实施。

二、农产品质量安全事故的应急响应

(一)分级响应

按照《吉林省重大食品安全事故应急预案》,农产品质量安全事故的应急响应分四级,特别重大农产品质量安全事故的应急响应(Ⅰ级)由国家应急指挥部或办公室组织实施;重大农产品质量安全事故的应急响应(Ⅱ级)、较大农产品质量安全事故的应急响应(Ⅲ级)、一般农产品质量安全事故的应急响应(Ⅳ级)行动的组织实施由省及地方人民政府决定。

(1)响应的升级:当重大农产品质量安全事故随时间发展进一步加重,农产品质量安全事故危害特别严重,并有蔓延扩大的趋势,情况复杂难以控制时,应当上报省应急指挥部审定,及时提升预警和反应级别;

(2)响应的降级:对事故危害已迅速消除,并不会进一步扩散的,应当上报省应急指挥部审定,相应降低反应级别或撤消预警。

(二)指挥协调

1.吉林省应急指挥领导小组指挥协调的主要内容

按照省应急指挥部或办公室的部署和要求,启动吉林省重大农产品质量安全事故应急预案;提出应急行动原则要求,协调指挥应急处置行动。

2.吉林省应急指挥领导小组办公室指挥协调的主要内容

协调省农委有关处室向省应急指挥领导小组提出应急处置重大事项决策建议;派出有关专家和人员参加、指导现场应急处置指挥工作;协调、组织实施应急处置;及时向省应急指挥领导小组报告应急处置行动的进展情况;指导对受威胁的周边环境的监控工作,确定重点保护区域。

(三)紧急处置

现场处置主要依靠本行政区域内的应急处置力量。重大农产品质量安全事故发生后,发生事故的单位和当地人民政府按照应急预案迅速采取措施。事态出现急剧恶化的情况时,在充分考虑专家和有关方面意见的基础上,及时制定紧急处置方案,依法采取紧急处置措施。

跨省(区、市)、跨领域、影响严重的重大农产品质量安全事故紧急处置方案,按照《吉林省重大食品安全事故应急预案》实施。

(四)响应的终结

重大农产品质量安全事故隐患或相关危险因素消除后,重大农产品质量安全事故应急处置终结,应急处置队伍撤離现场。应急指挥领导小组办公室组织有关专家进行分析论证,经现场检测评价确无危害和风险后,提出终止应急响应的建议,报应急指挥领导小组批准宣布应急响应结束。应急指挥领导小组办公室根据汇总之后的应急处理工作情况报告,可向有关部门提出具体处理意见和建议。应急指挥领导小组办公室对农产品质量安全事故发生单位、责任单位的整改工作进行监督,及时跟踪处理情况,随时通报处理结果。

三、后期处理

(一)善后处理

省人民政府负责组织重大农产品质量安全事故的善后处置工作,包括人员安置、补偿,征用物资补偿,污染物收集、清理与处理等事项。尽快消除事故影响,妥善安置和慰问受害和受影响人员,尽快恢复正常秩序,保证社会稳定。

重大农产品质量安全事故发生后,保险机构及时开展应急处置人员保险受理和受灾人员保险理陪工作。

造成重大农产品质量安全事故的责任单位和责任个人应当按照有关规定对受害人给予赔偿。

(二)责任追究

对在重大农产品质量安全事故的预防、通报、报告、调查、控制和处理过程中,有玩忽职守、失职、渎职等行为的,依据有关法律规定提出追究有关责任人责任的建议。

省农委相关处室负责人对整改和善后处理进行监督。

(三)总结报告

重大农产品质量安全事故善后处置工作结束后,地方农业行政主管部门应急处置指挥机构应当及时总结分析应急处置经验教训,提出改进应急处置工作的建议,完成应急处置总结报告,报送吉林省应急指挥领导小组办公室,并抄送省农委各相关处室。省农委根据地方农业行政主管部门应急处置指挥机构提交的应急处置总结报告,组织研究改进应急处置工作的措施。

四、应急保障

(一)信息保障

省农委建立重大农产品质量安全事故的专项信息报告系统,由吉林省应急指挥领导小组办公室负责承担重大农产品质量安全事故信息的收集、处理、分析和传递等工作。

(二)技术保障

重大农产品质量安全事故的技术鉴定工作必须由有资质的检测机构承担。当发生重大农产品质量安全事故时,受省应急指挥领导小组或者其他单位的委托,承担任务的检测机构应立即采集样本,按有关标准要求实施检测,为重大农产品质量安全事故定性提供依据。

(三)物资保障

各级人民政府应当保障重大农产品质量安全事故应急处理所需设施、设备和物资,保障应急物资储备,提供应急处置资金,所需经费列入同级人民政府财政预算。

(四)演习演练

各级农业行政主管部门要按照“统一规划、分类实施、分级负责、突出重点、适应需求”的原则,采取定期和不定期相结合形式,组织开展突发重大农产品质量安全事故的应急演习演练。

市(地)级农业行政主管部门要根据本地区实际情况和工作需要,结合应急预案,统一组织突发重大农产品质量安全事故的应急演习演练。

有关企事业单位应当根据自身特点,定期或不定期组织本单位的应急处置演习演练。

(五)宣教培训

各级农业行政主管部门应当加强对广大消费者进行农产品质量安全知识的教育,提高消费者的风险和责任意识,正确引导消费。

重大农产品质量安全事故应急处置培训工作采取分级负责的原则,由各级农业行政主管部门负责组织实施。

(省农委市场信息处 供稿)

第2篇:IDC机房维保预防措施及应急预案

IDC数据中心机房的安全无疑是整个计算机信息系统安全的前提,如果数据中心机房存在这样那样的不安全因素,从而导致发生数据中心机房事故,则整个信息系统的安全也就不可能实现。

随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低。

1、维保预防措施

1、建立健全机房维保技术人员管理制度

1.1在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除故障隐患。

1.2周末、节假日及重大会议期间技术人员轮流值班,负责处理有关异常情况。

2、应提高对机房可靠性、可用性、安全性等方面的认识,既要重视信息系统安全,又要重视机房的运行维护管理,重视对计算机硬件、软件及网络设备的维护。要树立大局意识和忧患意识,对机房设施安全的重要性给予足够的重视。

3、应重点加强管理制度的执行。管理制度包括预防维护流程和紧急情况处理预案两个方面。要制定相应的管理制度,包括机房管理岗位制度、机房操作规程等,以明确岗位职责。为应对机房中可能会发生的紧急情况,如火灾、断电、数据丢失、设备失灵等,应按各种紧急情况分列处置措施,还要对预案进行演练。

4、应不断提高机房管理人员的技术水平。机房设施非常复杂,涉及很多专业和系统,维护人员只有通过不断的总结以往出现的各种问题进行后续学习和培训,提高技术水平,才能避免更多的相同的问题及异常情况甚至事故的发生。

5.应加强供配电、照明等电源子系统的监测。同时应重点对温度、湿度、灰尘、有害气体等进行评估和监测。还要加强静电防护、干扰源分析及保护、雷击

防护、电磁干扰、振动控制,防火、防水等工作。

5、应加强对进入机房人员的管理。工作人员行为、素质等因素均可能对机房安全造成影响,因此,除管理制度约束外,门禁和视频监视等物理安全策略均可有效提高机房安全水平。

7、应定期对机房设施进行安全评估。最好每年聘请第三方机构进行安全评估,专业评估机构拥有专家力量,能够比较安全地对所有的设备进行操作,不会因为误操作引起机房故障。

8、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施。

9、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。

10、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。

2、应急处置措施

2.1 机房漏水应急预案

(1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组。

(2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。

(3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患。 2.2 设备发生被盗或人为损害事件应急预案

(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场。

(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

(3)事发单位和当事人应当积极配合公安部门进行调查, 并将有关情况向系统突发故障应急领导小组汇报。

(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查。运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。事态或后果严重的,应向相关领导汇报。 2.3 机房长时间停电应急预案

(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:

(2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。

(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备。在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。

(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备

(5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。

2.4 通信网络故障应急预案

(1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。

(2) 运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区

域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

(3) 事态或后果严重的,应向应急指挥办公室和相关领导汇报。 (4) 应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组。 2.5网络病毒事件应急预案

(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组。

(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。

(3)事态或后果严重的,应向监控中心办公室和相关领导汇报。 (4)处置结束后 ,运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组。 2.6 服务器软件系统故障应急预案

(1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。

(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。

(3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 (4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。

2.7 黑客攻击事件应急预案

(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组。

(2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。

(3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援。

(4)处置结束后 ,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。 2.8 核心设备硬件故障应急预案

(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。

(2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。

(3)运维服务小组故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。

(4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 2.9 业务数据损坏应急预案

(1)发生业务数据损坏 时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据。

(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。

(3)业务数据损坏事件超过 2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务。

(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的

差别,由相关系统业务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。 2.10 雷击事故应急预案

(1)遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。

(2)雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。

(3)因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组。必要时,应向监控中心应急指挥办公室和相关领导汇报。 2.11 空调设备故障应急预案

若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。 2.12 火灾事故应急预案

(1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

(2)人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

(3)人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。 2.13 电源设备故障应急预案

机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机: (1)确认所有负载均已安全关机。

(2)关闭UPS负载电源。

(3)将UPS的系统启用开关切换到off 的状态。 (4)将电池连接断路器切换到off的位置。

第3篇:机房应急预案手册

一、机房事故处理通则

凡系统发生故障时,网管运行监控负责人必须立即组织抢修,不得拖延。

运行监控人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。

运行监控管理人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

重大故障和严重故障要报上级业务主管领导。对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。

故障处理基本原则:先重点后一般;先调通后维修。

1、故障等级

网管系统的故障等级共分三类:

1.1 重大故障

在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成所有网管业务中断超过24小时。

1.2 严重故障

在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成下列情况之一的系统故障:

(1)所有网管业务中断超过12小时但不超过24小时;

(2)网管个别业务中断超过24小时;

1.3 一般故障

除重大故障和严重故障外的其他故障。

2、故障通报与通报制度

网管中心应建立相关设备故障处理联系制度,并将联系人和联系方法张贴在醒目位置。

网管中心应建立设备操作手册和故障处理流程,并存放在固定地点。

网管中心应建立设备运行情况统计和登记表,并存放在固定地点。

2.1 故障处理:

2.

11、在系统发生故障时,值班人员应对照运行维护手册进行简单的故障处理和准确定位,对无法处理的故障应立即通知系统维护主管工程师,并逐级上报。系统维护主管工程师组织相关人员现场处理,故障处理完毕后,马上通知故障发起点,并进行详细记录。当系统发生故障时,网管中心运行维护负责人必须立即组织抢修,不得拖延。

2.

12、在处理故障时,应严格按照故障处理流程进行,整个流程强调闭环管理,按先重点后一般;先调通后维修的原则进行。

2.

13、在系统和设备故障处理的过程中,若出现较为严重或一时无法解决的问题,及时通知故障发起点,并立即向主管领导汇报,同时与厂家联系,及时争取技术支持,填写故障报告。

2.

14、在系统设备故障处理过程中,若使用了备件单元或备用电路板,应按规定分别详细登记故障发生的工作单元、故障现象或故障代码、换用备件名称、编号,有条件时应附上当时的打印记录,向主管报告,并及时与备件管理人员取得联系,按正确的手续发送返修。

2.

15、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络进行监控。

2.

16、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络相关数据进行保存和统计。

2.

17、网管中心在相关故障排除后48小时内提交故障分析报告。报告将视故障级别上报所在公司运行维护部和上级网管中心。

运行维护人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。 2.2 故障通报:

当出现值班人员不能解决的故障时,值班人员应立即上报系统维护主管工程师和部门主管 。

故障处理完毕一天内,系统主管工程师写出故障报告,上报部门主管,重大故障和严重故障要报上级业务主管部门。

当发生故障时,机房当班人员应将故障发生经过详细填写进《值班日志》。

如果网管系统出现严重故障,在故障发生后应在第一时间向上一级网管中心通报相关情况。

出现故障后,由网管中心指定专人向相关部门通报故障影响范围和处理情况等。

运行维护负责人应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

二、机房应急动力预案

1、机房停电故障 1.1 准备工作

1.11停电后第一时间电话咨询供电公司(电话号码)询问停电原因及停电时长。

1.12电话通知相关领导停电状况,如果在值班过程中停电需同事共同处理的也及时通知,在停电期间要保持通信畅通有问题及时联系。(领导电话)

1.13准备扳手、六棱起、数字万用表、“+”字“—”字螺丝刀各两把(大 、小)等常用电工工具,准备好高压绝缘手套、绝缘鞋、专用扳手。

1.14以上3点工作尽量在最短时间内结束,然后针对故障原因作出相应处理。

1.2停电情况下处理方式

从供电公司确定完停电原因及停电时长后,确定停电时长是否在UPS负荷工作时间范围内:如果在UPS负荷工作范围内,密切观察UPS工作状态,所有设备正常工作;如果超出UPS工作范围内,向领导申请,存储信息,关闭机房设备,防止机房断电丢失数据。

1.3 市电恢复后的操作

1. 所有设备恢复市电供电,检查设备的供电运行情况。

2、UPS故障处理

通州工商局机房UPS系统为2台OVERTOP RT30KH UPS 的并机系统.如30KVA UPS系统中一台UPS故障,系统自动将负载倒到另一台UPS上,如何关闭故障的UPS,如何再次开启UPS,如下:

关机

1、先将旁路转换开关打到“ON”的位置:

2、将UPS输出开关打到“OFF”位置

3、关掉UPS的开关,这时UPS停止运行;

4、关掉UPS输入开关,系统关机完毕。

开机

1、首先确认UPS的开关都打到“OFF”位置,配电柜的UPS输出开关也在“OFF”位置。

2、先把旁路转换开关打到“ON”的位置

3、分别将UPS的开关合闸;

4、当UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,UPS转到正常工作模式,启动完成。

5、最后合上UPS输出开关,系统供电正常。

当关掉其中一台UPS在启动办法

1、先把旁路转换开关打到“ON”的位置

2、再把已关掉的UPS的开关分别打到“ON”的位置;

3、当两台UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,两台UPS转到正常工作模式,启动完成

3、机房空调及局部过热故障的紧急处理方案

发生机房空调故障,会使机房的温度升高,危害设备正常运行。所以发生此类故障后,要积极维修,如果一时无法修复,必须采取应急措施,保障机房环境符合要求。

现在的机房空调一台艾赛尔精密空调,一台大金空调。

1、首先判断机房空调什么故障,如果压缩机故障,送风机工作正常,此时尽量将机房防静电地板掀开.增将出风口.

如果是空调的送风机故障,不能正常送风,

把邻近空调的送风口的格栅尽量调整,到故障空调前面的区域,这样才能的保障机房温度不至于上升。或者尽量将机房防静电地板掀开,增将出风口,或者拿普通的电风扇在故障空调的影响区域吹风,打开机柜门,冰块局部降温等措施防止局部升温过快。

2、机房局部设备温度上升过快或过热的处理步骤 首先将此设备的机柜门打开,让热空气充分散出,

也可以用电风扇对此设备吹风,加快散热速度,

购买冰块,放在大盆里,置于局部过热部位,利用冰块融化吸收热量,

或者同时放置冰块并用电风扇吹。

三、机房防火预案

一、当发生火灾事故时,抢险工作应遵循如下原则:

1坚持“统一领导、分级负责、严密组织、密切配合、快速反应、保障有力”的原则。

2坚持快速恢复生产、减少经济损失的原则。

3坚持原则性与灵活性相结合的原则,注意讲究策略和方法。

二、消防安全管理基本原则:

1坚持“预防为主,防消结合”的原则。 2坚持“谁主管、谁负责”的“两谁”原则。

第4篇:机房应急预案

主机运维应急预案简介

. 崔志昂 上海超级计算中心 上海 201203 zacui@ssc.net.cn . 魏玉琪 上海超级计算中心 上海 201203 yqwei@ssc.net.cn 引言:

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地 为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1. 主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握 研发技术,系统造价非常昂贵,多用于国家高科技 领域和尖端技术研究,是国家科技发展水平和综合 国力的重要标志。上海超级计算中心作为上海信息 港主体工程之一,国家和上海市政府投资先后引 进神威-I超级计算机、神威-64P集群计算机、曙光 4000A超级计算机系统并投入商业化运行。

上海超级计算中心自2001年正式开通至今,

这些高性能计算机系统已安全、稳定运行七年多时 间,上机用户取得了丰硕的科研成果和社会效益。 在这七年中,为保障这些高性能计算机系统安全、 稳定、不间断地运行,技术支持部在中心引进第一 台高性能计算机--神威-I超级计算机系统的同时,建 立了机房应急预案、运行记录、设备运行参数等基 础运维制度,在二期引进曙光4000A超级计算机系统 过程中,不断完善原有运维制度,并针对该主机系 统特点编写了大量操作方法和应急预案。

中心自2006年获得ISO27001(BS7799)信息安 全认证以来,技术支持部根据其要求规范了文档体 系建设,形成了机房管理制度、应急预案、操作方 法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执 行,才确保了资产价值高、服务对象广、社会影 响大的中心主机系统安全、稳定运行,保障重点项 目、用户服务的连续性。

2. 应急预案重要性

上海超级计算中心机房运维管理文档划分为机 房管理制度、应急预案、操作方法、运行记录共四 大类(如图1所示)。

图1 应急预案分类

应急预案在应急系统中起着关键作用,它明确 了在突发紧急情况发生之前、发生过程中以及刚刚 结束之后,谁负责做什么、何时做,以及相应的策 略和资源准备等。它是针对可能发生的重大事故, 按照其影响和后果严重程度,在应急准备、响应、 操作各个方面预先做出的详细安排,是开展及时、 有序和有效事故应急工作的行动指南。因此,应急 预案在这四类运维管理文档中处于最为重要的地位。

3. 应急预案分类

应急预案按重要性和事件种类,可以划分为消

防预案、断电预案、空调预案、其他预案共4种,预 案各文档之间彼此独立又互为关联,具有非常强的 可操作性。制定预案的指导原则是尽一切可能,最 大限度地确保向用户提供的服务不中断。在紧急事 件发生的情况下,保证核心设备连续运行,避免存 储数据丢失。在事件处置完成后,能快速恢复高性 能计算服务。

3.1 消防预案

消防预案是主机房最重要的应急预案。该类预 案根据《上海超级计算中心灭火和应急疏散预案》 的原则并结合主机房主机设备和消防设备的运行特 性而制定。主要由《主机房消防应急预案》和《主 机房气体喷淋消防系统启动撤离及处置应急预案》 2个文档组成。

消防应急预案:该预案着重规范了火警事件发 生后,所有主机维护人员如何根据所属区域和现场 情况,判断和选择正确的处理方法,同时配合中心 物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人 员寻找烟雾点予以切断相关区域电源;当设备发生 可以控制火情,协同物业人员灭火;当主机房发生 火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案

的主体,涉及到如何处理与消防有关情况的各个方 面。气体喷淋预案是主机房发生重大火灾时应对的 最终灭火手段和人员撤离引导方法。

3.2 断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范 围下对主机运行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机 系统紧急关机操作方法》、《曙光4000A超级计算机 系统双路断电关机操作方法》等多个文档组成。

主机房断电应急预案:该预案用于断电情况

下,主机维护人员如何与中心物业部门联系控制主 机房供电情况,并且负责对主机系统运行受断电影 响程度做出正确判断。指导维护人员按影响程度, 分别选用预案中对应的操作方法。本预案在所有断 电预案中起指导思想作用。 紧急关机操作方法:该预案制定了主机系统在 紧急情况下,最快速度关机的操作步骤。主要用于 发生烟雾、明火或消防、断电预案需在数分钟内关 机断电的事件。

双路断电关机操作方法:该紧急操作预案主要 用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑 操作步骤,宁慢勿快,在时间允许的情况下,最大 程度保证存储节点、SAN和SCSI存储设备、工程用户 的计算节点的运行,尽可能减少关闭范围,以确保 能在恢复供电的情况下,主机尽快恢复正常运行状 态,减少影响范围。

3.3 空调预案

超级计算机系统在运行中消耗大量电能,在

提供高性能的计算能力同时产生大量的热量,必须 采用专用空调系统,以保持主机系统适当的温、湿 度、空气洁净度等运行环境需求。因此,专用空调 系统与主机系统密切相关,空调预案是主机房必备 的应急预案。

制定该预案的原因在于,断电情况下,空调与 主机系统存在互相牵制的现状。主机和空调系统均 为外界双路供电,主机系统配有UPS不间断电源系 统,而空调系统无UPS支持。在双路停电情况下,主 机系统可获得UPS电池组支持运行若干分钟,空调系 统无UPS支持只能停机。由于在无空调冷却情况下, 主机系统会在短时间内积聚大量热量导致超过运行 警戒温度,主机系统在有可供电余量的情况下,仍 将被迫关机。因此,确保空调中断情况下的主机运 行环境是该预案的制定原则。

预案根据各台主机配备的空调系统特点制定, 由《曙光机房空调系统故障应急预案》和《神威机 房空调系统应急预案》2个文档组成,这里仅介绍曙 光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效

果,采用打开主机机柜前后门,和机房周边木门, 在通风道上布置有UPS支持的应急风扇,形成空气对 流,带走热空气,从而增强主机系统散热效果,降 低升温速度。

该预案的第二步:在采取上述措施并持续升温 到一定温度之上的情况下,考虑紧急关闭部分或全 部计算节点,减少热量生成,确保主机系统的核心 存储和网络系统不受影响,确保空调系统修复后, 主机系统能快速恢复运行。

3.4 其他预案

除了固定的三类预案之外,技术支持部还根据 主机系统实际运行中出现的各种意外情况,随时制 定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定,就

是由于2008年1月连续发生雨雪等灾害性天气,中心 大楼顶棚大量积雪且难融化,物业预计存在情况继 续恶化,有发生顶棚坍塌事故的可能,一旦发生将 影响一楼主机运行。

针对该突发的隐患,中心技术支持部制定应急 操作方法,对维护巡查频度范围、漏水可能发生位 置、如何处理受漏水影响的主机设备等操作步骤进 行严格界定。即使在最后,中心大楼顶棚经受住灾 害性天气的考验,该预案并未发挥作用,这正体现 了应急预案的备而不用的特点。而且通过各种意外

情况的迅速分析、应对和实践操练,不断锻炼主机 维护队伍,使之走向成熟。

4. 在实际案例中,应急预案的作用

在主机系统年复一年的运行中,我们希望这些 设备正常稳定运行,应急预案永远不会被使用,然 而在实际运行中,总免不了因突发事件执行应急预 案。

而每次突发事件是检验应急预案制定是否科 学、有效的最好证明。

4.1 双路断电,UPS正常运行案例

2006年8月某天,因打雷导致供电一路跳闸自动 换至另一路供电,曙光机房2台空调掉电。

主机维护人员立即按应急预案操作,电话通知 物业人员恢复空调运行,恢复过程中所有空调相继 出现高温报警,机柜液晶屏平均温度35度,开启全 部曙光机柜前后门,打开神威-曙光玻璃门并调集应 急电扇,于12:45恢复正常。

12:50再次出现双路供电中断,曙光空调因无

UPS支撑全部断电,启动断电应急预案,开启

5、6号 木门,开启神威机房全部空调,布置电扇,将冷气 导入曙光机房,热量从6号木门的外部通道排出,选 择性杀除部分作业,至13:05供电恢复,曙光空调开 始工作,13:20环境恢复正常。全机在此过程中,正 常运行未停机,只损失了部分不重要的作业。

4.2 单路断电,UPS失效案例

2007年8月某天,因低压配电柜开关至UPS房间 X-JM柜电缆发生相对地短路,造成UPS机组逆变器 自身保护动作,关闭UPS机组,导致曙光主机系统失 电。

全机掉电后,主机维护人员迅速按应急预案

手 工 关 闭 所 有 电 源 开 关 。1 0 : 3 0恢 复 供 电 ,温湿度恢复正常后,全机加电,恢复过程中修复

storage00

1、00

5、010三个盘阵的9个用户文件系统, 修复15个节点加电故障,除cnode00

9、anode029电源

环 境 模块故障,于当日15:10全机系统恢复正常。

由于处置及时,主机受影响范围很小,在恢复 供电后数小时即成功开启全系统。

5. 随时保持应急预案的适用性

主机长年累月的运行,故障和问题的发生,往 往是必然的,也是客观、无法回避的。因此,要求 在维护工作中,预先考虑到可能的问题和故障,制 定完善的应急预案。应急预案不可能包含所有的故 障和问题,但应根据维护经验,尽可能地设想各种 危机情况下的处置措施。做到预想到各种可能的问 题。

而在形成应急预案后,更重要的是持续地在

运行中加以完善、测试和演练,尽可能模拟实际情 况,做到即使只有1名维护人员在场,也能在真正发 生危机时,以最短时间独立处置故障。

以目前中心的主机运维工作为例,三年内,仅 断电预案就已根据实际运行情况的变化,制定并更 新了5~6个版本,针对夏季突发断电也有专用预案。 这样的措施,直接保障了2006年8月突发断电事件中 的主机连续运行。而2007年8月的突发断电事件中, 由于预案在之前刚根据实际情况进行过演练和修 改,主机维护人员仅用半小时就完成所有应急操作 动作,整机仅有个别设备故障,确保了主机设备未 因突发断电而发生大范围损坏现象,恢复供电后直 接完成开机。

实践证明,完善而适用的应急预案能保障向用 户提供稳定的高性能计算服务。

6. 结束语

完备而适用的应急预案能有效降低主机系统因 意外事件发生带来的运行风险,对可能发生的意外 来说,是一种事前防范措施。但对整个主机系统产 品而言,是一种事后防范措施。如果主机系统生产 厂商能把这些防范措施纳入整个系统设计过程中, 使操作方法更加简便、更趋于人性化,这将帮助主 机维护人员更为妥善处理意外事件,用户得到更为 稳定的高性能计算服务。我们相信未来国产的高性 能计算机能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1. 断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

1.1 打开机房门便于散热,..

1.2 机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

机房的温度尽量降低。

1.3 打开所有机柜前、后门。

1.4 密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2. 紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

2.1 自断电发生起,已达到XX分钟仍未恢复供电;

2.2 采取上述紧急通风措施,节点温度持续上升,超过XX℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3. 紧急关机操作步骤:

注意事项:

3.1 ..

3.2 关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3 应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

第一级操作:(首先执行) 关闭主机系统外围设备..

第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注:

1. 如时间非常紧急,UPS电池低于XX分钟:

直接执行关机脚本:..

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2. 如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)- XXXX-XXXX-XXXX),直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

3. 如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

第5篇:机房消防应急预案

为确保机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,特制定本预案。

一、适用范围

本预案适用于机房存在的重大火灾隐患和因各种原因发生的火灾事件等。

二、组织领导

为防止发生重大火灾事件时出现混乱局面,使灭火工作及时得到有组织、有步骤的进行,根据实际情况成立机房消防应急指挥小组。组长: ;副组长: ;成员: 。

三、火灾预防

1.机房全体人员应有高度的防火意识,禁止在机房内存放易燃易爆物品,禁止在机房内吸烟或使用明火,禁止在机房内乱拉电线。

2.消防器材由专人负责保管,定期检查消防器材。未经许可,禁止擅自移动。

3.每月进行一次电源开关、电器和线路的检查,发现故障、老化、破损、绝缘不良等不安全因素,必须及时报修,并做好记录备案,消除安全隐患。

4.走廊、楼梯等公共部位严禁堆放物品,保持通道畅通。

四、火灾处置

1.机房消防与大楼值班室相连接,值班人员发现报警器报警或发现火情时,应在迅速确认后电话通知大楼监控中心,并根据火情直接报119火警。

2.电话通知应急指挥小组,启动应急预案。报告后,应根据火势情况,向周围人员发出火警信号。

3.消防应急指挥小组进入现场,开展灭火救援行动。在消防人员未到达火灾现场时,应打开应急通道,组织现场无关人员有序疏散,并派人及时切断电源,隔离火灾危险源和重要设备,充分利用中心消防器材进行灭火。机房发生火灾,应遵照下列原则:首先保人员安全;其次保关键设备、关键数据安全;三是保一般设备安全。

4.确认机房设备区域火情后,根据现场情况实施机房区域气体灭火操作。

5.协助消防员灭火。在自救的基础上,当专业消防队到达火灾现场后,火灾事故应急指挥小组要简要的向消防队负责人说明火灾情况,听从消防队的指挥,并全力支持消防队员灭火。

五、灾后处理

1、火灾消除后,应将抢运的设备物资放置在安全场所,并登记造册,计算火灾损失。

2、火灾消除后,对火灾现场进行清理,消除烧毁物资,杜绝火势复燃。

3、灾后值班人员和安全主管人员应配合消防部门和公安部门分析火灾原因,明确火灾责任人。

第6篇:机房消防应急预案

为使信息机房发生火灾事故时,当班人员能镇静有序地处置事件,特制订本预案,请各成员认真学习,熟悉应急处置程序,提高全员的应急能力,一旦发生突发事件,尽最大努力保证员工人身安全和减少损失。

起火原因一般有明火管理不慎;电气设备管理、使用不当;纵火等原因。

预案一:当闻到烧焦气味时

当班人员发现信息机房内有冒烟现象或闻到烧焦气味时,可能是某处阴燃处于起火阶段或电源超负荷发热引起,容易引发火灾,当班人员要立即查明原因和地点,针对不同情况,采取迅速将火源扑灭或关闭电源总开关、隔离火源附近易燃物、关闭窗等措施,消除起火隐患,防止引了火灾。事后立即向安保部门报告,并做好现场保护工作和防止起火点复燃,不得随意离开现场和将事故隐瞒不报。 预案二:当班时发现起火或冒出浓烟

由于起火源隐蔽或其他突发原因未能及时发现和消除起火隐患,酿成明火和冒出浓烟,燃烧面积不大,就是火灾的初起阶段,当班人员发现起火或冒出浓烟时,切忌惊惶失措,要沉着、果断,会同其他当班人员分工协作,迅速查明原因组织扑救,当火执已无法控制时处置办法:

一是指定专人立即拔打“119”火警电话报警和向上级保卫部门报告,并向本部门和周围的人及群众喊叫报警; 二是组织本单位、部门在场的人员有序地投入扑救工作,充分利用消防栓、灭火器、水桶等器材灭火,不能消极等待消防队到来,而错过灭火良机,力求将火扑灭或控制火势蔓延,不能只顾个人安危而逃离火场

三是大声呼喊请求邻近单位及群众的支援。

四是在组织灭火同时,要立即组织人员疏散和转移物品中,特别昌易燃、易爆物品和易受到火舌威胁的现金、重要凭证要及时转移到安全地点,并派人员守护,确保安全。

五是灭火后要注意保护现场,维护好秩序,以利于消防部门调查分析火灾原因。 注意事项:

报警人员报警时要向消防部门讲清楚起火地点、单位、起火的种类和火势大小,报警后即到街道或十字路口迎接、引导消防车辆的到来;扑救人员在消防人员到来后,要立即向消防指挥人员讲清火场内存放有何种物资和贵重物品,火场内是否有爆炸、剧毒物品,并协助消防部门维护好现场秩序。自行扑救火灾时要留心观察火势和环境,防止被火围困、烟气中毒、坠物砸伤等,在确保自身安全的情况下扑救火灾。

第7篇:机房停电应急预案

应急预案指面对突发事件如自然灾害、重特大事故、环境公害及人为破坏的应急管理、指挥、救援计划等。以下是小编整理好的机房停电应急预案,欢迎大家阅读参考!

机房安全应急预案【1】

机房是我单位的重要场所,重要仪器、设备相对集中,一旦发生事故,会造成严重后果 。为此特制定本应急预案。

一、触电

(1) 一旦发生触电事故,应迅速安全切断电源,切忌直接接触触电者。

(2) 即刻拨打紧急电话120并通知相关领导,同时开展现场应急救护 。

二、火灾

1、报警程序:

即刻通知领导及相关部门,根据火情大小如需报警立即就近用电话或手机报告消防中心(电话119).。

2、组织实施:

机房管理员一旦发现火情后,应即刻切断电源,并使用灭火器扑救起火设备。

三、空调漏水

若空调系统出现渗漏水,应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时临时用电扇进行降温。

四、设备发生被盗或人为损害事件

( 1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告中心负责人,同时保护好现场。

( 2)中心负责人接报后,通知保卫处,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

( 3)当事人应当积极配合公安部门进行调查, 并将有关情况向领导汇报。

五、机房停电

(1)接到长时间停电通知后,应及时发布相关信息,部署应对具体措施。

(2)如遇临时停电,且停电时间在3小时之内,管理员要检查UPS是否正常工作,以确保机房设备的正常运行。。

六、网络故障

(1)发生通信线路中断、路由故障、流量异常等故障后,网络管理员应及时查清通信网络故障位置,隔离故障区域,组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

(2) 事态或后果严重的,应及时报告领导并请求协助解决。

七、不良信息和病毒事件

(1)发现不良信息或网络病毒时,管理员应立即断开网线,终止不良信息或网络病毒传播,并报告。

(2)中心负责技术人员应采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。

(3)事态或后果严重的,应及时报告相关领导以及相关部门。

八、服务器软件系统故障

(1)发生服务器软件系统故障后,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;

(2)若重启失败,应立即安排备份服务器启用,并请求技术人员支援,作好技术处理。

九、注意事项:

第一、机房管理员要加强日常监控,及时处理、消除及上报安全隐患。

第二、备齐安全相关装备。

第三、及时做好备份。

网络及机房故障应急预案【2】

为科学应对网络与信息安全突发事件,提高信息中心机房处理突发信息网络事件的能力,建立健全信息安全应急机制,有效预防、及时控制和最大限度地消除信息安全各类突发事件的危害和影响,特制订网络及教育技术中心机房故障应急预案。

本预案坚持“统一领导、协调配合、明确责任、依法规范、条块结合、整合资源、防范为主、加强监控”的原则。适用于网络及教育技术中心机房可能发生的网络与信息安全突发事件。

一、设备发生被盗或人为损害事件应急预案

⑴ 发生设备被盗或有人为损害设备情况时,使用者或管理者应立即报告科长,同时保护好现场。

⑵ 科长接报后,应立即报告处长,并通知安全公安处,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

⑶ 事件当事人应当积极配合公安部门进行调查,并将有关情况向科长和处长汇报。

二、机房停电应急预案

⑴ 接到停电通知或遇不可预知的停电后,应立即报告科长,并通过网站发布或电话通知停电通告。

⑵ 停电已经发生,应立即检查机房供电情况,如UPS是否正常供电,设备是否出现关机等情况,并积极查看机房当前温度情况。

⑶ 机房温度超过30度且制冷空调无法开启,积极组织人员开始对次要设备进行关机。

⑷ 机房温度超过35度且制冷空调无法开启,积极组织人员开始对绝大部分设备进行关机。

⑸ 机房来电后先与物业部门确认供电是否恢复正常,如完全正常,先开制冷空调,并根据设备关机的反序开机,并检查各项服务是否正常开启。

三、网络故障应急预案

⑴发生通信网络故障后,网络管理员应第一时间明确网络故障的位置和程度,及时给科长汇报,并隔离故障区域,切断故障区与服务器的网络联接。

⑵针对故障原因,网络管理员及时制定故障解决预案,并报上级领导批准,情况严重时告知相关通信网络运营商,请求协助查清原因。

⑶网络管理员会同电信技术人员或公司技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

⑷网络管理员以及关责任人负责写出故障分析报告,上报上级领导备案。

四、不良信息和网络病毒事件应急预案

⑴当发现不良信息或网络病毒时,网络管理员应立即断开该处网络,第一时间给上级领导汇报,并终止不良信息或网络病毒传播。

⑵立即通告局域网内所有计算机用户防病毒方法,隔离网络,指导各计算机操作人员进行杀毒处理,直至网络处于安全状态。

⑶对不良信息要进一步追查来源,对未经相关领导同意擅自发布信息,造成不良影响且触犯法律者,移交执法部门追究法律责任。

⑷情况严重时,应立即向上级领导报告,请求支援,作好应对措施。

五、黑客攻击事件应急预案

⑴当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,及时给网络管理人员报告,网络管理员接到报告后立即给上级领导汇报。

⑵接到报告后,网络管理员立即关闭网络,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。

⑶及时清理系统、恢复数据、程序,尽力将系统和网络恢复正常;情况严重时,应立即级领导报告,请求支援,作好应对措施。

六、机房设备硬件故障应急预案

⑴发生机房设备硬件故障后,网络管理员立即确定故障设备及故障原因,并及时给领导汇报,制定处理预案。

⑵若故障设备在短时间内无法修复,应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。

⑶故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,应立即级领导报告,请求支援,作好应对措施。

七、应急处置

发生信息网络突发事件后,网络管理人员应在第一时间内向上级领导报告,并且成立应急小组,组织人员开展先期处置。发生重大事件应向上级领导部门报告。

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:iwenmi@163.com。举报文章