idc机房维护应急预案

2023-06-18 版权声明 我要投稿

第1篇:idc机房维护应急预案

IDC机房维保预防措施及应急预案

IDC数据中心机房的安全无疑是整个计算机信息系统安全的前提,如果数据中心机房存在这样那样的不安全因素,从而导致发生数据中心机房事故,则整个信息系统的安全也就不可能实现。

随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低。

1、维保预防措施

1、建立健全机房维保技术人员管理制度

1.1在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除故障隐患。

1.2周末、节假日及重大会议期间技术人员轮流值班,负责处理有关异常情况。

2、应提高对机房可靠性、可用性、安全性等方面的认识,既要重视信息系统安全,又要重视机房的运行维护管理,重视对计算机硬件、软件及网络设备的维护。要树立大局意识和忧患意识,对机房设施安全的重要性给予足够的重视。

3、应重点加强管理制度的执行。管理制度包括预防维护流程和紧急情况处理预案两个方面。要制定相应的管理制度,包括机房管理岗位制度、机房操作规程等,以明确岗位职责。为应对机房中可能会发生的紧急情况,如火灾、断电、数据丢失、设备失灵等,应按各种紧急情况分列处置措施,还要对预案进行演练。

4、应不断提高机房管理人员的技术水平。机房设施非常复杂,涉及很多专业和系统,维护人员只有通过不断的总结以往出现的各种问题进行后续学习和培训,提高技术水平,才能避免更多的相同的问题及异常情况甚至事故的发生。

5.应加强供配电、照明等电源子系统的监测。同时应重点对温度、湿度、灰尘、有害气体等进行评估和监测。还要加强静电防护、干扰源分析及保护、雷击

防护、电磁干扰、振动控制,防火、防水等工作。

5、应加强对进入机房人员的管理。工作人员行为、素质等因素均可能对机房安全造成影响,因此,除管理制度约束外,门禁和视频监视等物理安全策略均可有效提高机房安全水平。

7、应定期对机房设施进行安全评估。最好每年聘请第三方机构进行安全评估,专业评估机构拥有专家力量,能够比较安全地对所有的设备进行操作,不会因为误操作引起机房故障。

8、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施。

9、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。

10、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。

2、应急处置措施

2.1 机房漏水应急预案

(1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组。

(2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。

(3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患。 2.2 设备发生被盗或人为损害事件应急预案

(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场。

(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

(3)事发单位和当事人应当积极配合公安部门进行调查, 并将有关情况向系统突发故障应急领导小组汇报。

(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查。运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。事态或后果严重的,应向相关领导汇报。 2.3 机房长时间停电应急预案

(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:

(2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。

(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备。在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。

(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备

(5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。

2.4 通信网络故障应急预案

(1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。

(2) 运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区

域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

(3) 事态或后果严重的,应向应急指挥办公室和相关领导汇报。 (4) 应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组。 2.5网络病毒事件应急预案

(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组。

(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。

(3)事态或后果严重的,应向监控中心办公室和相关领导汇报。 (4)处置结束后 ,运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组。 2.6 服务器软件系统故障应急预案

(1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。

(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。

(3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 (4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。

2.7 黑客攻击事件应急预案

(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组。

(2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。

(3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援。

(4)处置结束后 ,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。 2.8 核心设备硬件故障应急预案

(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。

(2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。

(3)运维服务小组故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。

(4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。 2.9 业务数据损坏应急预案

(1)发生业务数据损坏 时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据。

(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。

(3)业务数据损坏事件超过 2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务。

(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的

差别,由相关系统业务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。 2.10 雷击事故应急预案

(1)遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。

(2)雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。

(3)因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组。必要时,应向监控中心应急指挥办公室和相关领导汇报。 2.11 空调设备故障应急预案

若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。 2.12 火灾事故应急预案

(1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;

(2)人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;

(3)人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。 2.13 电源设备故障应急预案

机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机: (1)确认所有负载均已安全关机。

(2)关闭UPS负载电源。

(3)将UPS的系统启用开关切换到off 的状态。 (4)将电池连接断路器切换到off的位置。

第2篇:IDC机房维护

运维IDC机房经验

一、什么是IDC机房运维?

IDC机房运维涉及到方方面面的问题,它不同于其他运维,处理的问题都是比较低沉的问题。在很多公司可能都是将服务器托管的到专门的IDC机房让专业的人士进行维护,还有些大公司建有自己的IDC机房,但管理层面上可能只是网络信息部门的一个子部门,但我们仍要面对很多机房管理的问题。IDC机房运维可以简单的从五个方面来概括:主机监控、信息统计、硬件维护、系统维护、网络维护。处理这些问题就是IDC机房的运维。

二、分层运维

我认为我们所熟知的计算机能有今天的成就很大一个成功是在于它的模块化设计,以及分层体系,现在我们用的PC的硬件是由CPU、内存、硬盘、主板、输入输出设备等组成。正是这些模块化的构造让人们对计算机的维护更加的方便,快捷。

现在我们正在步入云计算时代,云计算的实施却是阻碍重重。但是云计算是必然的趋势,因为这是人们对信息自由的渴望、是对资源合理利用的迫切需要。所以说云计算的发展也少不了用模块化,分层次的进行设计和优化。

我们来看看云计算的分类 云计算可以认为包括以下几个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。

我觉得我们现在的系统分层多且繁杂,无法体现我们在IDC机房的运维,我认为IDC机房的运维应该根据服务提供的角度去对IDC机房进行维护,从终端角度来看,所有提供网络服务的资源都是一朵朵的网云。我们在IDC机房中的运维都是为了面向终端进行服务。所以说我们应该根据服务来对我们的IDC机房进行运维。

我根据云计算服务的分类认为我们在运维分层的问题上应该和云服务的分类相呼应来进行维护,所以我认为,IDC机房的运维应该分成:基础设施维护,耦合层维护,应用服务维护三个层面。

基础设施维护

基础设施维护顾名思义,指的是对设施设备的维护,包括设备的环境维护,设备的统计等等。在这个层面我们需要保证每一台机器是可以正常连接的,是可以正常使用对外提供服务的,并且我们得保障机器的正常运行并且是可管理的。总的来说基础设施层的维护是为了对耦合层的交付使用而服务的。

耦合层维护

在这个层面我们对设备有了统一的管理,在这个层面有系统性的架构统一的管理系统,指令系统,和监控系统,在这个层面我们可以发现底层的问题,并交由底层处理,并在这个层面保证应用服务的正常运行。在这个层面将会涉及负载均衡和备份等技术。

应用服务维护

在这个层面主要是客户对自己应用的维护,在这个层面里客户对自己运行的运营软件进行维护。

当然这个分层的维护只是个萌生概念,如果有一天这个理论可以被建立,相信会被更加的完善。并且为我们更好的理解运维体系服务。

三、运维工程师

在我之前有很多人都对运维工程师进行过很多定义,大家都说运维工程师是神仙,不是人干的活。因为运维工程师所承担的东西太多了,这让很多做运维工作的朋友们都表示伤不起啊。我们可以来看看以前别人是怎么来定义运维工程师的。

运维工作师需要什么样的技能及素质

做为一名运维工程师需要什么样的技能及素质呢,首先说说技能吧,如大家上面所看到,运维是一个集多IT工种技能与一身的岗位,对系统->网络->存储->协议->需求->开发->测试->安全等各环节都需要了解一些,但对于某些环节需熟悉甚至精通,如系统(基本操作系统的熟悉使用,*nix,windows..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理)、通用应用(如lvs、ha、web server、db、中间件、存储等)、网络,IDC拓朴架构等等,但是我们知道每个人不肯能样样都很精通,每个人的知识层面不可能像水桶一样,我不否认这种人的处在,但是人的精力是有限的,一个人挖10口1米的井估计很难挖出水来,但是一个人挖一口10米的井我想挖出水的可能性还是很高的。所以说如果运维工程师通过分层运维将运维的知识面分开来进行突破,我想运维水平的提高指日可待,运维工程师的工作负担也会相应的减轻。

那么运维工程师在技能和个人素质方面需要什么要求呢?

我觉得在技能方面不需要过分去强求,只要懂得计算机的基本原理等计算机知识就可以,其他的个方面知识都可以通过后天的培养获得。

在个人素质方面应该具备以下几点:

个人素质方面:

1、沟通能力、团队协作:运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了,不多说。

2、工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站admin,最高线上权限者,一不小心就会遗憾终生或打入十八层地狱。

3、主动性、执行力、精力旺盛、抗压能力强:由于IT行业的特性,变化快;往往计划赶不上变化,运维工作就更突出了,比如国内各大公司服务器往往是全国各地,哪里便宜性价比高,就那往搬,进行大规模服务迁移(牵扯的服务器成百上千台),这是一个非常头痛的问题;往往时间非常紧迫,如限1周内完成,这种情况下,运维工程师的主动性及执行力就有很高的要求了:计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。

4、其它就是一些基本素质了:头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。

5、最后一点,做网站运维需要有探索创新精神,通过创新型思维解决现实中的问题,因为这是一个处于幼年的职业(国外也一样,但比国内起步早点),没有成熟体系或方法论可以借鉴,只能靠大家自已摸索努力。

四、机房运维技术体系

在机房中我们要面对各种各样的事情,如服务器上架,服务器下架,处理问题服务器等等。在机房运维中我觉得也应该建立起我们的技术体系,从这几方面入手使得我们的机房运营的更加平稳健康。

1、监控体系,一个健壮的身体里不开每天的观察,我们需要时时刻刻观察我们的机房,看看机房发生的细小问题,所以说强大而有健全的监控体系有利于我们更好的维护我们的机房。

2、统计体系,在IDC机房我们管理着数以百计的服务器,统计工作可马虎不得,每一台机器的配置,存放位置等等,都关系着数千元的设备的物理安全,其他的还有带宽安全等等。数量少还好,数量一多就有可能出错,如何快速高效的统计,并不出错也是门技术。所以单独为一个体系也是有必要的。

3、故障管理体系,在机房中我们要处理每一台服务器发生的故障,有些问题很棘手,有些问题很简单,但大多数问题都有相似性,可以参考其他问题的处理过程处理,良好的故障管理体系肯定是有助于我们快速的响应和处理问题的。

4、自动化体系,太多的手动执行大大影响了我们处理问题的工作效率,机房运维引入自动化的理念开发自动化管理工具可以大幅度的提高我们机房的管理效率。

5、评估优化体系,正所谓人无完人,在好的东西也有不好的地方,如IPONG待机时间短,建立评估优化体系使得我们可以在定期的时间内发现我们不足的地方,更好的优化我们的不足之处

五、如何成为一个合格的运维工程师

我认为做好IDC机房的运维就是要保障最底层的运维维护安全。如何高效的维护好底层的设备是每一个IDC运维工程师应当具备的职责。我们可以做好以下几个方面。 第

一、统计记录好机房机器运行的信息。如上下架记录,故障处理记录,监控记录等等,做到高效快速的统计好所有机房信息。

第二、监控。熟悉和掌握监控软件的使用,做到可以更具监控工具的组合应用定位故障点,初步反应故障原因等。

第三、通过创新思维以及熟练操作提高并解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。以及熟悉每一个运维环节的操作。

第四、运维知识的积累与沉淀、文档的完备性。运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。并且可以在相似问题发生的情况下快速反应。

第五、有计划的做事;工作有计划,计划后想方设法达到目标,不找借口。机房运维工作大多都比较少,通常都是处理问题,但有很多事情是需要定期去做的,比如统计、评估、优化等等。

六、运维职业的迷惘、现状与发展前景

运维岗位不像其它岗位,如研发工程师、测试工程师等,有非常明确的职责定位及职业规划,比较有职业认同感与成就感;而运维工作可能给人的感觉是哪方面都了解一些,但又都比上专职工程师更精通、感觉平时被关注度比较低(除非线上出现故障),慢慢的大家就会迷惘,对职业发展产生困惑,为什么会有这种现象呢?除了职业本身特点外,主要还是因为对运维了解不深入、做得不深入导致;其实这个问题其它岗位也会出现,但我发现运维更典型,更容易出现这个问题;针对这个问题我谈一下机房运维的现状及发展前景(也在思考中,可能不太深入全面,也请大家斧正补充)

运维现状:

1、处于刚起步的初级阶段,各大公司有此专职,但重视或重要承度不高,可替代性强;小公司更多是由其它岗位来兼顾做这一块工作,没有专职,也不可能做得深入

2、技术层次比较低;主要处于技术探索、积累阶段,没有型成体系化的理念、技术。

3、体力劳动偏大;这个问题主要与第二点有关系,很多事情还是依靠人力进行,没有完成好的提练。

发展前景:

2、从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。

3、运维将成为一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给大家提供一个很好的个人能力与技术广度的发展空间。

4、运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,具备很好的各层面问题的解决能力及方案提供、全局思考能力等。

5、特长发控和兴趣的培养;由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。

6、如果真要以后不想做运维了,转到其它岗位也比较容易,不会有太大的局限性。当然了,你得真正用心去做。

7、技术发展方向、网站/系统架构师。

第3篇:福建电信IDC机房维护保障方案

1. 机房稳定保障:应提供基本IDC保障,包括稳定的电力供应、网络环境、温湿度,并提供可靠的网络安全、安保、消防等防护。并配备经验丰富工程师随时应急处理故障等。如因环境问题引起的网络中断、设备损坏等情况应赔偿我方直接、间接经济损失。

2. 机房基本设施提供:包括座椅、机房专用推车、显示器、键鼠、排查、螺丝刀、老虎钳、网线、夹线钳、测线仪、拖鞋、鞋套等。(目前东门机房座椅较少)

3. 机房值班配合:如服务器出现宕机、我们暂无人员在现场或短时间内无法到达现场时电信值班人员现场配合处理,此要求重点在于电信机房值班电话必须7*24小时电话畅通,机房值班人员具备IDC相应技能。

4. 机房施工配合:我方新入服务器时安排足够网络、电力、机架空间等相应环境资源。如服务器进入时安排施工队对内外网网线进行布置、机架挡板调整等工作,施工工作应在当日进行,避免出现应环境未搭建拖延服务器出机完成时间现象。

5. 机房日常巡查:每天至少一次巡查机房。核查电力、空调运行是否稳定,并每周巡查所有服务器前端告警界面是否出现异常告警等。

6. 目前网龙公司在电信所有操作都必须向电信下操作单,因本司移服、更换IP操作机器频繁。下单又存在一定延时,给本市工作效率造成一定影响。建议今后网龙公司在电信机房除服务器进出仍需下单外其他操作,如更换IP、迁移位置、划分VLAN操作免除电子单据。

7. 升级机制配合措施:(包含多种方案) 方案A:如因网龙公司人员无法每日前往机房处理问题,建议针对网龙公司升级服务,遇到如更换故障服务器硬盘时配合更换。针对电信担心备件数量问题,我司将针对此建立应急备件库专供电信使用。

方案B:如因网龙公司人员无法每日前往机房处理问题,建议针对网龙公司升级服务,在突发故障时由电信帮忙进行现场操作,包括服务器故障排查,网龙故障排查,服务器IP变更,服务器机柜迁移等操作。

方案C:如因网龙公司人员无法每日前往机房处理问题,建议针对网龙公司升级服务,所有公司现场操作有电信帮忙处理,包括服务器上下架,GHOST系统,现场故障处理,现场服务器运维等(类似服务器租用服务)。此工作量较大,需电信扩招一专人负责。7*5服务标准即可。

第4篇:机房应急预案

中心机房突发事件应急预案

第一条

机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的 物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下:

1.建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘; 建立备份电源系统;加强所有人员防火、防盗等基本技能培训。

2.服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时 更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。

第二条

机房漏水应急预案如下:

1.发生机房漏水时,第一目击者应立即通知机房管理人员。

2.若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及 时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。 3.若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通 知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。

第三条

机房火灾应急预案如下:

1.完善机房环境,确保机房具备二氧化碳灭火器;禁止携带易燃易爆物品进入机房。 2.机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防 应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。 3.一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速拨打物业管理和119火警电话。

4.等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集中所有二氧化碳灭火器,抓住时机,尽可能的把火扑灭。

5.配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。

第四条

雷击事故应急预案如下:

1.遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算 机网络工作。

2.雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备 和数据进行检查。出现故障的,事发部门应将故障情况及时报告机房管理人员。

3.因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束 后一日内书面报告领导。

第五条

设备防盗被盗或人为损害应急预案如下:

1.机房管理人员每日查看、清点设备并锁好机房大门。

2.机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。

3.发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关负责人,同时保护好现场。

4.机房维护人员接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

5.事发单位和当事人应积极配合公安部门进行调查,并将有关情况向机房管理人员汇报。

第六条

机房停电应急预案如下:

1.接到停电通知后,机房管理人员应及时通过办公系统 、电话等发布相关信息,部署应对具体措施,要求用户在停电前停止业务、保存数据。

2.机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作半个小时,保证员工工作的数据及时保存。

第七条

通信网络故障应急预案如下:

1.发生通信线路中断、流量异常等故障后,员工应及时通知机房管理人员。

2.机房管理人员在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

3.应急处理结束后,机房管理人员应在一日之内提交故障分析报告,以便备案。

第八条

服务器故障应急预案如下:

1.机房管理人员每日检查服务器状态,检查邮箱服务器状态,确保系统运行的完善。

2.机房管理人员定期备份服务器数据,并将备份资料刻录成光盘或拷贝到移动硬盘。

第九条

1.发生机房突发事件后,机房管理人员应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,机房管理人员对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。

第5篇:机房应急预案

应急处置方案

第一节 总 则

1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。

2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。

3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。

4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。

应急方案的目标:保证预付卡运营系统连续安全稳定地运行。

第二节 应急领导小组

应急领导小组成员:

组 长: 副组长: 成 员:

第三节 电源系统故障应急处理

定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:

当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。

联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导

工程部联系电话:

第四节 空调系统故障应急处理

定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。

当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。 对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。 空调问题联系人:

第五节 中心机房自动消防系统应急处理

当中心机房发生火警时,按以下方案进行处置:

1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。

2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。 安保消防中控电话:

第六节 设备、网络系统故障应急处理

设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;

1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行; 2.应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名; 3.对磁盘柜上的数据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。

4、网络中有监控服务器,运用Cacti v10最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log日志以做出相应的处理。

5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。

对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。

如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。

启用备份线路、设备、系统,迅速恢复相关的应用。

联通联系电话:

第七节 黑客入侵的应急处理

发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。

对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。

安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。

若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。

第八节 生产系统、数据库故障处理

生产系统出现故障,技术部做出应急处理

1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在2小时内查明原因,解决问题。

2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相关部门应积极配合,解决问题。

3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24小时内恢复运营。

本方案自发布之日起施行

第6篇:机房消防应急预案

为使信息机房发生火灾事故时,当班人员能镇静有序地处置事件,特制订本预案,请各成员认真学习,熟悉应急处置程序,提高全员的应急能力,一旦发生突发事件,尽最大努力保证员工人身安全和减少损失。

起火原因一般有明火管理不慎;电气设备管理、使用不当;纵火等原因。

预案一:当闻到烧焦气味时

当班人员发现信息机房内有冒烟现象或闻到烧焦气味时,可能是某处阴燃处于起火阶段或电源超负荷发热引起,容易引发火灾,当班人员要立即查明原因和地点,针对不同情况,采取迅速将火源扑灭或关闭电源总开关、隔离火源附近易燃物、关闭窗等措施,消除起火隐患,防止引了火灾。事后立即向安保部门报告,并做好现场保护工作和防止起火点复燃,不得随意离开现场和将事故隐瞒不报。 预案二:当班时发现起火或冒出浓烟

由于起火源隐蔽或其他突发原因未能及时发现和消除起火隐患,酿成明火和冒出浓烟,燃烧面积不大,就是火灾的初起阶段,当班人员发现起火或冒出浓烟时,切忌惊惶失措,要沉着、果断,会同其他当班人员分工协作,迅速查明原因组织扑救,当火执已无法控制时处置办法:

一是指定专人立即拔打“119”火警电话报警和向上级保卫部门报告,并向本部门和周围的人及群众喊叫报警; 二是组织本单位、部门在场的人员有序地投入扑救工作,充分利用消防栓、灭火器、水桶等器材灭火,不能消极等待消防队到来,而错过灭火良机,力求将火扑灭或控制火势蔓延,不能只顾个人安危而逃离火场

三是大声呼喊请求邻近单位及群众的支援。

四是在组织灭火同时,要立即组织人员疏散和转移物品中,特别昌易燃、易爆物品和易受到火舌威胁的现金、重要凭证要及时转移到安全地点,并派人员守护,确保安全。

五是灭火后要注意保护现场,维护好秩序,以利于消防部门调查分析火灾原因。 注意事项:

报警人员报警时要向消防部门讲清楚起火地点、单位、起火的种类和火势大小,报警后即到街道或十字路口迎接、引导消防车辆的到来;扑救人员在消防人员到来后,要立即向消防指挥人员讲清火场内存放有何种物资和贵重物品,火场内是否有爆炸、剧毒物品,并协助消防部门维护好现场秩序。自行扑救火灾时要留心观察火势和环境,防止被火围困、烟气中毒、坠物砸伤等,在确保自身安全的情况下扑救火灾。

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:iwenmi@163.com。举报文章