机房维护应急预案

2023-04-02 版权声明 我要投稿

第1篇:机房维护应急预案

机房应急预案

主机运维应急预案简介

. 崔志昂 上海超级计算中心 上海 201203 zacui@ssc.net.cn . 魏玉琪 上海超级计算中心 上海 201203 yqwei@ssc.net.cn 引言:

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地 为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1. 主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握 研发技术,系统造价非常昂贵,多用于国家高科技 领域和尖端技术研究,是国家科技发展水平和综合 国力的重要标志。上海超级计算中心作为上海信息 港主体工程之一,国家和上海市政府投资先后引 进神威-I超级计算机、神威-64P集群计算机、曙光 4000A超级计算机系统并投入商业化运行。

上海超级计算中心自2001年正式开通至今,

这些高性能计算机系统已安全、稳定运行七年多时 间,上机用户取得了丰硕的科研成果和社会效益。 在这七年中,为保障这些高性能计算机系统安全、 稳定、不间断地运行,技术支持部在中心引进第一 台高性能计算机--神威-I超级计算机系统的同时,建 立了机房应急预案、运行记录、设备运行参数等基 础运维制度,在二期引进曙光4000A超级计算机系统 过程中,不断完善原有运维制度,并针对该主机系 统特点编写了大量操作方法和应急预案。

中心自2006年获得ISO27001(BS7799)信息安 全认证以来,技术支持部根据其要求规范了文档体 系建设,形成了机房管理制度、应急预案、操作方 法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执 行,才确保了资产价值高、服务对象广、社会影 响大的中心主机系统安全、稳定运行,保障重点项 目、用户服务的连续性。

2. 应急预案重要性

上海超级计算中心机房运维管理文档划分为机 房管理制度、应急预案、操作方法、运行记录共四 大类(如图1所示)。

图1 应急预案分类

应急预案在应急系统中起着关键作用,它明确 了在突发紧急情况发生之前、发生过程中以及刚刚 结束之后,谁负责做什么、何时做,以及相应的策 略和资源准备等。它是针对可能发生的重大事故, 按照其影响和后果严重程度,在应急准备、响应、 操作各个方面预先做出的详细安排,是开展及时、 有序和有效事故应急工作的行动指南。因此,应急 预案在这四类运维管理文档中处于最为重要的地位。

3. 应急预案分类

应急预案按重要性和事件种类,可以划分为消

防预案、断电预案、空调预案、其他预案共4种,预 案各文档之间彼此独立又互为关联,具有非常强的 可操作性。制定预案的指导原则是尽一切可能,最 大限度地确保向用户提供的服务不中断。在紧急事 件发生的情况下,保证核心设备连续运行,避免存 储数据丢失。在事件处置完成后,能快速恢复高性 能计算服务。

3.1 消防预案

消防预案是主机房最重要的应急预案。该类预 案根据《上海超级计算中心灭火和应急疏散预案》 的原则并结合主机房主机设备和消防设备的运行特 性而制定。主要由《主机房消防应急预案》和《主 机房气体喷淋消防系统启动撤离及处置应急预案》 2个文档组成。

消防应急预案:该预案着重规范了火警事件发 生后,所有主机维护人员如何根据所属区域和现场 情况,判断和选择正确的处理方法,同时配合中心 物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人 员寻找烟雾点予以切断相关区域电源;当设备发生 可以控制火情,协同物业人员灭火;当主机房发生 火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案

的主体,涉及到如何处理与消防有关情况的各个方 面。气体喷淋预案是主机房发生重大火灾时应对的 最终灭火手段和人员撤离引导方法。

3.2 断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范 围下对主机运行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机 系统紧急关机操作方法》、《曙光4000A超级计算机 系统双路断电关机操作方法》等多个文档组成。

主机房断电应急预案:该预案用于断电情况

下,主机维护人员如何与中心物业部门联系控制主 机房供电情况,并且负责对主机系统运行受断电影 响程度做出正确判断。指导维护人员按影响程度, 分别选用预案中对应的操作方法。本预案在所有断 电预案中起指导思想作用。 紧急关机操作方法:该预案制定了主机系统在 紧急情况下,最快速度关机的操作步骤。主要用于 发生烟雾、明火或消防、断电预案需在数分钟内关 机断电的事件。

双路断电关机操作方法:该紧急操作预案主要 用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑 操作步骤,宁慢勿快,在时间允许的情况下,最大 程度保证存储节点、SAN和SCSI存储设备、工程用户 的计算节点的运行,尽可能减少关闭范围,以确保 能在恢复供电的情况下,主机尽快恢复正常运行状 态,减少影响范围。

3.3 空调预案

超级计算机系统在运行中消耗大量电能,在

提供高性能的计算能力同时产生大量的热量,必须 采用专用空调系统,以保持主机系统适当的温、湿 度、空气洁净度等运行环境需求。因此,专用空调 系统与主机系统密切相关,空调预案是主机房必备 的应急预案。

制定该预案的原因在于,断电情况下,空调与 主机系统存在互相牵制的现状。主机和空调系统均 为外界双路供电,主机系统配有UPS不间断电源系 统,而空调系统无UPS支持。在双路停电情况下,主 机系统可获得UPS电池组支持运行若干分钟,空调系 统无UPS支持只能停机。由于在无空调冷却情况下, 主机系统会在短时间内积聚大量热量导致超过运行 警戒温度,主机系统在有可供电余量的情况下,仍 将被迫关机。因此,确保空调中断情况下的主机运 行环境是该预案的制定原则。

预案根据各台主机配备的空调系统特点制定, 由《曙光机房空调系统故障应急预案》和《神威机 房空调系统应急预案》2个文档组成,这里仅介绍曙 光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效

果,采用打开主机机柜前后门,和机房周边木门, 在通风道上布置有UPS支持的应急风扇,形成空气对 流,带走热空气,从而增强主机系统散热效果,降 低升温速度。

该预案的第二步:在采取上述措施并持续升温 到一定温度之上的情况下,考虑紧急关闭部分或全 部计算节点,减少热量生成,确保主机系统的核心 存储和网络系统不受影响,确保空调系统修复后, 主机系统能快速恢复运行。

3.4 其他预案

除了固定的三类预案之外,技术支持部还根据 主机系统实际运行中出现的各种意外情况,随时制 定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定,就

是由于2008年1月连续发生雨雪等灾害性天气,中心 大楼顶棚大量积雪且难融化,物业预计存在情况继 续恶化,有发生顶棚坍塌事故的可能,一旦发生将 影响一楼主机运行。

针对该突发的隐患,中心技术支持部制定应急 操作方法,对维护巡查频度范围、漏水可能发生位 置、如何处理受漏水影响的主机设备等操作步骤进 行严格界定。即使在最后,中心大楼顶棚经受住灾 害性天气的考验,该预案并未发挥作用,这正体现 了应急预案的备而不用的特点。而且通过各种意外

情况的迅速分析、应对和实践操练,不断锻炼主机 维护队伍,使之走向成熟。

4. 在实际案例中,应急预案的作用

在主机系统年复一年的运行中,我们希望这些 设备正常稳定运行,应急预案永远不会被使用,然 而在实际运行中,总免不了因突发事件执行应急预 案。

而每次突发事件是检验应急预案制定是否科 学、有效的最好证明。

4.1 双路断电,UPS正常运行案例

2006年8月某天,因打雷导致供电一路跳闸自动 换至另一路供电,曙光机房2台空调掉电。

主机维护人员立即按应急预案操作,电话通知 物业人员恢复空调运行,恢复过程中所有空调相继 出现高温报警,机柜液晶屏平均温度35度,开启全 部曙光机柜前后门,打开神威-曙光玻璃门并调集应 急电扇,于12:45恢复正常。

12:50再次出现双路供电中断,曙光空调因无

UPS支撑全部断电,启动断电应急预案,开启

5、6号 木门,开启神威机房全部空调,布置电扇,将冷气 导入曙光机房,热量从6号木门的外部通道排出,选 择性杀除部分作业,至13:05供电恢复,曙光空调开 始工作,13:20环境恢复正常。全机在此过程中,正 常运行未停机,只损失了部分不重要的作业。

4.2 单路断电,UPS失效案例

2007年8月某天,因低压配电柜开关至UPS房间 X-JM柜电缆发生相对地短路,造成UPS机组逆变器 自身保护动作,关闭UPS机组,导致曙光主机系统失 电。

全机掉电后,主机维护人员迅速按应急预案

手 工 关 闭 所 有 电 源 开 关 。1 0 : 3 0恢 复 供 电 ,温湿度恢复正常后,全机加电,恢复过程中修复

storage00

1、00

5、010三个盘阵的9个用户文件系统, 修复15个节点加电故障,除cnode00

9、anode029电源

环 境 模块故障,于当日15:10全机系统恢复正常。

由于处置及时,主机受影响范围很小,在恢复 供电后数小时即成功开启全系统。

5. 随时保持应急预案的适用性

主机长年累月的运行,故障和问题的发生,往 往是必然的,也是客观、无法回避的。因此,要求 在维护工作中,预先考虑到可能的问题和故障,制 定完善的应急预案。应急预案不可能包含所有的故 障和问题,但应根据维护经验,尽可能地设想各种 危机情况下的处置措施。做到预想到各种可能的问 题。

而在形成应急预案后,更重要的是持续地在

运行中加以完善、测试和演练,尽可能模拟实际情 况,做到即使只有1名维护人员在场,也能在真正发 生危机时,以最短时间独立处置故障。

以目前中心的主机运维工作为例,三年内,仅 断电预案就已根据实际运行情况的变化,制定并更 新了5~6个版本,针对夏季突发断电也有专用预案。 这样的措施,直接保障了2006年8月突发断电事件中 的主机连续运行。而2007年8月的突发断电事件中, 由于预案在之前刚根据实际情况进行过演练和修 改,主机维护人员仅用半小时就完成所有应急操作 动作,整机仅有个别设备故障,确保了主机设备未 因突发断电而发生大范围损坏现象,恢复供电后直 接完成开机。

实践证明,完善而适用的应急预案能保障向用 户提供稳定的高性能计算服务。

6. 结束语

完备而适用的应急预案能有效降低主机系统因 意外事件发生带来的运行风险,对可能发生的意外 来说,是一种事前防范措施。但对整个主机系统产 品而言,是一种事后防范措施。如果主机系统生产 厂商能把这些防范措施纳入整个系统设计过程中, 使操作方法更加简便、更趋于人性化,这将帮助主 机维护人员更为妥善处理意外事件,用户得到更为 稳定的高性能计算服务。我们相信未来国产的高性 能计算机能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1. 断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

1.1 打开机房门便于散热,..

1.2 机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

机房的温度尽量降低。

1.3 打开所有机柜前、后门。

1.4 密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2. 紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

2.1 自断电发生起,已达到XX分钟仍未恢复供电;

2.2 采取上述紧急通风措施,节点温度持续上升,超过XX℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3. 紧急关机操作步骤:

注意事项:

3.1 ..

3.2 关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3 应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

第一级操作:(首先执行) 关闭主机系统外围设备..

第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注:

1. 如时间非常紧急,UPS电池低于XX分钟:

直接执行关机脚本:..

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2. 如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)- XXXX-XXXX-XXXX),直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

3. 如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

第2篇:机房应急预案

中心机房突发事件应急预案

第一条

机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的 物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下:

1.建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘; 建立备份电源系统;加强所有人员防火、防盗等基本技能培训。

2.服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时 更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。

第二条

机房漏水应急预案如下:

1.发生机房漏水时,第一目击者应立即通知机房管理人员。

2.若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及 时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。 3.若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通 知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。

第三条

机房火灾应急预案如下:

1.完善机房环境,确保机房具备二氧化碳灭火器;禁止携带易燃易爆物品进入机房。 2.机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防 应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。 3.一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速拨打物业管理和119火警电话。

4.等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集中所有二氧化碳灭火器,抓住时机,尽可能的把火扑灭。

5.配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。

第四条

雷击事故应急预案如下:

1.遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算 机网络工作。

2.雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备 和数据进行检查。出现故障的,事发部门应将故障情况及时报告机房管理人员。

3.因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束 后一日内书面报告领导。

第五条

设备防盗被盗或人为损害应急预案如下:

1.机房管理人员每日查看、清点设备并锁好机房大门。

2.机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。

3.发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关负责人,同时保护好现场。

4.机房维护人员接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

5.事发单位和当事人应积极配合公安部门进行调查,并将有关情况向机房管理人员汇报。

第六条

机房停电应急预案如下:

1.接到停电通知后,机房管理人员应及时通过办公系统 、电话等发布相关信息,部署应对具体措施,要求用户在停电前停止业务、保存数据。

2.机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作半个小时,保证员工工作的数据及时保存。

第七条

通信网络故障应急预案如下:

1.发生通信线路中断、流量异常等故障后,员工应及时通知机房管理人员。

2.机房管理人员在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

3.应急处理结束后,机房管理人员应在一日之内提交故障分析报告,以便备案。

第八条

服务器故障应急预案如下:

1.机房管理人员每日检查服务器状态,检查邮箱服务器状态,确保系统运行的完善。

2.机房管理人员定期备份服务器数据,并将备份资料刻录成光盘或拷贝到移动硬盘。

第九条

1.发生机房突发事件后,机房管理人员应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,机房管理人员对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。

第3篇:机房应急预案

应急处置方案

第一节 总 则

1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。

2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。

3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。

4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。

应急方案的目标:保证预付卡运营系统连续安全稳定地运行。

第二节 应急领导小组

应急领导小组成员:

组 长: 副组长: 成 员:

第三节 电源系统故障应急处理

定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:

当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。

联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导

工程部联系电话:

第四节 空调系统故障应急处理

定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。

当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。 对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。 空调问题联系人:

第五节 中心机房自动消防系统应急处理

当中心机房发生火警时,按以下方案进行处置:

1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。

2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。 安保消防中控电话:

第六节 设备、网络系统故障应急处理

设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;

1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行; 2.应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名; 3.对磁盘柜上的数据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。

4、网络中有监控服务器,运用Cacti v10最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log日志以做出相应的处理。

5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。

对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。

如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。

启用备份线路、设备、系统,迅速恢复相关的应用。

联通联系电话:

第七节 黑客入侵的应急处理

发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。

对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。

安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。

若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。

第八节 生产系统、数据库故障处理

生产系统出现故障,技术部做出应急处理

1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在2小时内查明原因,解决问题。

2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相关部门应积极配合,解决问题。

3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24小时内恢复运营。

本方案自发布之日起施行

第4篇:中心机房应急预案

一、系统故障应急流程

1.1 系统故障应急流程说明

一、故障发生

值班人员可从以下途径得知故障的发生: 1)值班人员通过报警系统告警发现故障 2)值班人员通过远程数据监测发现故障 3)值班人员通过维护巡检发现故障 4)系统用户发现故障,报给呼叫值班人员

二、报障受理

值班人员发现系统故障发生后,立即响应,根据级别进行应急处理,并向相关领导报告系统故障情况。

三、信息研判

值班人员根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。

四、预案启动

如需启动应急预案,则立刻通知相关领导小组,由相关领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。

五、资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:

本单位相关技术支持人员 授权第三方公司技术支持人员; 故障设备相关厂家技术支持人员; 聘请的技术专家

六、预案执行

按照既定的预案进行突发事件处理和故障抢修,如遇到问题及时向相关领导小组汇报。

七、预案终止

预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后相关领导小组决定。

八、结果上报

预案中止后,相关预案参与人员将整个事件过程中所有收发信息、领导批示、事故调查报告、现场录像、图片等材料及时整理归档,并总结事件处理过程中的经验和教训,修改、完善事件应急预案。然后集中上报至相关领导小组。

1.2 系统故障应急处理流程图

机房应急预案

3.1 机房漏水应急预案

(1)发生机房漏水时,第一目击者应立即检测漏水影响范围,并及时报告相关领导小组。

(2)若空调系统出现渗漏水,值班人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可其它方式(通风、冰块降温等)对服务器进行降温。

(3)若为墙体或窗户渗漏水,值班人员应立即采取有效措施确保机房安全,同时安排通知房屋产权方 ,及时清除积水,维修墙体或窗户,消除 渗漏水隐患。

3.2 设备发生被盗或人为损害事件应急预案

(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关领导小组,同时保护好现场。

(2)相关领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

(3)值班人员应当积极配合公安部门进行调查, 并将有关情况向相关领导小组汇报。 (4)相关领导小组安排相关技术人员及时恢复系统正常运行,并对事件进行调查。值班人员应在调查结束后三日内书面报告相关领导小组。

3.3 机房长时间停电应急预案

(1)接到长时间停电通知后,值班人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求相关保障人员在停电前及时就位,检查业务系统、保存数据。

(2)停电时间过长的,应准备充足燃油,并准备租用电力公司发电车协助,保证系统正常运转。 3.4 通信网络故障应急预案

(1)发生通信线路中断、路由故障、流量异常、业务系统故障后,操作员应及时通知本单位相关系统管理员,经初步判断后及时上报值班人员和相关领导小组。

(2) 值班人员接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时报告相关领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

(3) 事态或后果严重的,应及时向相关领导汇报。

(4)应急处置结束后,值班人员应将故障分析报告,在调查结束后三日内书面报告相关领导小组。

3.5 不良信息和网络病毒事件应急预案

(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告相关系统维护人员和相关领导小组。

(2)值班人员应根据相关领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。

(3)事态或后果严重的,应向总公司相关领导汇报。

(4)处置结束后 ,值班人员应将事发经过、造成影响、处置结果在调查工作结束后三日内书面报告相关领导小组。

3.6 服务器软件系统故障应急预案

(1)发生服务器软件系统故障后,值班人员应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告相关领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。

(2)值班人员应根据相关领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。 (3)事态或后果严重的,总公司相关领导汇报。

(4)处置结束后,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。

3.7 黑客攻击事件应急预案

(1)当发现网络被非法入侵、业务内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告相关领导小组。

(2)接报告后,相关领导小组应立即指令相关技术人员核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。

(3)值班人员应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向总公司相关领导汇报,并请求支援。

(4)处置结束后 ,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。

3.8 核心设备硬件故障应急预案

(1)发生核心设备硬件故障后,值班人员应及时报告相关领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。

(2)若故障设备在短时间内无法修复值班人员应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。

(3)值班人员故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。

(4)事态或后果严重的,应向总公司相关领导汇报。

3.9 业务数据损坏应急预案

(1) 发生业务数据损坏时,值班人员应及时报告相关领导小组,检查、备份业务系统当前数据。 (2)值班人员负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。

(3)业务数据损坏事件超过 X小时后,维护小组应及时报告相关领导,及时通知业务部门以其它方式开展业务。

(4)值班人员应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并写出故障分析报告,在调查工作结束后三日内报告相关领导。

3.10 雷击事故应急预案

(1) 遇雷暴天气或接上级部门雷暴气象预警,值班人员应及时报告相关领导,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。

(2) 雷暴天气结束后,值班人员报经相关领导小组同意,及时开通服务器,恢复停用的计算机网络工作,对设备和数据进行检查。

(3) 因雷击造成损失的,值班人员应会同相关部门进行核实、报损,并在调查工作结束后三日内书面报告相关领导小组。必要时,应向总公司相关领导汇报。

四、机房动力系统应急处理方案

在机房动力发生异常情况时,动力系统通常可自动切换由备用电池提供机房设备的动力,在发生重大事故或自然灾害而无法短时间内正常恢复机房动力的情况下,启动机房动力系统应急处理流程,采用应急油机发电,确保用户单位网点通信网络能够安全、高效和可靠地运行。具体流程见下图: 监控到机房动力异常告警 通知维护站赴现场,监视动力系统电压下降情况 停电时间超过备用电池的合适支撑时间? 否 是 通知相关部门协助排查动力系统故障 超过蓄电池允许放电电压,立即启动油机发电 动力恢复 关闭油机供电开关 关闭电源柜油机开关 关闭/拆除油机 市电供电/蓄电池充电正常 消障

当发生长时间停电的动力系统故障时,抢修人员在机房现场实时测试记录备用电池的放电情况,电池放电容量超过40%时,如果动力系统还没有恢复正常供电,就用油机发电为机房提供动力。

动力系统恢复后立即对电池进行均充。一天内发生多次停电,放电容量在50%以下,均充转浮充后,浮充时间不少于24小时。一次停电放电容量在50%~80%时,均充转浮充后,浮充时间不少于48小时。

第5篇:机房用电应急预案

1, 机房意外停电后,首先确定停电的范围以及受影响的设备范围。2,确认停电的范围为本楼或本校区,应立即打后勤管理处电话汇报。估算电力可能恢复的时间。并通知网络中心领导。3,如果确认停电的时间为1个小时内,可以在UPS正常供电的时间内,等到电力恢复,如果不能确认在2小时内恢复,立即汇报给机房电源维护负责人和中心机房各设备的负责人到达现场。做好各设备的电源停电准备,在UPS供电达1.5小时后,严格殷实操作手册停掉存储和各应用服务器的电源。最后停核心交换机和路由器,等待电力恢复。电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障。立即汇报给机房电源维护负责人。4,机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向主管领导汇报。马上联系相关厂家,如有可能请厂家立即到

2, 核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。 3, 组织架构: 4, 责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。

5, 机房电源系统说明: 6, 1.机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。

7, 2.机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。

8, 3.机房现有两台60KVA-UPS电源,均处于正常运行状态。

9, 4.机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。

10, 5.运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时(已经过UPS放电测试)。

11, 一.核心机房电源中断预案

12, 1.在接到停电通知的情况下: 13, 1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。

14, 2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。

15, 3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。

16, 2.在没有接到任何通知,突然发生停电的情况下:

17, 确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预案。

18, 1)值班网管工作流程:

19, ⑴值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。

20, 要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。 21, ⑵网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。然后进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温) 22, ⑶实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常情况,每15分钟通报一次电量情况。

23, 2)运维部应急工作流程:

24, ⑴运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。

25, ⑵现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。

26, 3)运营质量管理应急工作流程:

27, ⑴调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。

28, ⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。

29, ⑶实时关注故障工单流程进度登记,配合应急小组进行人员调度通告。 30, 4)工维部应急工作流程:

31, ⑴机房管理员第一时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。

32, ⑵工维应急小组组长接到时间后第一时间往停电现场赶,同时进行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报告知主管领导,对口集团维护中心上报信息。

33, ⑶工维应急小组成员接到停电时间后第一时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操作流程进行发电恢复市电。

34, ⑷网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。

35, 5)应急机房发电操作流程:

36, ⑴机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。 37, ⑵发电前考虑4方面系统设备用电功率情况,为保障发电机带动的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。

38, ⑶启动发电机,检测发电输出电流通断,待发电机运行稳定后。

39, 第一步启动空调制冷系统的市电输入开关,运维应急小组成员重新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作是否正常。

40, 第二步启动主UPS设备的市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。

41, 第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。

42, 第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。

43, ⑷发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已经是运行正常。

44, ⑸发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。

45, 6)停电过程中突发事项预防: 46, ⑴网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是否正常,在市电中断时UPS是否已经开始进行供电保护。

47, ⑵值班网管对机房中的所有设备进行全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。

48, ⑶停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。

49, ⑷发现机房环境温度大于26℃。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延长关键设备运行时间

50, 三.应急发电机的油品保障措施

51, 发电机正常启动后,需要做到油品及时供应,具体保障措施方案为: 52, 1.确认多家供应商进行油品供应,签署油品供应协议,确保油品的供应充足。

53, 2.油品的供应以应急小组成员通知后开始准备,协议要求是6小时内送货到场。 54, 3.只要进行发电一小时以上,则必须在停止发电后补充满油品,确保发电机随时都是满配油品保障中。

55, 4.油品的零购是属于公安部门的监管,所以分公司提前将资料向公安部门报备,在公司因为特殊原因有零购油品需求,在公安部门已经有分公司备案资料下,每次使用零购油品进行公安部门盖章申请。可以随时进行购买。

56, 四.恢复交流电后的处理措施

57, 1.打开电力室和网络机房空调市电开关,并将调节温度设定为20℃。首先恢复机房制冷系统的正常工作。

58, 2.等供电稳定后(一般在恢复市电10分钟后),闭合主/备UPS设备空气开关,恢复给主/备UPS交流供电。观察并确认UPS转换为交流稳压和浮充状态。

59, 3.闭合客服系统的主空气开关,恢复客服系统的交流供电,并观察设备工作运行情况。

60, 4.观察10分钟后,确保所有网络及设备、UPS设备组工作稳定后,将发电机停止发电,并将情况报告给调度及主管领导。

61, 5.应急小组将发电的物资进行收拾整理存放好,并进行记录发电机的工作时间及油/水/电路的切断。机房的降温设备的关闭确认及物资收拾整理存放好。 62, 6.将处理情况做详细书面记录,请相关人员签字确认并报集团公司信息化系统管理平台上填写相关记录。

63, 五.发电机的日常维护措施

64, 对于柴油发电机来说,由于它不是日常的主要供电设备,所以日常的维护保养主要包括以下几个方面:

65, 1.定期检查和更换柴油过滤器和机油过滤器

66, 2.定期清理检查进气过滤器,并在固定的周期进行更换(或者根据现场的工况和进气过滤器的透气程度进行更换) 67, 3.定期检查和清理电池组接线柱,保持接线柱清洁

68, 4.定期检查电池组的充电状态,保证良好的充电效果

69, 5.定期检查风扇皮带的状态,确保无损伤和处于正常的松紧度

70, 6.定期检查冷却液的状态,确保满足要求

71, 7.定期检查或者更换柴油机机油,确保油位正常

72, 8.冬天寒冷季节要确保机组预热装置正常工作,以便在需要启动发电机时能正常启动

1. 机房工作人员应具备用电常识,了解机房供电布局、开关位置、设备供电来源等,机房工作时间注意用电安全和自身安全。

2.机房工作人员不得私自更改设备供电线路,对自己所管设备进行断电操作时不能影响其他设备供电,新增设备需要供电应由机房电力管理员统一调配。

3. 机房禁止使用高温、炽热、产生火花的大功率或危险设备,确需使用电焊、电钻等,须在电力管理员指导下用电。

4. 工作时发现用电安全隐患如漏电、火花、设备异常发烧等现象,应立即报告机房电力管理员,并协助进行处理。

5、机房停电需要启用内部发电系统时,设备管理人须在场及时检查自管设备是否正常供电。

6、机房电力管理员应定期对机房供电设备、线路、电源、开关等相关设备进行安全检查,及时排除用电安全隐患。

1. 综述 为尽量避免机房内电力意外事故,以保障人身安全、防止设备损坏及影响供电系统等为目的。规范数据中心机房设备加电、日常操作的用电安全防护措施,制定本文档。

2. 范围 本文档适用于北京移动数据中心所有机房(菜市口、望京、昌平、丰台、大白楼)。

3. 用电安全措施 机房日常用电安全的最高准则为确保人员安全。 3.1 设备用电安全措施 3.1.1设备上架加电要求

•• 所有进入机房,需使用机房电源的设备应为正规品牌且具有3C标志(即中国强制性产品认证)中CCC+5安全认证标志或CCC+S&B安全与电磁兼容认证标志任意一个。任何自行组装(DIY)设备不得上架加电。 • 设备上架加电前应在机房外,使用非机房(生产用电)电源进行加电、开机测试,测试该设备电源组件为正常运行方可上架加电。 • 不能在机房外加电测试的直流电设备,进入机房后首次加电需机房负责人,电力维护人员,中通维护人员,运维人员及客户同时在场。 • 不能在机房加电测试的其他交流电设备,进入机房后首次加电需机房负责人中通维护人员,运维人员及客户同时 在场。 • 设备上架后,加电前,由中通维护人员对机柜电源进行通路、电压测试,测试结果正常后由客户自行闭合对应的空开。 ●以上任意一点不能达到标准,必须由机房负责人书面(包含邮件)批准。

3.1.2 设备日常操作安全措施

• 机房内应设置维护和测试用电源插座(地插、强插等),供日常维护过程中接插相关维护设备,仪器仪表等。严禁随意使用机柜内电源接插。 • 需要关闭电源时,不要设想电源已关闭,必须仔细检查,确认。 • 为避免静电对设备的电子器件造成损坏,对设备进行操作时应穿着防静电服或戴防静电手套或佩戴防静电手镯。 • 拿电路板时,应拿电路板边缘,不要接触元器件和印制电路。 • 保持机柜内清洁、无尘。 • 防静电手镯的使用方法如下:

1、 将手伸进防静电手镯,戴至手腕处。

2、 拉紧锁扣,确认防静电手镯与皮肤有良好的接触。

3、 将防静电手镯,插入设备的防静电手镯插孔内,或者是用鳄鱼夹夹在机柜的接地处。

4、 确认防静电手镯良好接地。 3.2. 日常维护人员安全措施:

• 非电工作业人员、不具有电气电力专业资质人员严禁进行任何电工作业。电工作业包括但不限于以下内容:对机房配供电设施、装置进行安装、维护、检查、检修等操作。 • 配供电设施、装置的绝缘或外壳损坏,可能导致人体接触及带电部分时,应立即停止使用,并及时修复或更换。 • 移动用电设备、打开用电设备外壳时必须拔掉所有电源线和外部电缆。 • 确认操作区域内地面无积水、潮湿等。 • 为避免出现意外,尽量不要一个人进行带电维护。维护前应确认设备的电源开关,如发生意外,第一时间切断对应的电源开关。

1.机房工作人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程,注意节约用电。

2.机房工作人员应经常实习、掌握机房用电应急处理步骤、措施和要领;在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

3.机房管理人员必须定期安排有专业资质的人员检查供电、用电设备、设施;如发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。

4.机房不得乱拉乱接电线,应选用安全、有保证的供电、用电器材;严禁随意对设备断电、更改设备供电线路,严禁随意串接、并接、搭接各种供电线路。

5.机房工作人员对个人用电安全负责。外来人员需要用电的,必须得到机房管理人员允许,并使用安全和对机房设备影响最少的供电方式。

6.机房工作人员需要离开当前用电工作环境时,应检查并保证工作环境的用电安全。

7.最后离开机房的工作人员,应检查所有用电设备,应关闭长时间带电运作可能会产生严重后果的用电设备。

8.禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

9.在使用功率超过额定瓦数的用电设备前,必须得到上级主管批准,并在保证线路安全的基础上使用。

10.在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。

第6篇:机房应急预案手册

一、机房事故处理通则

凡系统发生故障时,网管运行监控负责人必须立即组织抢修,不得拖延。

运行监控人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。

运行监控管理人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

重大故障和严重故障要报上级业务主管领导。对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。

故障处理基本原则:先重点后一般;先调通后维修。

1、故障等级

网管系统的故障等级共分三类:

1.1 重大故障

在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成所有网管业务中断超过24小时。

1.2 严重故障

在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成下列情况之一的系统故障:

(1)所有网管业务中断超过12小时但不超过24小时;

(2)网管个别业务中断超过24小时;

1.3 一般故障

除重大故障和严重故障外的其他故障。

2、故障通报与通报制度

网管中心应建立相关设备故障处理联系制度,并将联系人和联系方法张贴在醒目位置。

网管中心应建立设备操作手册和故障处理流程,并存放在固定地点。

网管中心应建立设备运行情况统计和登记表,并存放在固定地点。

2.1 故障处理:

2.

11、在系统发生故障时,值班人员应对照运行维护手册进行简单的故障处理和准确定位,对无法处理的故障应立即通知系统维护主管工程师,并逐级上报。系统维护主管工程师组织相关人员现场处理,故障处理完毕后,马上通知故障发起点,并进行详细记录。当系统发生故障时,网管中心运行维护负责人必须立即组织抢修,不得拖延。

2.

12、在处理故障时,应严格按照故障处理流程进行,整个流程强调闭环管理,按先重点后一般;先调通后维修的原则进行。

2.

13、在系统和设备故障处理的过程中,若出现较为严重或一时无法解决的问题,及时通知故障发起点,并立即向主管领导汇报,同时与厂家联系,及时争取技术支持,填写故障报告。

2.

14、在系统设备故障处理过程中,若使用了备件单元或备用电路板,应按规定分别详细登记故障发生的工作单元、故障现象或故障代码、换用备件名称、编号,有条件时应附上当时的打印记录,向主管报告,并及时与备件管理人员取得联系,按正确的手续发送返修。

2.

15、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络进行监控。

2.

16、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络相关数据进行保存和统计。

2.

17、网管中心在相关故障排除后48小时内提交故障分析报告。报告将视故障级别上报所在公司运行维护部和上级网管中心。

运行维护人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。 2.2 故障通报:

当出现值班人员不能解决的故障时,值班人员应立即上报系统维护主管工程师和部门主管 。

故障处理完毕一天内,系统主管工程师写出故障报告,上报部门主管,重大故障和严重故障要报上级业务主管部门。

当发生故障时,机房当班人员应将故障发生经过详细填写进《值班日志》。

如果网管系统出现严重故障,在故障发生后应在第一时间向上一级网管中心通报相关情况。

出现故障后,由网管中心指定专人向相关部门通报故障影响范围和处理情况等。

运行维护负责人应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。

二、机房应急动力预案

1、机房停电故障 1.1 准备工作

1.11停电后第一时间电话咨询供电公司(电话号码)询问停电原因及停电时长。

1.12电话通知相关领导停电状况,如果在值班过程中停电需同事共同处理的也及时通知,在停电期间要保持通信畅通有问题及时联系。(领导电话)

1.13准备扳手、六棱起、数字万用表、“+”字“—”字螺丝刀各两把(大 、小)等常用电工工具,准备好高压绝缘手套、绝缘鞋、专用扳手。

1.14以上3点工作尽量在最短时间内结束,然后针对故障原因作出相应处理。

1.2停电情况下处理方式

从供电公司确定完停电原因及停电时长后,确定停电时长是否在UPS负荷工作时间范围内:如果在UPS负荷工作范围内,密切观察UPS工作状态,所有设备正常工作;如果超出UPS工作范围内,向领导申请,存储信息,关闭机房设备,防止机房断电丢失数据。

1.3 市电恢复后的操作

1. 所有设备恢复市电供电,检查设备的供电运行情况。

2、UPS故障处理

通州工商局机房UPS系统为2台OVERTOP RT30KH UPS 的并机系统.如30KVA UPS系统中一台UPS故障,系统自动将负载倒到另一台UPS上,如何关闭故障的UPS,如何再次开启UPS,如下:

关机

1、先将旁路转换开关打到“ON”的位置:

2、将UPS输出开关打到“OFF”位置

3、关掉UPS的开关,这时UPS停止运行;

4、关掉UPS输入开关,系统关机完毕。

开机

1、首先确认UPS的开关都打到“OFF”位置,配电柜的UPS输出开关也在“OFF”位置。

2、先把旁路转换开关打到“ON”的位置

3、分别将UPS的开关合闸;

4、当UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,UPS转到正常工作模式,启动完成。

5、最后合上UPS输出开关,系统供电正常。

当关掉其中一台UPS在启动办法

1、先把旁路转换开关打到“ON”的位置

2、再把已关掉的UPS的开关分别打到“ON”的位置;

3、当两台UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,两台UPS转到正常工作模式,启动完成

3、机房空调及局部过热故障的紧急处理方案

发生机房空调故障,会使机房的温度升高,危害设备正常运行。所以发生此类故障后,要积极维修,如果一时无法修复,必须采取应急措施,保障机房环境符合要求。

现在的机房空调一台艾赛尔精密空调,一台大金空调。

1、首先判断机房空调什么故障,如果压缩机故障,送风机工作正常,此时尽量将机房防静电地板掀开.增将出风口.

如果是空调的送风机故障,不能正常送风,

把邻近空调的送风口的格栅尽量调整,到故障空调前面的区域,这样才能的保障机房温度不至于上升。或者尽量将机房防静电地板掀开,增将出风口,或者拿普通的电风扇在故障空调的影响区域吹风,打开机柜门,冰块局部降温等措施防止局部升温过快。

2、机房局部设备温度上升过快或过热的处理步骤 首先将此设备的机柜门打开,让热空气充分散出,

也可以用电风扇对此设备吹风,加快散热速度,

购买冰块,放在大盆里,置于局部过热部位,利用冰块融化吸收热量,

或者同时放置冰块并用电风扇吹。

三、机房防火预案

一、当发生火灾事故时,抢险工作应遵循如下原则:

1坚持“统一领导、分级负责、严密组织、密切配合、快速反应、保障有力”的原则。

2坚持快速恢复生产、减少经济损失的原则。

3坚持原则性与灵活性相结合的原则,注意讲究策略和方法。

二、消防安全管理基本原则:

1坚持“预防为主,防消结合”的原则。 2坚持“谁主管、谁负责”的“两谁”原则。

上一篇:集输工高级工部分下一篇:医院院长离任述职报告