跳过导航

2012年2月6日澳门电讯有限公司网络故障调查报告摘要


2012年2月6日,澳门电讯有限公司(简称:澳门电讯)发生严重的网络中断事故,此事故严重影响了澳门当天由下午4时20分到晚上10时20分的通讯能力。根据各营运商提供的数据统计,在3G流动服务方面,各营运商受其影响的网点(3G sites)分别达63% 至96%。另外在高速连接服务方面,分别有17.5%专线服务接入点和17.7% IP数字用户线路接入复用器(Digital Subscriber Line Access Multiplexers - DSLAMs)也受到影响。由於事故期间澳门电讯将其3G用户强制转入2G网络,大量的用户涌入也导致其2G网络的平均阻塞率在中断事故期间超过了30%(相对应的平均接通率低於70%)。事故期间澳门电讯共收到 6,835宗关於网络中断的查询和投诉,其中6,241宗是关於流动服务。 澳门电讯在2月6日下午4时10分收到其IP核心传输网络发出的系统警报而发现网络异常及中断。该公司IP核心传输网络小组和网络服务小组立即登录到网络监控系统追查警报来源。澳门电讯於4时30分确认5个IP核心传输网络节点发生异常,其工作人员联络了系统供应商请求紧急支援。直到6时20分,尽管采用了许多办法,包括拔除最近连接的网线,重置和更换IP网络节点的控制卡,澳门电讯工作人员还是未能控制受影响的IP网络节点。从6时20分起,澳门电讯开始逐一重新啓动受到影响之5个节点,并最终得以接入它们的网络管理系统。澳门电讯从8时17分开始通过网络管理系统移除最近安装的提供IP电话服务的虚拟专用局域网络服务(Virtual Private LAN Service - VPLS)。直到9时30分受影响之网络节点开始回复正常。所有3G语音和数据服务於10时20分开始恢复正常运作。 调查小组通过现场查视及与澳门电讯相关工作人员的8次面谈并研究澳门电讯及其系统供应商的事故报告,对此事故进行了深入的调查和分析,最终确定这次网络中断事故是由澳门电讯IP核心传输网络出现了所谓的"数据风暴"所导致。造成IP核心传输网络异常的直接原因是一个早前安装的VPLS业务。这个服务在IP核心传输网络内触发了通讯流量的环路。一般情况下为了让VPLS正常工作,通讯流量的环路是必须避免的。通常采用水平分割(Split Horizon)技术来避免VPLS中的通讯流量的环路及其可能带来的"数据风暴"。但是这次澳门电讯在对VPLS配置过程中犯了两个严重错误。其一是数据输入错误,一些水平分割机制中的重要参数未有输入。其二是操作流程错误,澳门电讯在此次的VPLS服务配置中没有遵循标准配置流程,其工作人员在完成整体服务设置后才将用户连线接到IP核心节点,从而导致配置中的错误未能被及时发现。 调查小组同时发现澳门电讯存在3个相关缺陷。首先是对於VPLS和其IP核心传输网络的专业培训及技术人员数量不足;同时缺乏对相关技术的深入认知。其次是对於在IP核心传输网络上建立VPLS服务的配置及线路连接的相关验证机制和风险意识不完善,最终导致含有错误配置的VPLS业务未经严谨的验证便被发布到IP核心传输网络中。最后,事故过程中对系统供应商的紧急交通安排不足,未能以缩短事故时间为优先,没有提供快速的交通安排,例如直升机、码头专车接送等。



此页面有问题吗?

帮助我们改进GOV.MO

* 必填项

提交