2012年2月6日,澳門電訊有限公司(簡稱:澳門電訊)發生嚴重的網絡中斷事故,此事故嚴重影響了澳門當天由下午4時20分到晚上10時20分的通訊能力。根據各營運商提供的數據統計,在3G流動服務方面,各營運商受其影響的網點(3G sites)分別達63% 至96%。另外在高速連接服務方面,分別有17.5%專線服務接入點和17.7% IP數字用戶線路接入複用器(Digital Subscriber Line Access Multiplexers - DSLAMs)也受到影響。由於事故期間澳門電訊將其3G用戶強制轉入2G網絡,大量的用戶湧入也導致其2G網絡的平均阻塞率在中斷事故期間超過了30%(相對應的平均接通率低於70%)。事故期間澳門電訊共收到 6,835宗關於網絡中斷的查詢和投訴,其中6,241宗是關於流動服務。 澳門電訊在2月6日下午4時10分收到其IP核心傳輸網絡發出的系統警報而發現網絡異常及中斷。該公司IP核心傳輸網絡小組和網絡服務小組立即登錄到網絡監控系統追查警報來源。澳門電訊於4時30分確認5個IP核心傳輸網絡節點發生異常,其工作人員聯絡了系統供應商請求緊急支援。直到6時20分,儘管採用了許多辦法,包括拔除最近連接的網線,重置和更換IP網絡節點的控制卡,澳門電訊工作人員還是未能控制受影響的IP網絡節點。從6時20分起,澳門電訊開始逐一重新啓動受到影響之5個節點,並最終得以接入它們的網絡管理系統。澳門電訊從8時17分開始通過網絡管理系統移除最近安裝的提供IP電話服務的虛擬專用局域網絡服務(Virtual Private LAN Service - VPLS)。直到9時30分受影響之網絡節點開始回復正常。所有3G語音和數據服務於10時20分開始恢復正常運作。 調查小組通過現場查視及與澳門電訊相關工作人員的8次面談並研究澳門電訊及其系統供應商的事故報告,對此事故進行了深入的調查和分析,最終確定這次網絡中斷事故是由澳門電訊IP核心傳輸網絡出現了所謂的"數據風暴"所導致。造成IP核心傳輸網絡異常的直接原因是一個早前安裝的VPLS業務。這個服務在IP核心傳輸網絡內觸發了通訊流量的環路。一般情況下為了讓VPLS正常工作,通訊流量的環路是必須避免的。通常採用水平分割(Split Horizon)技術來避免VPLS中的通訊流量的環路及其可能帶來的"數據風暴"。但是這次澳門電訊在對VPLS配置過程中犯了兩個嚴重錯誤。其一是數據輸入錯誤,一些水平分割機制中的重要參數未有輸入。其二是操作流程錯誤,澳門電訊在此次的VPLS服務配置中沒有遵循標準配置流程,其工作人員在完成整體服務設置後才將用戶連線接到IP核心節點,從而導致配置中的錯誤未能被及時發現。 調查小組同時發現澳門電訊存在3個相關缺陷。首先是對於VPLS和其IP核心傳輸網絡的專業培訓及技術人員數量不足;同時缺乏對相關技術的深入認知。其次是對於在IP核心傳輸網絡上建立VPLS服務的配置及綫路連接的相關驗證機制和風險意識不完善,最終導致含有錯誤配置的VPLS業務未經嚴謹的驗證便被發佈到IP核心傳輸網絡中。最後,事故過程中對系統供應商的緊急交通安排不足,未能以縮短事故時間為優先,沒有提供快速的交通安排,例如直升機、碼頭專車接送等。