50 likes | 239 Views
2013 年 8 月 31 PCRF 設備障礙 報告. 報告日期 : 102 年 8 月 31 日. PCRF 障礙報告. 服務影響時間 : 8/31( 六 ) 03:17 ~ 07:05AM ( 共計約 3 小時 48 分 ) 服務影響範圍 : 已上線用戶無影響, 但新上線用戶被影響 障礙 描述 : 8/31 03:17AM 起 PCRF02 及 PCRF01 陸續出現 Server busy 以及 Diameter Peer No Connections 的情形,導致新上線的用戶因無法順利取得 IP ,以致無法使用數據服務。 障礙原因 :
E N D
2013年8月31PCRF設備障礙報告 報告日期: 102年8月31日
PCRF 障礙報告 • 服務影響時間 : 8/31(六)03:17~07:05AM (共計約3小時48分) • 服務影響範圍 :已上線用戶無影響,但新上線用戶被影響 • 障礙描述 : 8/3103:17AM 起 PCRF02及 PCRF01 陸續出現Server busy 以及 Diameter PeerNo Connections 的情形,導致新上線的用戶因無法順利取得IP,以致無法使用數據服務。 • 障礙原因: 原因不明,須廠商進一步定位(8/31凌晨北區無執行相關數據設備之CR或維護等作業) • 處理過程說明 • 03:58陸續接獲NOC通知數據服務障礙,PCRF有異常log產生。 • 04:15~06:10AM 檢查系統日誌確認為PCRF01 及 PCRF02異常所致 (eg, Server busy) • 6:10~6/15 AM 分別以手動方式對PCRF02 及 PCRF01 server 進行 process restart,但問題仍然存在,判斷可能是 buffermessage 沒有清除。 • 6:15~06:55AM 反饋相關問題給原廠Amdocs TAC,並請原廠協助執行buffer message clear 指令,皆未接獲任何回覆. • 為免影響面擴大,06:55~07:15AM 啟動緊急應變措施,07:05左右服務恢復正常 ! • 07:15~12:30PM 廠商、維運及網規持續on site 觀察系統穩定性
PCRF 障礙報告 • 緊急應變措施: • 步驟一) reboot PCRF servers : • 6:56~07:04手動reboot PCRF02 server,重起完成後確認用戶已可上線且服務恢復正常 • 7:05~07:15 手動reboot PCRF01 server ,且系統恢復正常運作 • 持續on site 觀察PCRF設備運作效能一段時間 • 步驟二) Bypass PCRF: 因步驟一 reboot PRCF server 後服務立即恢復正常,故未啟動本項應變步驟. • 檢討及改善措施說明: • 已報請原廠收集相關log進行分析及提供 root cause report • 持續觀察系統穩定性 ,是否再發生相同障礙 • Amdocs原廠遠端support效率有待提升 • 請網規及維運共同制定PCRF障礙緊急狀況處理及應變方式(如: restart AP, reboot server, bypass PCRF…等),以縮短服務影響時間。
相關 MRTG 流量圖表 • 8/31 05:00~07:00整體流量較前一日(或前一週)略降約350Mbps • PCRF01 & PCRF02 流量如右圖,影響新連線用戶無法正常取得IP,於重啟PCRF server後陸續恢復正常 整體流量圖 PCRF01 端口流量圖 PCRF02 端口流量圖 PCRF02
PCC網路架構示意圖 • 本次異常元件為PCRF server,且兩台server 皆同時出現異常現象,造成服務影響 • 8/31 06:55~07:15 PCRF02 & PCRF01 完成重啟後,系統及數據服務立即恢復正常 • PCRF 完成恢復Active-Active架構 PCRF PCRF