2013 年 8 月 31 PCRF 設備障礙報告

2013年8月31PCRF設備障礙報告 報告日期: 102年8月31日

PCRF 障礙報告 • 服務影響時間 : 8/31(六)03:17~07:05AM (共計約3小時48分) • 服務影響範圍 :已上線用戶無影響，但新上線用戶被影響 • 障礙描述 : 8/3103:17AM 起 PCRF02及 PCRF01 陸續出現Server busy 以及 Diameter PeerNo Connections 的情形，導致新上線的用戶因無法順利取得IP，以致無法使用數據服務。 • 障礙原因: 原因不明，須廠商進一步定位(8/31凌晨北區無執行相關數據設備之CR或維護等作業) • 處理過程說明 • 03:58陸續接獲NOC通知數據服務障礙，PCRF有異常log產生。 • 04:15~06:10AM 檢查系統日誌確認為PCRF01 及 PCRF02異常所致 (eg, Server busy) • 6:10~6/15 AM 分別以手動方式對PCRF02 及 PCRF01 server 進行 process restart，但問題仍然存在，判斷可能是 buffermessage 沒有清除。 • 6:15~06:55AM 反饋相關問題給原廠Amdocs TAC，並請原廠協助執行buffer message clear 指令，皆未接獲任何回覆. • 為免影響面擴大，06:55~07:15AM 啟動緊急應變措施，07:05左右服務恢復正常 ! • 07:15~12:30PM 廠商、維運及網規持續on site 觀察系統穩定性

PCRF 障礙報告 • 緊急應變措施: • 步驟一) reboot PCRF servers : • 6:56~07:04手動reboot PCRF02 server，重起完成後確認用戶已可上線且服務恢復正常 • 7:05~07:15 手動reboot PCRF01 server ，且系統恢復正常運作 • 持續on site 觀察PCRF設備運作效能一段時間 • 步驟二) Bypass PCRF: 因步驟一 reboot PRCF server 後服務立即恢復正常，故未啟動本項應變步驟. • 檢討及改善措施說明: • 已報請原廠收集相關log進行分析及提供 root cause report • 持續觀察系統穩定性，是否再發生相同障礙 • Amdocs原廠遠端support效率有待提升 • 請網規及維運共同制定PCRF障礙緊急狀況處理及應變方式(如: restart AP, reboot server, bypass PCRF…等)，以縮短服務影響時間。

相關 MRTG 流量圖表 • 8/31 05:00~07:00整體流量較前一日(或前一週)略降約350Mbps • PCRF01 & PCRF02 流量如右圖，影響新連線用戶無法正常取得IP，於重啟PCRF server後陸續恢復正常整體流量圖 PCRF01 端口流量圖 PCRF02 端口流量圖 PCRF02

PCC網路架構示意圖 • 本次異常元件為PCRF server，且兩台server 皆同時出現異常現象，造成服務影響 • 8/31 06:55~07:15 PCRF02 & PCRF01 完成重啟後，系統及數據服務立即恢復正常 • PCRF 完成恢復Active-Active架構 PCRF PCRF

2013 年 8 月 31 PCRF 設備障礙報告