1 / 5

2013 年 8 月 31 PCRF 設備障礙 報告

2013 年 8 月 31 PCRF 設備障礙 報告. 報告日期 : 102 年 8 月 31 日. PCRF 障礙報告. 服務影響時間 : 8/31( 六 ) 03:17 ~ 07:05AM ( 共計約 3 小時 48 分 ) 服務影響範圍 : 已上線用戶無影響, 但新上線用戶被影響 障礙 描述 : 8/31 03:17AM 起 PCRF02 及 PCRF01 陸續出現 Server busy 以及 Diameter Peer No Connections 的情形,導致新上線的用戶因無法順利取得 IP ,以致無法使用數據服務。 障礙原因 :

carney
Download Presentation

2013 年 8 月 31 PCRF 設備障礙 報告

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2013年8月31PCRF設備障礙報告 報告日期: 102年8月31日

  2. PCRF 障礙報告 • 服務影響時間 : 8/31(六)03:17~07:05AM (共計約3小時48分) • 服務影響範圍 :已上線用戶無影響,但新上線用戶被影響 • 障礙描述 : 8/3103:17AM 起 PCRF02及 PCRF01 陸續出現Server busy 以及 Diameter PeerNo Connections 的情形,導致新上線的用戶因無法順利取得IP,以致無法使用數據服務。 • 障礙原因: 原因不明,須廠商進一步定位(8/31凌晨北區無執行相關數據設備之CR或維護等作業) • 處理過程說明 • 03:58陸續接獲NOC通知數據服務障礙,PCRF有異常log產生。 • 04:15~06:10AM 檢查系統日誌確認為PCRF01 及 PCRF02異常所致 (eg, Server busy) • 6:10~6/15 AM 分別以手動方式對PCRF02 及 PCRF01 server 進行 process restart,但問題仍然存在,判斷可能是 buffermessage 沒有清除。 • 6:15~06:55AM 反饋相關問題給原廠Amdocs TAC,並請原廠協助執行buffer message clear 指令,皆未接獲任何回覆. • 為免影響面擴大,06:55~07:15AM 啟動緊急應變措施,07:05左右服務恢復正常 ! • 07:15~12:30PM 廠商、維運及網規持續on site 觀察系統穩定性

  3. PCRF 障礙報告 • 緊急應變措施: • 步驟一) reboot PCRF servers : • 6:56~07:04手動reboot PCRF02 server,重起完成後確認用戶已可上線且服務恢復正常 • 7:05~07:15 手動reboot PCRF01 server ,且系統恢復正常運作 • 持續on site 觀察PCRF設備運作效能一段時間 • 步驟二) Bypass PCRF: 因步驟一 reboot PRCF server 後服務立即恢復正常,故未啟動本項應變步驟. • 檢討及改善措施說明: • 已報請原廠收集相關log進行分析及提供 root cause report • 持續觀察系統穩定性 ,是否再發生相同障礙 • Amdocs原廠遠端support效率有待提升 • 請網規及維運共同制定PCRF障礙緊急狀況處理及應變方式(如: restart AP, reboot server, bypass PCRF…等),以縮短服務影響時間。

  4. 相關 MRTG 流量圖表 • 8/31 05:00~07:00整體流量較前一日(或前一週)略降約350Mbps • PCRF01 & PCRF02 流量如右圖,影響新連線用戶無法正常取得IP,於重啟PCRF server後陸續恢復正常 整體流量圖 PCRF01 端口流量圖 PCRF02 端口流量圖 PCRF02

  5. PCC網路架構示意圖 • 本次異常元件為PCRF server,且兩台server 皆同時出現異常現象,造成服務影響 • 8/31 06:55~07:15 PCRF02 & PCRF01 完成重啟後,系統及數據服務立即恢復正常 • PCRF 完成恢復Active-Active架構 PCRF PCRF

More Related