Outlier
This presentation is the property of its rightful owner.
Sponsored Links
1 / 19

異常點 (Outlier / 偏離值 / 離群值 ) PowerPoint PPT Presentation


  • 139 Views
  • Uploaded on
  • Presentation posted in: General

異常點 (Outlier / 偏離值 / 離群值 ). 關志威博士 香港大學 統計及精算學系. 甚麼是異常點 ?. 運輸及房屋局於 2009/3/26 公布,可加可減方程式運算結果  3.03% ,超過  2% , 可望巴士公司平均減價毫半子。 統計處 2009/4/15 公布,該處在運算 2008 年 9 月及 12 月 的「運輸服務業」工資指數時出錯,巴士票價可加可減調整方程式運算結果應修訂為  1.26% 。未達致啟動檢討巴士票價機制的  2% 水平,即巴士未能減價。. 可加可減方程式. 票價調整幅度的方程式

Download Presentation

異常點 (Outlier / 偏離值 / 離群值 )

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Outlier

異常點(Outlier / 偏離值 / 離群值)

關志威博士

香港大學

統計及精算學系


Outlier

甚麼是異常點?

運輸及房屋局於2009/3/26公布,可加可減方程式運算結果 3.03%,超過 2%,可望巴士公司平均減價毫半子。

統計處2009/4/15公布,該處在運算2008年9月及12月的「運輸服務業」工資指數時出錯,巴士票價可加可減調整方程式運算結果應修訂為 1.26%。未達致啟動檢討巴士票價機制的 2%水平,即巴士未能減價。


Outlier

可加可減方程式

  • 票價調整幅度的方程式

    • 0.5  綜合消費物價指數變動 + 0.5 工資指數變動-0.5 生產力增幅

  • 統計處早前公布的2008/12「運輸服務業」名義工資指數為145.1,而正確數字實為150.5。根據更正的數據,2008年第二季至第四季的工資指數變動應為 1.311%,而不是 4.852%。

  • 修正前

    • 0.5  (-0.817%) + 0.5  (-4.852%) – 0.3%  8 / 12 = -3.03%

  • 修正後

    • 0.5  (-0.817%) + 0.5  (-1.311%) – 0.3%  8 / 12 = -1.26%


Outlier

修正前


Outlier

  • 異常點是變數的觀察值明確與其他值有所不同

    • 不能因此判決異常點好壞

  • 輸入或編碼錯誤

  • 異常事件發生

  • 模型假設錯誤


Outlier

異常點的影響

  • 減價!不減價!可加不可減!名譽掃地!匪夷所思!名存實亡!形同虛設!

  • 平均值(mean)

    • 工資指數變動

    • 修正前:0.377

    • 修正後:0.673

修正後

修正前


Outlier

如何檢測異常點?

Boxplot


Outlier

  • Mean ± 3SD

    • Mean = 0.377, SD = 1.95

    • Mean + 3SD = 6.23, Mean  3SD =  5.48


Outlier

  • Mean(i)±3SD(i)

    • Mean(12)=0.853, SD(12)=1.10

    • Mean(12) + 3SD(12) =4.14, Mean(12)  3SD(12) =  2.44

  • Median±3MAD

    • 中位數絕對離差 (Median absolute deviation)


Outlier

個案刪除法 (Case-deletion)


Outlier

殘差圖(Residual plot)


Outlier

  • 槓桿值(Leavage)

  • t*

    • where


Outlier

  • 臨界值(Cut-off)


Outlier

如何處理異常點?

  • 不具代表性,刪除。

  • 具代表性,保留。

  • 穩健方法(robust method)

    • 中位數 (Median)


Outlier

  • 去頭尾平均數(Trimmed mean)

    • k = [na] is the smallest integer ≥ na

    • 5% trimmed mean

    • 12  5% = 0.6

    • 1個最大,1個最小值去掉


Outlier

  • 溫塞平均數(Winsorized mean)

  • 最小中位數平方(Least median of squares)

  • 最小消去平方(Least trimmed squares)


Further readings

Further readings

Cook, R.D. and Weisberg, S. (1982). Residuals and Influence in Regression. Chapman and Hall.

Rousseeuw, P.J. and Leroy, A.M. (2003). Robust Regression and Outlier Detection. Wiley.


  • Login