outlier
Download
Skip this Video
Download Presentation
異常點 (Outlier / 偏離值 / 離群值 )

Loading in 2 Seconds...

play fullscreen
1 / 19

異常點 (Outlier / 偏離值 / 離群值 ) - PowerPoint PPT Presentation


  • 204 Views
  • Uploaded on

異常點 (Outlier / 偏離值 / 離群值 ). 關志威博士 香港大學 統計及精算學系. 甚麼是異常點 ?. 運輸及房屋局於 2009/3/26 公布,可加可減方程式運算結果  3.03\% ,超過  2\% , 可望巴士公司平均減價毫半子。 統計處 2009/4/15 公布,該處在運算 2008 年 9 月及 12 月 的「運輸服務業」工資指數時出錯,巴士票價可加可減調整方程式運算結果應修訂為  1.26\% 。未達致啟動檢討巴士票價機制的  2\% 水平,即巴士未能減價。. 可加可減方程式. 票價調整幅度的方程式

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '異常點 (Outlier / 偏離值 / 離群值 )' - jules


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
outlier

異常點(Outlier / 偏離值 / 離群值)

關志威博士

香港大學

統計及精算學系

slide2
甚麼是異常點?

運輸及房屋局於2009/3/26公布,可加可減方程式運算結果 3.03%,超過 2%,可望巴士公司平均減價毫半子。

統計處2009/4/15公布,該處在運算2008年9月及12月的「運輸服務業」工資指數時出錯,巴士票價可加可減調整方程式運算結果應修訂為 1.26%。未達致啟動檢討巴士票價機制的 2%水平,即巴士未能減價。

slide3
可加可減方程式
  • 票價調整幅度的方程式
    • 0.5  綜合消費物價指數變動 + 0.5 工資指數變動-0.5 生產力增幅
  • 統計處早前公布的2008/12「運輸服務業」名義工資指數為145.1,而正確數字實為150.5。根據更正的數據,2008年第二季至第四季的工資指數變動應為 1.311%,而不是 4.852%。
  • 修正前
    • 0.5  (-0.817%) + 0.5  (-4.852%) – 0.3%  8 / 12 = -3.03%
  • 修正後
    • 0.5  (-0.817%) + 0.5  (-1.311%) – 0.3%  8 / 12 = -1.26%
slide6
異常點是變數的觀察值明確與其他值有所不同
    • 不能因此判決異常點好壞
  • 輸入或編碼錯誤
  • 異常事件發生
  • 模型假設錯誤
slide7
異常點的影響
  • 減價!不減價!可加不可減!名譽掃地!匪夷所思!名存實亡!形同虛設!
  • 平均值(mean)
    • 工資指數變動
    • 修正前:0.377
    • 修正後:0.673

修正後

修正前

slide10
Mean ± 3SD
    • Mean = 0.377, SD = 1.95
    • Mean + 3SD = 6.23, Mean  3SD =  5.48
slide11
Mean(i)±3SD(i)
    • Mean(12)=0.853, SD(12)=1.10
    • Mean(12) + 3SD(12) =4.14, Mean(12)  3SD(12) =  2.44
  • Median±3MAD
    • 中位數絕對離差 (Median absolute deviation)
slide16
如何處理異常點?
  • 不具代表性,刪除。
  • 具代表性,保留。
  • 穩健方法(robust method)
    • 中位數 (Median)
slide17
去頭尾平均數(Trimmed mean)
    • k = [na] is the smallest integer ≥ na
    • 5% trimmed mean
    • 12  5% = 0.6
    • 1個最大,1個最小值去掉
slide18
溫塞平均數(Winsorized mean)
  • 最小中位數平方(Least median of squares)
  • 最小消去平方(Least trimmed squares)
further readings
Further readings

Cook, R.D. and Weisberg, S. (1982). Residuals and Influence in Regression. Chapman and Hall.

Rousseeuw, P.J. and Leroy, A.M. (2003). Robust Regression and Outlier Detection. Wiley.

ad