slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Logistic Regression PowerPoint Presentation
Download Presentation
Logistic Regression

Loading in 2 Seconds...

play fullscreen
1 / 23

Logistic Regression - PowerPoint PPT Presentation


  • 174 Views
  • Uploaded on

Logistic Regression. 教學研究部 生統小組 張秀英 97.10.17. 在統計學上,許多學者認為 Logistic Regression 的優點,主要是能處理依變項有兩個類別的名目變項,用以預測事件發生的勝算比 (Odds Ratio) ,它可以解決傳統線性迴歸模式中,不能處理依變項是兩個類別的名目變項的缺點 . Linear Regression vs Logistic Regression. Logistic 模型估計的假設條件 -1. 資料必須來自於隨機樣本 . 二 . 因變數 Yi 被假設為 K 個自變數的函 數 .

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Logistic Regression' - elke


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Logistic Regression

教學研究部 生統小組

張秀英

97.10.17

slide2

在統計學上,許多學者認為Logistic Regression的優點,主要是能處理依變項有兩個類別的名目變項,用以預測事件發生的勝算比(Odds Ratio),它可以解決傳統線性迴歸模式中,不能處理依變項是兩個類別的名目變項的缺點

slide4

Logistic 模型估計的假設條件-1

  • 資料必須來自於隨機樣本.
  • 二. 因變數Yi被假設為K個自變數的函
  • 數.
  • 三. 也對多元共線性(multicollinearity)
  • 敏感.
slide5

Logistic 模型估計的假設條件-2

三. 二元Logistic 迴歸的因變數yi是二分變數,

這個變數只能取值0或1.

四. Logistic迴歸中因變數和各自變數之間的

關係是非線性的.

slide6

Logistic 模型估計的假設條件-3

五. Logistic迴歸沒有關於自變數分布的假設條件. 各自變數可以是連續變數,也可以是離散變數,甚至可以是虛擬變數.並且也不需要假設自變數之間存在多元常態分布.但是自變數之間如果存在多元常態關係將能夠增加模型的功效(power),也能夠提高求解的穩定性.

slide7

模型估計的樣本規模-1

目前仍無明確的答案指出,多大的樣本數時可以使用logistic迴歸.一般來說,樣本的規模依賴於模型和資料的特點:

1.如果模型中有很多參數要作估計時,就需 要較多的觀測值.

2.如果自變數之間有高度共線性,或因變數的變化太小(如有太多的案例反應都相同),就需要較大的樣本.

slide8

模型估計的樣本規模-2

3.模型的反應變數中有更多分類時(分類大於2) 也需要更多的觀測案例.

4.一般認為,在中等規模樣本數(n=100)的條件之下即能接受.

slide9

篩選自變數

  • 若一自變數在其簡單模式中達到P<0.25時,都應該
  • 考慮與其他重要自變數一起作為多元模型的候選變數。
  • 模型的選擇
  • enter / forward
  • backward / stepwise
  • 當候選自變數的數量很多時,需要更多的觀測案例。
slide10

Goodness of fit

  • Hosmer-Lemeshow擬合指標--
  • 模型擬合資料良好。
  • 訊息量測指標 AIC值--較小的AIC值表示模型擬合
  • 較好,可用於非巢狀模型之間的比較。
  • 預測準確性
  • Analogous (類 指標)-- 0<LRI<1/屬於無單位量
  • 值。

模型評價

slide11

模型診斷-1

  • 常出現的問題:
  • 過離散(Overdispersion)
  • 原因: 樣本數過小 / 資料中存在特異值
  • 影響: 過度樂觀估計參數顯著性
  • 空單元 (Zero Cell Count)
  • 影響: 模式無法收斂 / 估計係數與標準誤過大
  • 完全分離(Complete Separation)
  • 反應變數的2種結果在x取值上並無任何重疊
  • 影響: 估計係數與標準誤過大
  • 在小樣本又有很多自變數的時候發生機會比較高
slide12

模型診斷-2

  • 多元共線性 (Multicollinearity)
  • 自變數之間的簡單相關或多元相關都產生多元共線性。
  • 自變數之間的相關矩陣可以用於診斷多元共線性,
  • 如果任何2個自變數之間有較高的相關,便可能產生多元
  • 共線性。
  • 也會產生很大的係數估計標準誤差
  • 如果tolerance<0.2或 VIF>5則有可能存在多元共線性
  • 若tolerance=0則模型無法估計。
slide13

多元共線性的解決辦法

  • 多元共線性很容易發現 ,卻很難解決!
  • 增加樣本規模
  • 降低標準誤差,可以抵銷較輕微的多元共線性的
  • 影響。
  • 刪除某些自變數
  • 必須小心決定刪除哪些變數,若刪除理論上有重要
  • 意義的自變數,將造成模型誤設,產生有偏的估計。
slide14

類似線性迴歸係數,logistic迴歸係數也可以被解釋為類似線性迴歸係數,logistic迴歸係數也可以被解釋為

  • 對應自變數一個單位的變化所導致的因變數上的變化。
  • 迴歸係數估計值具有對稱性(0)。
  • 例如: 對於 Y :肺癌
  • 性別 1:男
  • 0:女 ,性別估計值為0.69,男性比女性有較
  • 高的發生機會。
  • 若 1:女
  • 0:男,性別估計值為-0.69。

Logistic迴歸係數解釋

slide15

2個機率組之間的比較。

  • Odds ratio=1表示變數對事件機率無作用 。
  • 不具有類似回歸係數的對稱性,解釋時請注意描述參考組。
  • 例如: 對於 Y :肺癌
  • 性別 1:男
  • 0:女 ,Odds ratio=4,表示男性罹患肺癌的風險
  • 比女性高出4倍。
  • 多元自變數時,可自行選擇基準組。
  • 選擇不同對比方式對該自變數整體的顯著性檢驗沒有影響。

Odds ratio

slide21

Logistic Regression

C1的odds ratio代表“每增加一單位C1,有病的可能性即增加1.111之機會

slide23

Thank You

For Your Attention !