350 likes | 416 Views
統計分析. 統計分析包含: 統計推論 -- 由樣本觀察值得到母體的特性,分為估計與檢定。 統計建模 -- 針對試驗的資料,發展出一統計模式,以解釋變數間的關係或作預測。. 統計推論. 實際母體. 樣 本. 估計之母體. 統計推論必產生差異,稱為抽樣誤差;抽樣誤差的大小與樣本數有關。. 檢定與估計. 統計推論分為檢定與估計 估計是估計母體特性的代表值,如,估計平均數、比例 檢定是對一假說作真偽判斷. 統計估計. 在一信心水準下,根據資料估計某一參數值可能的範圍 通常估計平均數,發生率。 例: 以95%的信心水準,估計大學生起薪在2.5±0.3萬
E N D
統計分析 統計分析包含: • 統計推論 --由樣本觀察值得到母體的特性,分為估計與檢定。 • 統計建模 -- 針對試驗的資料,發展出一統計模式,以解釋變數間的關係或作預測。 統計分析
統計推論 實際母體 樣 本 估計之母體 統計推論必產生差異,稱為抽樣誤差;抽樣誤差的大小與樣本數有關。 統計分析
檢定與估計 • 統計推論分為檢定與估計 • 估計是估計母體特性的代表值,如,估計平均數、比例 • 檢定是對一假說作真偽判斷 統計分析
統計估計 • 在一信心水準下,根據資料估計某一參數值可能的範圍 • 通常估計平均數,發生率。 • 例: • 以95%的信心水準,估計大學生起薪在2.5±0.3萬 • 以95%的信心水準,估計支持率30%,誤差0.3% 統計分析
民調:319大突破逾半民眾存疑 2005.03.09 中國時報(註六) • 六成九的國人知道陳義雄被指涉嫌,但這些人當中五成一的人存疑,只有二成六相信警方說法。 • 本次調查於八日晚間進行,以台灣地區住宅電話簿為抽樣清冊,共成功訪問七百三十五位成人。在九成五的信心水準下,抽樣誤差為正負三點七個百分點。 統計分析
誤差的大小與樣本數有關 • 樣本數為735時,計算得在九成五的信心水準下,抽樣誤差為±3.7%。 • 樣本數為4,713時,計算得在九成五的信心水準下,抽樣誤差為±2%。 (註七) • 人數增加時,誤差下降。 統計分析
邏輯推論 丟骰子10次,有8次出現6點,是機運或是假骰子?要如何辯護? • 大前提:如果是一均勻骰子,得到超過8次6點的機率是0.000019 • 小前提:如今10次,有8次出現6點 • 判斷:顯然此骰子不是一均勻骰子 統計分析
統計檢定 例:甲在10次考試中,有8次成績都比乙好,是機運或是甲的程度比乙好? • 假說:H0:甲=乙 vs. H1:甲≠乙 • 根據資料計算:若甲=乙,有超過8次成績都比乙好的機率只有0.1% 。 • 上列的機率在檢定上稱為 p-值 或 顯著值 • 判斷甲顯然不等於乙。此判斷錯誤的機會小於 1%。 統計分析
一般檢定的步驟 • 建立假說 (虛無假說及對立假說) • 根據資料算出顯著機率 (p-值) • 若顯著機率值太小,如 p-值<0.05 ,則判斷虛無假說不可能,結論為對立的假說是顯著的 統計分析
檢定的顯著p-值 不顯著的情況 顯著的情況 統計分析
例:維生素C是否可預防感冒 • 400人隨機分為二組 • 一組服用維生素C,另一組服用安慰劑(對照組) • 經過一個冬季,統計二組患感冒比例 • 實驗組有15%,對照組有25% 統計分析
檢定 • Hypothesis : 二組患感冒比例相同 • 在比例相同下,計算的 p-值小於0.0001 • 如果比例相同,得到此資料的機會有0.0001 • 否定二組患感冒比例相同 • 服用維生素C的一組比例較低 • 結論是服用維生素C對預防感冒顯然有效 統計分析
例:檢定五種廣告效應的差異 為了研究廣告對產品質感的影響,30 個受試者隨機地被分配到 5 個試驗群,每一個試驗群接受一單獨的關於原子筆廣告。受試者看完廣告後,均拿到相同形式的原子筆,評估當他們購買像這樣原子筆所期望的價格。 資料圖 統計分析
廣告效應是否有差異? • 虛無假說定為五種廣告效應相等 • 由資料計算得顯著的 p-值是 <0.0001 (參考SAS統計軟體得到的報表) • 結論是五種廣告效應有明顯的不同, 在統計上說“有顯著差異”(significant difference) 統計分析
其它檢定之例 • 消基會檢測食品防腐劑是否超出標準:hypothesis 為不超出標準,在等於標準下計算的 p-值,若 p-值<0.05,則認定食品防腐劑顯然超出標準。 • 研究學歷高低是否影響工作滿意度:hypothesis 定為學歷與工作滿意度無關,在無關的情況下計算 p-值,若 p-值<0.05,則結論是學歷顯然對工作滿意度有影響。 統計分析
檢定應用 • 檢定兩因素是否相關? • 如:銷售量與廣告,肺癌與抽煙 • 比較數組情況是否相同? • 1. 發生率是否相同?2. 平均數是否相同? • 檢定數個因素對觀察值是否有影響? • 檢定資料是否滿足某種分佈? 統計分析
如何完成統計檢定 • 確定檢定目標 • 寫下檢定假說 • 選一合適統計軟體分析資料 • 由報表得到p-值(顯著值),判斷檢定結果 • p-值<0.05, 對立假說顯著 • p-值>0.05, 對立假說不顯著 統計分析
統計模式 以統計方法分析問題:將問題的因果關係轉換為統計模式,然後依據資料,找出合適的模式,以為研究的結果。 統計模式有: • 線性模式 (Linear Model) • 邏輯迴歸模式 (Logistic regression model) • 時間序列模式 (Time series model) • 其它 統計分析
線性模式 • Y = β0 + β1X1 + β2X2+ … + βpXp+ε • 解釋 Y 的值各別受Xi值所影響,影響力是累加的。 • 係數代表的是各因素對 Y 的相對影響程度 • 係數的意義: 經其它Xi 調整後,X1增加1單位,Y將增加β1個單位 • β1>0時,Y與 X1有正關係,β1<0時,有負關係。 • 項目ε包含未在考慮的變因 統計分析
線性模式中係數之意義 • 月薪 = 24260 + 670(年資) + 4025(教育程度) 其中教育程度是以1表大學以上學歷,0表高中以下學歷 • 對同教育程度的人,年資增加1,平均月薪增加670元 • 對同年資的人,大學以上學歷者比高中以下者,平均月薪增加4025元 統計分析
多項時藉用指標變數的模式 • 若教育程度分為四項,另設定三個指標變數 統計分析
指標變數係數之意義 • 月薪 = 24260 + 670(年資) + 4025(E1) + 3000(E2) + 2000(E3) • 對同年資的人,大學以上比小學以下學歷者,平均月薪增加4025元 • 對同年資的人,高中比小學以下學歷者,平均月薪增加3000元 • 對同年資的人,國中比小學以下學歷者,平均月薪增加2000元 統計分析
可由線性模式找出影響因素 • 模式:Y = β0 + β1X1 + β2X2+ … + βpXp+ε • 檢定線性模式的係數,若 Xi 值的係數是顯著的,則 Xi 對 Y 的影響是顯著的。 • 可使用逐步迴歸法將所有可能影響 Y 的因素 Xi逐一地加入模式中,重複篩選,找出最可能影響的因素。 統計分析
特殊模式 • 兩個自變數含交互作用項的模式; 如: E(Y) =β0+β1X1+β2 X2 +β3X 1 X2 • 多項式迴歸式; 如: E(Y) =β0+β1X1+ β2 X12 • 轉換變數迴歸式; 如: Y =β0 X β1 轉換成線性模式 ln(Y) = ln(β0)+ β1 ln(X) 統計分析
變數轉換 在許多時候,將資料經過特殊的函數轉換,可以找到更適合資料的模式 • 線性轉換:y = a + bx 例:成績標準化,華氏溫度與攝氏溫度 • 次方的轉換:y=axb 例:成績開根號以10 • 對數的轉換: y=log(x) 統計分析
變數轉換的影響 線性轉換 通常不會改變原資料的分佈型態 次方或對數的轉換會改變分佈的形態。 原資料分佈 對數轉換後分佈 統計分析
邏輯迴歸模式Logistic regression model 邏輯迴歸模式為一非線性模式,可預測某現象發生之機率,當研究的對象限於二種或少數的幾個項目時,無法使用線性模式,而使用邏輯迴歸模式 範例: • 研究有心血管疾病的因素,研究的對象分為有或沒有 • 預測下雨機率,研究的對象是會下雨分為有或沒有 • 研究已婚婦女選擇就業的因素,研究的對象分為就業或不就業 • 金融機構研究影響個人信用狀況的因素 統計分析
簡易邏輯迴歸模式 • 以某一變因(X) 預估事件發生的機率 • 資料的反應變數(Y)只有二種可能的結果, 通常以 y=1 表示發生 及 y=0 表示未發生。 • 定義:勝算 odds = 勝負機率之比 • 基本原理:假設 ln(勝算) 對 X 有線性關係 • 註:ln是自然對數 統計分析
例:由程式經驗預估完成工作的機率 經驗愈多者,完成工作的機率愈大,但無法以一線性關係表示,改以 S-曲線預測較合理,參考下圖。 統計分析
原始資料與估計機率圖 統計分析
邏輯迴歸估計式 由邏輯迴歸之最大概似估計得到 z = -3.0597 + 0.1615 (經驗月數) 此為 S-曲線 統計分析
由經歷估計成功率 (1) 預估成功率: 有一年工作經驗者,估計有 24.6 % 機率完成,勝算 0.326 有二年工作經驗者,估計有 69.4 % 機率完成,勝算 2.262 (2) 可由係數估計勝算比, 勝算比 = exp(0.1615) = 1.175. 實值意義:工作經驗每增加一個月,完成工作之勝算是原來的 1.175倍。 統計分析
時間序列 • 長時間對某一現象觀察的資料記錄是為時間序列 • 政府機關、公司機構保留的記錄,長期累積下來是為一有研究價值的資料 • 未來經濟預測、營運的決策,或投資的選擇通常靠分析時間序列資料 統計分析
時間序列模式 • 時間序列的資料非獨立資料,相鄰兩筆資料間互相影響,此稱之為自相關 • 通常時間序列資料的建模必須考慮自相關 • 以下的模式考慮前一時間的影響 Yt = a + b Yt-1 + εt,t 指時間 Yt = a + b Xt-1 + εt 統計分析
近代時間序列模式 • ARMA(p,q)模式 – 1976 Box-Jenkin 「巴克斯-簡金斯」的研究步驟,是分析財經時間數列的標準操作方法。 • ARCH模式---安格爾 (Robert F. Engle)註七.1 自我迴歸非均齊波動模型,將 ARMA 模式巧妙地轉變成對時序波動程度的分析工具。 • ARCH模式分析未來的波動性與風險,不估計報酬率 統計分析