2.3k likes | 2.69k Views
第十章. 簡單線性迴歸分析. 10.1 散布圖與相關係數. 10.2 簡單線性迴歸模型. 10.3 迴歸直線應用須知. 10.1 散布圖與相關係數. 在我們生活周遭,有許多變數之間是相互有關聯的,例如:個人的身高和體重、學生在大學指考的數學成績和入學後的數學成績、汽油價格和汽油銷售量、夏天氣溫和用電量等等。如果要考量像上述這些兩個變數之間的關聯,需要蒐集成對的變數資料,叫做二維數據;而要呈現二維數據所含的訊息,最常用的圖就是散布圖 (scatter plot) 。通常我們用英文大寫字母表示變數,但是若已觀測到變數的值,則以小寫字母來代表這些值。. 散布圖
E N D
第十章 簡單線性迴歸分析
10.1散布圖與相關係數 10.2簡單線性迴歸模型 10.3迴歸直線應用須知
10.1散布圖與相關係數 在我們生活周遭,有許多變數之間是相互有關聯的,例如:個人的身高和體重、學生在大學指考的數學成績和入學後的數學成績、汽油價格和汽油銷售量、夏天氣溫和用電量等等。如果要考量像上述這些兩個變數之間的關聯,需要蒐集成對的變數資料,叫做二維數據;而要呈現二維數據所含的訊息,最常用的圖就是散布圖(scatter plot)。通常我們用英文大寫字母表示變數,但是若已觀測到變數的值,則以小寫字母來代表這些值。 散布圖 假設我們蒐集了兩個變數X、Y 的n 筆資料,用(x1, y1) , (x2, y2), …,(xn,yn) 表示,將這n 個有序對標示在xy座標平面上,就構成X、Y 兩變數的散布圖。
10.1散布圖與相關係數 例10.1-1 某高中數學資優班10 位同學參加指定科目考試之物理和化學成績如下,把物理成績當作x,化學成績當作y,畫出散布圖。 如果直接看這些數字,不容易看出物理和化學成績之間有沒有關聯。現在把物理成績當作x,化學成績當作y,並且在座標平面上,把十位同學的成績標示出來,就會得到如圖10.1-1 的散布圖。 從散布圖中可以看出:物理分數(x 座標) 較低的同學,化學分數(y座標) 多半偏低,而物理分數較高的同學,化學分數也較高。也就是說,圖中的點若x 座標比較小,其y 座標多半也較小;x 座標若較大,則其y座標多半也較大。在這種情況下,散布圖中的點會大致呈現從左下方到右上方的帶狀。
10.1散布圖與相關係數 當散布圖中的點,大致在一條直線的附近時,我們稱變數X 和Y 為直線相關;當直線的斜率為正時,稱變數X 和Y 為正相關,當直線的斜率為負時,稱變數X 和Y 為負相關( 圖10.1-2)。
10.1散布圖與相關係數 直線相關有強有弱:點的散布距離直線很近時,相關性較強;點的散布距離直線較遠時,相關性較弱。不過,強或弱是相對性的,並無絕對的標準,圖10.1-4 可供參考。如果點的散布沒有出現任何帶狀的形式,如 圖10.1-5 所示,則代表變數X 和Y 沒有直線關聯。
10.1散布圖與相關係數 根據散布圖,若想要用目測方法來估計變數X 和Y 直線相關的強弱程度,很難估計準確,因此需要有一個較客觀的評估方式;最常用的代表數字,就是樣本相關係數,可簡稱相關係數。
10.1散布圖與相關係數 例10.1-2 若隨機抽樣得兩變數(X, Y) 的樣本數據如下:(1, 6)、(2, 3)、(4, 4)、(5, 1)、(8, 1),求X 和Y 的相關係數。 仔細觀察數據會發現,小的xi多半和大的yi配對,而大的xi多半和小的yi配對,所以相關係數得到負值是可以預料的。
10.1散布圖與相關係數 例10.1-3 某大學教授所開的一門課有20 位同學選修,上課時間排在早上第一堂和第二堂,8:10 開始上課。老師發現冬天氣溫低時,上課準時出席的同學就很少;為了了解情況,老師在低溫的日子,把早上七點的溫度和開始上課時的學生人數記錄下來,得到以下數據( 攝氏): 求溫度和人數的相關係數。 觀察一下會發現,每一項xi – x 都和其對應的yi – y 同符號,所以r的分子會大於0,使得r 值為正( 分母必定大於0)。冬天溫度高低和準時出席的學生人數之間,有相當強的正向相關;溫度高時人數多、溫度低時人數少。
10.1散布圖與相關係數 相關係數的分子決定了它的符號,而它的分母規範了它的範圍,並使得相關係數變成沒有單位的一個數字,數字的大小有相當清楚的意義: 3. r 值愈接近1 或-1,代表直線相關性愈強;r 值若接近0,則代表直線相關性很弱。 4. r 值所代表的是直線相關的強度,所以r = 0 只代表沒有「直線相關」,並不代表X 變數和Y 變數沒有任何關聯。 1. r 值必介於-1 和1 之間,-1≤ r ≤ 1,當r = ±1 時,代表散布圖中的點全都在同一條直線上;若r = 1,直線斜率為正,若r = -1,直線斜率為負。 2. r > 0 代表正相關,r < 0 代表負相關。
10.2簡單線性迴歸模型 假設商家感覺到冰品銷售量似乎和當天的溫度有直線關聯:天氣熱時銷售量較大,天氣較涼快則銷售量較低;也就是說,銷售量似乎會跟著溫度的變化而變化。此時我們把溫度叫做自變數(independent variable),用X 表示,銷售量叫做應變數(dependent variable),用Y 表示。任何變數都應該有明確的定義,光是說「溫度」不夠明確,如果令X 代表一天的最高溫,則意義很清楚,「銷售量」Y 也可定義為當天的銷售金額。 要預測必須先要有模型,然後根據模型來預測。模型的形式決定之後,通常還有未知的參數需要估計;比如說模型如果是直線的形式,我們就需要根據蒐集到的數據,決定直線的斜率和截距,以後就可以根據氣象局預測的最高溫,來預測當天的銷售量了。預測的方式是把最高溫X 的值代入直線式,求出對應的Y 值。
10.2簡單線性迴歸模型 簡單線性迴歸模型中的「線性」指的是:不論是參數β0和β1或是xi,在式子當中都是以一次方的形式出現。「簡單」則指自變數只有一個,比如我們只考慮冰品銷售和最高溫的關係時,自變數就只有「最高溫」一個。
10.2簡單線性迴歸模型 (10.2-1) 式當中包括兩部份訊息: 1. x 和y 之間有某種線性關聯,即y =β0+β1x,但是β0和β1不知道,需要估計。 2. 即便x 和y 之間有線性關聯,但這並不是一種絕對的函數關係。
10.2簡單線性迴歸模型 迴歸直線公式如下:
10.2簡單線性迴歸模型 例10.2-1 某大學教授所開的一門課有20 位同學選修,上課時間排在早上頭兩堂,8:10開始上課。老師發現冬天氣溫低時,上課準時出席的同學就很少;為了了解情況,老師在低溫的日子,把早上七點的溫度和開始上課時的學生人數記錄下來,得到以下數據( 攝氏): (a) 計算此組數據之迴歸直線;(b) 某日早上七點的溫度是10°,利用迴歸直線來估計8:10 開始上課時,教室裡的學生人數。 (b) 將x = 10 代入迴歸直線公式,得到 y = 0.923.10 - 6.077 = 3.153 四捨五入之後得到3,估計約有3 位同學準時到教室上課。
10.2簡單線性迴歸模型 例10.2-2 假設某冰品店老闆注意到每天的冰品銷售量似乎和當天的最高溫有關聯,於是隨機選了共6 天,記錄了該日最高溫( 攝氏) 和冰品銷售金額( 千元) 如下: 觀察數據之後,老闆認為冰品銷售量和最高溫之間,似乎有某種關聯。他希望能找到這項關聯,並加以利用,但是他沒有學過統計,我們來幫忙他做這件事。 (a) 畫出散布圖,判斷關聯的形式。 (b) 求迴歸直線。 (c) 用迴歸直線估計高溫35 度時的冰品銷售量。 (d) 當溫度剛好等於6 天的平均溫33 度時,估計冰品銷售金額是多少?是否能夠不要代入迴歸直線公式就知道結果?
10.2簡單線性迴歸模型 將以上數字代入公式,可得 散布圖中的點相當接近一條直線,冰品銷售量和最高溫之間,似乎有直線關聯。
10.2簡單線性迴歸模型 (c) 將x = 35 代入迴歸直線公式,得到 y = 2.05.35 - 42.65 = 29.1 最高溫攝氏35 度時,預估銷售金額為29,100 元。 (d) 將x = 33 代入迴歸直線公式,得到 y = 2.05.33- 42.65 = 25 正好就是6 天銷售金額的平均,我們來討論這是否巧合。
10.3迴歸直線應用須知 一、估計的意義 當我們用x 值來估計y 值時,根據的是變數X 和Y 之間的關係,但因為不是函數關係,所以同樣的x 值可能對應許多不同的y 值。例如最高溫同樣是35 度的日子,冰品銷售金額仍然不盡相同。當我們代入x = 35 去估計y 時,所得到的結果,其實是高溫為35 度時的平均冰品銷售金額。
10.3迴歸直線應用須知 二、估計的準確程度 用平均數來估計準不準呢?這和數據的散布情況有密切關係,簡單線性迴歸模型裡面的σ(εi的變異數) 就包含了這個訊息。σ值較大代表數據散布比較廣,用平均數當作估計可能不太準,反之則比較準。 2 2
10.3迴歸直線應用須知 三、估計的適用範圍 假設我們找到了最小平方迴歸直線,也發現數據多半距離直線不遠,這樣是否可以放心代入x 去估計y 了呢?還有一件事要注意,就是所代入的x 應該不要超出決定迴歸直線的數據點之x 值範圍,否則有可能得到離譜的結論。
10.3迴歸直線應用須知 四、決定X 和Y 兩個變數當中,應該要令哪一個當作X,哪一個當作Y 呢?這點很容易決定,把我們想要預測的變數當作Y,另一個當作X 就行了。比如在冰品銷售例子裡,我們是想用最高溫來預測銷售量,而不是用銷售量來預測最高溫,所以要令最高溫為X、冰品銷售量為Y。
10.3迴歸直線應用須知 五、選擇合適的模型 直線是在考慮兩個變數間關聯時最常用的模型,它很簡單好用,但不能因為好用就隨便用,在想用X 估計Y 時、不管是否合適都給它配適直線模型。當X 和Y 之間並沒有直線關聯時,這樣做的結果可能極糟,如果利用軟體做計算時,更必須加倍小心。 最起碼應該先畫散布圖,看看圖形是否呈現帶狀。如果點的散布並不接近一條直線,反而出現曲線形狀,我們就應該找合適的曲線去描述模型,而不是找迴歸直線;除了直線形式外,存在各式各樣的模型可用在其他形式的關聯。
10.3迴歸直線應用須知 六、利用套裝軟體之前,應先了解基本概念 因為若是基本概念不清楚就去使用套裝軟體分析數據,很可能做出錯誤的結論卻不自知,這是很危險的事。
我們常問下面的兩個問題: • (1)是否能由學生的 IQ成績預測其大學入學成績? • (2)是否能由大學 入學數學成績預測其大一微積分成績?
例13.1、 • 某人想了解大學入學考試的 數學成績與大一微積分成績(y)的關係, • 隨機收集15名大一學生 成績如下:
例13.2、 • 大華汽車公司12年來 汽車銷售量與廣告費 • 資料如下表:
例13.3、 • 某研究人員想了解父子身高的關係。 • 隨機收集1000對父親與其已成人的 長子身高資料如下
(1) 身高有遺傳作用 • 兒子的身高受父親身高的影響, 高的父親所生的兒子也會較高。
(2) 迴歸效應 • 若上一代的男生平均身高為170公分, 而下一代男生的平均身高是173公分, • 平均身高有上升的現象,
迴歸效應 • 身高較高的父親其兒子的平均身高增加較少; 身高較矮的父親其兒子平均身高增加較多, • 下一代身高有“往中間靠” 現象,稱為迴歸效應。 • 上一代父親身高175公分與父親身高165公分 相差10公分, 下一代兒子平均身高 相差可能不到10公分
(3)身高常態分佈且變異數有均質性(亦稱同質性)(3)身高常態分佈且變異數有均質性(亦稱同質性) • 同樣約175公分身高的父親, 其兒子身高也不盡相同, 從約169公分到182公分, • 這些兒子的平均身高比那些父親身高165公分的人之兒子的平均身高要高,
有些175公分高的父親其兒子身高 比父親是165公分的兒子身高矮。 • 所有父親身高為175公分這群人有幾十人,他們兒子身高的分佈呈常態分佈 • (此亦稱條件常態,即有相同的父親身高),
簡單線性迴歸分析簡介 • 迴歸分析是一種很有用的統計分析方法, 它主要是建立變數間的關係式。 • 很不幸的,迴歸(Regression)的名字取得不理想, 字義上未能表現出這種方法的重要性及應用,
變數分成兩類, • 一類是做為預測的提供者, 稱為自變數(或獨立變數或稱預測變數), 以x表示 • 另一類是我們真正關心的被預測者, 稱為應變數(或依變數或稱準則變數),以y表示
迴歸的主要目的是建立變數間的 因果關係式以便做預測, • 目標是發展一種能以一個或多個自變數的數值來做為應變數預測的方法。
迴歸模式步驟 • 當收集到一組資料後, 迴歸第一步驟就是估計b0,b1 (後面將介紹最小平方法求b0,b1 的估計),
模式評估 • 然後再利用殘差圖評估模式是否合適,如不合適則做修正, 直到修正模式評估合適為止, • 模式修正好後,就能利用建立迴歸模式做預測、解釋及控制等用途
13.3最小平方法 • 當我們針對某問題,收集資料後, 想找出迴歸式,第一步驟是做參數估計 • 所謂參數就是上節中的b0, b1