第 2 章
570 likes | 769 Views
第 2 章. 敘述統計:表格與圖形法 Part A (2.1-2.2). 本章內容. 2.1 類別資料的彙總 2.2 定量資料的彙總 2.3 運用表格彙總兩變數的資料 2.4 以圖形表示彙總兩變數的資料 2.5 資料儀表板:增加數值量數以提升效能. 第 2 章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第 27-82 頁. 2.1 類別資料的彙總. 次數分配 相對次數分配與百分比次數分配 長條圖與圓形圖.
第 2 章
E N D
Presentation Transcript
第 2 章 敘述統計:表格與圖形法 Part A (2.1-2.2)
本章內容 2.1 類別資料的彙總 2.2 定量資料的彙總 2.3 運用表格彙總兩變數的資料 2.4 以圖形表示彙總兩變數的資料 2.5 資料儀表板:增加數值量數以提升效能 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第27-82頁
2.1 類別資料的彙總 次數分配 相對次數分配與百分比次數分配 長條圖與圓形圖 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29-30頁
第2章 敘述統計:表格與圖形法 類別資料 (categorical data)用於項目的分類,通常是用標記或名稱表示。 定量資料 (quantitative data) 則以數值來顯示數量的多寡。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29頁
次數分配 次數分配(frequency distribution)是資料的一種表格彙總方式,用以顯示不相重疊的各個資料類別或各自含有的觀察值次數。 次數分配的優點是提供一個比原始資料更容易瞭解的資料彙整方式,我們能瞭解 50 個購買紀錄在 五種產品間的分布情形。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29.30頁
次數分配 下列例子說明類別資料次數分配的建立與解釋。 Coca-Cola 、DietCoke、Dr. Pepper、Pepsi 和 Sprite 是五種廣受歡迎的清涼飲料。表 2.1 列舉 50 個清涼飲料的購買成本。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29頁
次數分配 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29 頁 表2.1
次數分配 為求得這些資料的次數分配,我們計算每種飲料在資料的總出現次數, Coca-Cola出現 19 次,Diet Coke 出現 8 次,Dr. Pepper 出現 5 次,Pepsi出現 13 次,Sprite 出現 5 次。 我們彙整了這些次數,並列示於表 2.2 的次數分配表。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29 頁
次數分配 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29 頁 表2.2
相對次數分配與百分比次數分配 一個資料組的相對次數(relative frequency)即代表該類別之觀察值次數與所有觀察值次數的比率。 一個組別的相對次數 = 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第30 頁
相對次數分配 相對次數分配(relative frequency distribution)是一個資料的表格化彙總,顯示資料裡每個組別的相對次數。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第30頁
百分比次數分配 百分比次數分配(percent frequency distribution) 也是資料集的表格化彙總。 百分比次數分配顯示每一個組別的百分比次數。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第30頁
百分比次數分配 表2.3是清涼飲料購買量的相對次數和百分比次數,可看出 Coca-Cola的相對次數是 19/50=0.38,Diet Coke 的相對次數則是 8/50=0.16 等。由百分比次數分配,我們可發現 38 % 的購買者選擇 Coca-Cola ,16% 選擇 Diet Coke 等,也可看出前三名佔全體的比例為 38%+26%+16%=80%。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第30頁 表2.3
長條圖 長條圖 (bar chart) 是一種圖形,用以描述經過彙總 (如次數分配、相對次數分配,或百分比次數分配) 的類別資料。 圖形的一軸 (通常是橫軸) 是用來表示組別名稱的標記或符號。圖形的另一軸 (通常是縱軸) 則表示次數、相對次數或百分比次數。 各個組別名稱上方有固定寬度的長條,以長條的高度表示次數、相對次數或百分比次數。 對類別資料而言,每個組別應有所分隔不相鄰接,表示每個組別 (或類別) 是有所區隔的。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第29-30頁
長條圖 圖 2.1 為 50 筆清涼飲料購買資料的次數分配長條圖。在圖形中可看出 Coca-Cola、Pepsi 與 Diet Coke 為最受歡迎的品牌。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第30頁 圖2.1
柏拉圖圖示法 在品質管制應用上, 我們經常使用長條圖來找出引發問題的最重要原因。 若長條圖由左至右,以遞減的方式排列,即最左邊為最常發生的原因, 則此種長條圖稱之為柏拉圖圖示法 (paretodiagram)。 此圖之命名是為了紀念發明者義大利經濟學家 Vilfredo Pareto。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第31頁
圓形圖 圓形圖(pie chart)也是一種用來表示類別資料相對次數及百分比次數分配的圖形。 圓形圖的畫法是由一個圓形的圓心依照各資料組的相對次數所對應的圓心角而劃分。 例如 Coca-Cola 之相對次數為 0.38,因此 Coca-Cola 所佔圓形的部分相當於圓心角 0.38×360=136.8 度的扇形。同理,其他三種品牌亦可 得到相對應的扇形部分,結果如圖 2.2 所示。扇形內的數值可以是次數、相對次數或百分比次數。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第31頁
圓形圖 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第31頁 圖2.2
圓形圖 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第32頁 圖2.3
評註 通常,次數分配的組數和資料的類別總數是相同的。就如同本節表 2.1 的資料顯示,該資料裡有 五種清涼飲料,每一種品牌便是次數分配裡的一個組別。如果這個資料包括了所有的清涼飲料,則將有資料個數非常少的組別出現在次數分配裡 (甚至有購買次數為 0 的清涼飲料產品)。大部分的統計學家建議這些觀察值次數非常少的組別彙整為同一組,組名可取為「其他」。次數在5% 以下的組別,通常會依上述方式處理。 次數分配的總次數應等於觀察值的總數;相對次數的總和必須為1.00;百分比次數分配的百分比總和則應為100。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第32頁
2.2 定量資料的彙總 次數分配 相對次數分配與百分比次數分配 點圖 直方圖 累積分配 肩形圖 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第34-42頁
次數分配 • 為定量資料做次數分配有以下三個步驟: • 決定不相重疊的組別數目。 • 決定每一組的組寬。 • 決定每一組的組界。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第34頁
組數 • 組數 (number of classes) 的制定可經由資料裡資料值的範圍來規定。 • 一般而言,我們建議將資料分成 5 至 20 組。較小的資料,通常分成 5 組或 6組即可,較大的資料需要較多的組數。 • 分組時,我們希望使用夠多的 組數來表示資料的變化性,但 也不希望組數太多,而每組卻 只包含很少的資料次數。 • 由於表 2.4 的資料較少 (n=20), 我們將分成 5 組來建構次數分配。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第34頁 表2.4
組寬(width of the classes) • 建構定量資料的次數分配需要選定每組的寬度。 • 建議每組均採用相同的寬度。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第34頁
組寬 稽核天數的資料顯示,最大值與最小值分別為 33 與 12,由於已事先決定組數為 5,利用式 (2.2) 得出近似的組寬為 (33-12)/5=4.2。 因此我們決定採用 5 天為次數分配的組寬。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第35頁
組界 選定組界 (class limits) 後,要讓每個資料只屬於唯一一組。下組界 (lower classlimit) 用以確認該分組的最小可能值;上組界 (upper class limit) 則是確認最大可能值。 如果是類別資料的次數分配,不必特意決定組界,因為每個資料會自然歸屬於一個組別(類別)。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第35頁
組界 運用表 2.4 的資料,我們以 10 天為第一組的下組界,14 天為第一組的上組界。 表 2.5 將第一組標示為 10-14。資料的最小值 12,落在 10-14 這組。第二組的下組界是 15,上組界是 19。 整個資料被分為 5 組,分別是:10-14、15-19、20-24、25-29、30-34。 資料的最大值是 33,落在 30-34 該組中。 兩個相鄰組別的下組界之間的差異便是組寬。 利用前兩個組別的下組界 10 及 15,我們知道組寬為 15-10=5。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第35頁
組界 • 一旦決定組數、組寬以及組界, 便可經由計數落於每組內的資料 個數來建構一個次數分配表。 • 由此次數分配,我們可知: • 次數最多的稽核時間介於 15-19 天。20 個稽核時間有 8 個是屬於 這一組。 • 僅有一個稽核時間超過 30 天以上。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第35頁 表2.5
組中點 在某些應用中,我們也許希望求出定量資料次數分配的組中點,組中點 (classmidpoint) 指的是上組界及下組界的中間值,在稽核時間的資料中, 5 個組中點分別是 12、17、22、27 及 32。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第35頁
相對次數分配與百分比次數分配 定量資料的相對次數與百分比次數分配的定義,與前述類別資料的作法相同。首先,所謂的相對次數乃資料裡某資料組的資料個數佔資料總數的比率。對觀察值為 n的情況而言, 而百分比次數則是相對次數乘上 100。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第35-36頁
相對次數分配與百分比次數分配 根據表 2.5 中的次數分配和 n=20,表 2.6 顯示稽核時間資料的相對次數分配與百分比次數分配。 其中,有 0.40 或 40 % 的稽核需要 15 至 19 天。 僅 0.05 或5% 的稽核需要 30 天以上。 與未經彙整的原始資料相比,表 2.6 可以讓我們進一步解釋資料。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第36頁
相對次數分配與百分比次數分配 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第36頁 表2.6
點圖 點圖 (dot plot) 是最簡單的圖形彙總之一。 水平軸表示資料的值域,因此,每一個資料值均以點表示在水平軸上方適當的位置。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第36頁
點圖 圖 2.4 為表 2.4 的點圖。 圖中有3 個點位於 18,表示資料共有 3 個 18。 點圖除了可以表示詳細資料外,在比較兩個或以上變數的資料分布時也非常有用。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第36頁 圖2.4
直方圖 另一個常見的定量資料圖形表示是直方圖 (histogram)。 在建構直方圖之前,資料須先經過前述的彙整,如次數分配、相對次數分配或百分比次數分配。 直方圖的建構是將我們感興趣之變數置於橫軸上,而次數、相對次數或百分比次數則置於縱軸上。 每一分組的次數、相對次數或百分比次數以一個矩形圖表示,其寬度是該組別之組寬,高度則是相對應之次數、相對次數或百分比次數。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第36頁
直方圖 圖 2.5 是稽核時間的直方圖,其中次數最大的矩形位於 15-19 天這一組,矩形高度顯示該組的次數為 8。 相對次數或百分比次數的直方圖與圖 2.5 是相同的,只是縱軸改為相對數值或百分比數值。 如圖 2.5 所示,與長條圖不同的是,直方圖裡兩相鄰組別的矩形是相接的,相鄰組別並不存在自然的分界。由於稽核時間的組寬分別為 10-14、15-19、20-24、25-29 及 30-34,所以組別間應有一個單位的區隔:14-15、19-20、24-25及 29-30。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第37頁
直方圖 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5
直方圖 但在畫直方圖時,刪除了這些間隔。刪除組間間隔有助於看出:即使資料值被歸整為整數,稽核時間可能是介於第一組的下組界及最後一組的上組界之間的任何數值。 直方圖最重要的用處之一是,讓我們瞭解資料分布的形狀或形式。圖 2.6 中有四個相對次數分配的直方圖。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第37頁
圖2.6 直方圖顯示不同程度的偏態 • 圖 A 顯示資料的分布呈現適度左偏 (skewed to the left), 這是指分布形狀的左尾(左端) 延伸得較遠。 • 此種直方圖常見於考試成績的次數分配。因為分數不會高於 100%,大部分的成績通常高於70%,很低的分數則比較少見。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5
圖2.6 直方圖顯示不同程度的偏態 • 圖 B 則是適度右偏 (skewed to the right) 的直方圖,這是指分布形狀的右尾 (右端) 延伸得較遠。 • 購屋價格就是此種直方圖的常見例子,少數的豪宅會使資料的右尾延伸。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5
圖2.6 直方圖顯示不同程度的偏態 • 圖 C 是對稱的直方圖,此圖中的左尾是右尾的鏡射。實務中的直方圖不會完全對稱,但會大致對稱。 • 諸如 SAT 成績、身高或體重之類的資料都是大致對稱的形式。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5
圖2.6 直方圖顯示不同程度的偏態 • 圖 D 則是高度右偏,此圖的資料來自某女性服飾店的顧客一日採購金額。 • 商業經濟的實際應用中,常可見此種向右偏態的直方圖,例如,購屋價格、薪水、採購金額等等。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第37頁 圖2.5
累積分配 累積次數分配(cumulative frequency distribution)是次數分配的變形,它提供定量資料另一種表格化的彙總。 累積次數分配利用次數分配的組數、組寬,以及組界來進行資料的表格化彙總。 並不列出每個組別的資料次數,而是列出小於或等於上組界的總資料次數。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第37-38頁
累積分配 表 2.7 中的前兩欄是稽核時間資料的累積次數分配值。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第38頁 表2.7
莖葉圖實例 莖葉圖 (stem-and-leaf display) 是一種圖形表現,可同時顯示資料的順序及分配形狀。 為了說明莖葉圖的用法,以表 2.8 的資料為例。這些資料是 50 位哈斯肯斯公司 (Haskens Manufacturing) 的應徵者參加能力測驗的結果,這項測驗共有 150 道題目,這些資料代表應徵者答對的題數。 為了繪製莖葉圖,我們首先將每一個資料的十位數安排到垂直線的左邊,且由小至大依序排列;垂直線的右邊則記錄每一個資料的個位數,所放的位置須對應十位數的位置。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第38-39頁
莖葉圖實例 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第39頁 表2.8
莖葉圖實例 將資料重新安排如上述的形式後,資料排序就非常簡單。排序完成後,即完成莖葉圖如下。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第39-40頁
莖葉圖實例 直線左邊的數字(6, 7, 8, 9, 10, 11, 12, 13與14)是莖(stem),線右邊每一個數字是葉(leaf),例如,第一列的6是莖,8, 9是葉。 第2章 敘述統計 :表格與圖形法 Part A (2.1-2.2) 第40頁
莖葉圖實例 這表示有兩個資料值的第一位數字是6,葉的數值顯示兩個資料是 68 與 69 。同理,第二列是表示第一位數是 7 的資料有 6 筆:72、73、73、75、76 以及 76。 為了強調莖葉圖的形狀,我們利用長方形將每一個莖的葉之部分框起來。如此一來,我們便可以得到以下的表示圖。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第40頁
莖葉圖實例 將上面的圖形依逆時針方向旋轉 90 度,則得到一個組界為 60-69、70-79、80-89等的直方圖。 第2章 敘述統計:表格與圖形法 Part A (2.1-2.2) 第40頁