1 / 38

統計軟體工作坊 輕鬆學會統計軟體 R

統計軟體工作坊 輕鬆學會統計軟體 R. 2013/05/16. R 簡介. 可進行資料處理、統計分析、科學計算與圖形繪製 適用各種作業系統: Windows, Unix, Linix , MacOS 開放原始碼的自由軟體( open source ) 免費: 可由 the Comprehensive R Archive Network (CRAN) 下載 藉由套件( package )可不斷增加其功能 可與其他程式( C, Matlab , WinBugs ,… )連結使用 超過 27 個國家, 66 個連結點. R 的歷史.

Download Presentation

統計軟體工作坊 輕鬆學會統計軟體 R

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計軟體工作坊輕鬆學會統計軟體R 2013/05/16

  2. R簡介 • 可進行資料處理、統計分析、科學計算與圖形繪製 • 適用各種作業系統:Windows, Unix, Linix, MacOS • 開放原始碼的自由軟體(open source) • 免費:可由the Comprehensive R Archive Network (CRAN)下載 • 藉由套件(package)可不斷增加其功能 • 可與其他程式(C, Matlab, WinBugs,…)連結使用 • 超過27個國家,66個連結點

  3. R的歷史 Kurt Hornik (2008) “The Past, Present, and Future of the R Project” John Chambers (2006) “A History of S and R”

  4. 下載R軟體 • Go to this web page http://www.r-project.org/

  5. 下載R軟體 • 點選CRAN,接著選擇下載點

  6. 下載R軟體 • 根據作業系統選擇下載的版本 • 選擇“base”

  7. 下載R軟體 • 下載並安裝 • 安裝之後在桌面會出現捷徑

  8. R視窗說明 停止運算 載入工作頁面 複製及貼上 Toolbar R Console 主要視窗

  9. 定義新物件 • 定義一個新的變數叫temp,並且指定其值為24 • 紅字是輸入,藍字是輸出 • 大小寫代表不同物件 • 箭頭(<-)可用“=”代替 • 物件名稱必須為字母開頭,其餘位置可以是數字或點 • c, q, t, C, D, F, I, T; diff, df, pt, pi, …不可以是物件名稱

  10. Ras a calculator • 可以直接輸入數值計算 • 若物件屬性與維度相同,可以進行四則運算 • 常用的數學函數,如log, exp, sin,..可直接計算 • 若不能計算,會回傳NaN (not a number)

  11. 輸入向量 • c(…) 可以是數值 可以是字串 還可以把每一個元素取名字

  12. Practice • Weight: 50, 62, 47, 48, 72, 81, 45, 58, 65, 55 • Height: 1.58, 1.77, 1.43, 1.52, 1.84, 1.72, 1.45, 1.62, 1.70, 1.55 • 請計算每個人的BMI及平均BMI

  13. 查詢、移除已定義物件 • ls() • rm(“A”) • rm(list=ls())

  14. 利用R的記事本寫指令 • 開啟記事本 • 儲存記事本

  15. 更改工作目錄 • 改變檔案及資料的存放位置

  16. 下載R套件 • 練習:請下載R Commander套件 “Rcmdr”

  17. 載入R套件 • 可在R Console視窗中輸入library(“Rcmdr”) • 或者由選單中點選

  18. 學生生活型態調查 • 班級(class): (1)統資系 (2)財數系 (3)其他 • 性別(sex): (1) 女生 (2)男生 • 身高 (high) • 體重 (weight) • 血型 (blood): (1)A (2)B (3)O (4) AB • 住宿地 (location): (1)宿舍 (2)學校附近 (3)東海別墅附近 (4)家裡 (5) 其他 • 住宿費用 (rent):(1) 3000以下 (2) 3000~4000 (3)4000~5000 (4)5000~6000 (5)6000~ (6)其他 • 上學方式(way): (1)走路 (2)騎機車 (3)搭校車 (4)搭公車 (5)其他

  19. 資料輸入 • 輸入新資料 按一下var1,會出現變數編輯器,輸入變數名稱後,再按Enter即可。 輸入資料後關閉視窗即可

  20. 資料輸入 • 匯入資料

  21. 練習 • 請讀入EXCEL檔案“class-demo”,並將其命名為data2 • 請更改data2中,變數class、sex為character

  22. 資料型態 • 類別資料 • 可以用數字代表類別,但數字本身沒有意義 • 男生=1,女生=0 • 序位資料 • 類別的大小次序有意義,但順序的運算無意義 • 原位癌=0,癌症第一期=1,癌症第二期=2,第三期=3,第四期=4 • 等級化資料 • 根據不同類別的觀察值排序,給予類別不同的名次 • 象、牛、熊、獅 • 離散型資料 • 數值為真正測量值而非代號 • 每學期進圖書館次數 • 連續型資料 • 數值為真正觀測值,測量值不限定為整數 • 每星期唸書的時間

  23. 資料的整理 • 初步的組織、歸納觀察到的資料 • 統計表:製表是整理資料最簡單且最常用的方法 • 次數分配表(frequency table)、相對次數分配表(relative frequency table)、累積相對次數分配表(cumulative relative frequency table) • 統計圖 • 長條圖(bar chart)、直方圖(histogram)、次數多邊圖(frequency polygon)、散佈圖(scatter plot)、盒形圖(box plot)、線圖(line graph)

  24. 統計表 • 次數分配表:記錄每個組別中觀察到的個體數 • 相對次數分配表:記錄每一組別人數/總觀察人數 1. 處理離散型或連續型資料為次數分配表時,需將資料區分為一系列沒有重疊且明確的組別。 2. 分組之前要先定組限與組距,每組組距不一定要相同。 NOTE:一個個體只會分屬於一個類別

  25. 統計表 • 累積相對次數分配表:低於或等於該組上限的人數/總人數

  26. 統計表

  27. 長條圖(Bar charts) • 常用來表示類別或序位資料 高度代表組別分佈的次數或相對次數

  28. 直方圖(Histogram) • 用來描述離散或連續型的資料分佈 • 可以觀察資料的分佈狀況與集中趨勢 高度代表組別分佈的次數或相對次數,寬度代表組距 資料是否對稱?左偏?右偏?

  29. 散佈圖(scatter plot) • 描述兩個不同的連續資料的關係 肺活量與FEV的關係?

  30. 盒型圖(box plot) • 利用樣本產生之統計量(最小值minimum、第一四分位數first quartile、中位數median、第三四分位數third quartile、最大值maximum)來描繪資料的分佈。 • 第一四分位數(25%分位數):數值高於或等於全部觀察值的25%,低於或等於全部觀察值的75% • 中位數(50%分位數):位於資料50%的數值 • 第三四分位數(75%分位數):數值高於或等於全部觀察值的25%,低於或等於全部觀察值的75%

  31. 四分位數(Quartiles) • 25th百分位數 (之前的資料個數大約有25%的資料總個數&之後個數75%): • 例:100/4=25  (第25名+第26名)/2;第25名 • 例:50/4=12.5  (第12名+第13名)/2; • 例:67/4=16.75  (第16名+第17名)/2; • 50th百分位數 (前後各約二分之一的個數): • 例:100/2=50  (第50名+第51名)/2;第50名 • 例:50/2=25  (第25名+第26名)/2;第25名 • 例:67/2=33.5  (第33名+第34名)/2; • 例:40/2=20  (第20名+第21名)/2;第20名

  32. 四分位數(Quartiles) • 75th百分位數 (前約四分之三、後約四分之一的個數): • 例:100/4*3=75  (第75名+第76名)/2;第75名 • 例:50/4*3=37.5  (第37名+第38名)/2; • 例:67/4*3=50.25  (第50名+第51名)/2; • 例:40/4*3=30  (第30名+第31名)/2;第30名 • 四分位距(Inter-quartile range, IQR):第三四分位數減第一四分位數

  33. Smallest data point not below inner fence Largest data point not exceeding inner fence Suspected outlier Outlier o * X X Q1 Median Q3 Inner Fence Outer Fence Inner Fence Outer Fence Q1-1.5(IQR) Q3+1.5(IQR) Interquartile Range Q1-3(IQR) Q3+3(IQR) Box Plot Elements of a Box Plot

  34. 統計圖 這裡可以選要畫的圖形

  35. 練習 • 請計算data2中居住地區之次數分配表 • 請data2中畫出身高與體重之散布圖

  36. 資料摘要(data summary) • 利用數字描述資料作量的描述 • 測量資料的集中趨勢 (measure of central tendency) • 平均值(mean)、中位數(median)、眾數(mode) • 測量資料的變異情況 (measure of dispersion) • 全距(range)、四分位距(IQR)、變異數(variance)和標準差(standard deviation)

  37. 資料摘要(data summary)

  38. 練習 • 請計算data2中體重之平均數、標準差、中位數、第一四分位數及第三四分位數

More Related