如何建立檔案

如何建立檔案 中國醫藥大學公衛系梁文敏副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

如何建立檔案 • 從資料庫的觀點*** 資料分析第一階段建檔 • 從表格的觀點資料分析最後階段呈現結果

建檔方式--- 範例 • 三個人測量兩密閉室(甲,乙)的溫度 x x 或

如何建立檔案 1. 確立變項 2. 對變項命名及變項命名原則 3. 以“欄(Column)”為單位，建立每一個變項 4. 以“列(Row)”為單位，建立每一筆資料(Record) 5. 保持原始資料的單純性及可擴充性

1.確立變項 • 每一個變項(Variable)代表一種訊息(Information) • 例如密閉室溫度範例中的訊息包括：室別(甲,乙) 、溫度(攝氏) 、個案代號(可表示該溫度是誰測量的) ，故共有三個變項 • 變項命名： (補充:變項命名原則) 室別、溫度、個案代號

2.對變項命名 • 中文命名 (正確: 室別、溫度、個案代號) (錯誤: 室別-1、2溫度、@個案代號) • 英文命名 (正確: roomname、temp、 subj_id) (錯誤: 2room、temperature、 subject-id)

2.對變項命名--變項命名原則 • 中文命名 • 第一個字母不為特殊字元或數字，如：#2人口_男(錯誤) • 名稱中不要放入特殊符號，如：人口-male2(錯誤) • 名稱不要超過4個中文字，如：人口數男生_2(錯誤) ** 正確名稱：人口_男2 或人口_m2 或人口男_2 • 英文命名 • 第一個字母不為特殊字元或數字，如：2pop_m(錯誤) • 名稱中不要放入特殊符號，如：pop&m-2(錯誤) • 名稱不要超過8個英文字，如：popmale_2(錯誤) ** 正確名稱：pop_m2 或 pop_m_2 或 popmale2

3. 以“欄(Column)”為單位，建立每一個變項---- 在第一欄建立變項名稱一個EXCEL檔可開多個工作表將原始資料檔單獨放在一個工作表中

4. 以“列(Row)”為單位，建立每一筆資料(Record, Observation)----- 共6筆資料按滑鼠右鍵重新命名將工作表重新命名為: 原始資料

5. 保持原始資料的單純性及可擴充性---單純性: 若要處理.把資料依需要貼在其他工作表上插入工作表重新命名

5. 保持原始資料的單純性及可擴充性----可擴充性: 4個變項、9筆資料原始資料增加為 4個變項、9筆資料

變數類型及分布

變數, 變項（Variable）(相對於常數，Constant)及變數名稱(Variable Name) • 資料依不同的人，而有不同的數值或特性，故稱為變數，例如抽取5個學生，有男有女，有高有矮，資料會隨著樣本不同而變化，故稱為變數； • 每種變數的代號稱為變數名稱(Variable Name)或變數，例如：性別、身高為變數名稱或變數。

隨機變數(Random Variable) • 搜集資料時，若決定抽取n個樣本，則資料會隨著抽取樣本不同而不同，例如抽取坐在前排的5個女生的身高，會與抽取坐在後排的5個女生的身高不同。 • 在做決定抽取何者為樣本時，若沒有預設立場，完全隨機會(by chance)決定，該資料稱為隨機變數。

變數類型（Variable Type） • 類別變數（Nominal variable）：將資料分門別類，各類資料之間沒有程度或次序性的b. 關係，且為彼此互斥的，屬定性的測量。 • 例如: 性別(男、女)，血型(A, B, O, AB, other)，抽煙與否(抽煙、不抽煙)。若該變數只分為兩類稱為二分法類別變數(Dichotomous Variable)。

變數類型（Variable Type） • 序位變數（Ordinal Variable）：和類別尺度一樣，將資料分類且為彼此互斥的，但彼此之間有程度上的差異。 • 例如癌症病人病況分期(I、II、III、IV期)，抽煙程度狀況(未抽煙、曾抽煙但已戒煙、少於1包/每日、1包以上/每日)，病人對醫生問診態度的滿意度(非常滿意、滿意、普通、不滿意、非常不滿意)。 • 各類之間不一定有倍數或距離的關係，是屬於半定量的測量，例如：癌症IV期病人的病況並非癌症II期病人的病況的兩倍。

變數類型（Variable Type） • 等距變數(Interval Variable) ：每個單位都是一樣大小，且測量值可以完全表現出程度的大小，屬定量的測量。 • 例如年齡，身高，體重，氣溫，每分鐘心跳的次數，每天抽煙的支數。等距尺度不一定具有絕對的零點。其中有些零點是人為決定的。 • 例如氣溫，華氏與攝氏溫度的零點，是人為決定的，並沒有絕對的零點的存在。攝氏30.7度到28.7度的距離與攝氏16.7度到14.7度的距離相等，但我們不能描述攝氏30度(華氏86度)是攝氏15度(華氏59度)的兩倍，因為若以華氏則不到兩倍(86/59=1.46)。所以氣溫的尺度是一種等距尺度，但不是一種等比尺度。

變數類型（Variable Type） • 等比變數(Ratio Variable)：若等距尺度中具有絕對的零點，稱為等比尺度。可以用來計算倍數或比率。 • 例如：年齡，身高，體重，每分鐘心跳的次數，每天抽煙的支數。我們可以描述新生兒體重9磅(4082公克，1 磅=453.592公克)是6磅(2722公克)的1.5倍，若換算為公克測量則亦為1.5倍(4082/2722=1.5)。所以體重的尺度是一種等距尺度，也是一種等比尺度。

變數分佈 (Distribution) 分佈概論: 何謂分佈(Distribution)? 在統計思維中，分佈係指針對某一我們感興趣的變數(Variable)。將其搜集到的值(Observation)以有系統的方式加以整理並呈現出來。可以長條圖(Bar Charts): categorical data 或直方圖(Histograms): continuous data 表示

例1：不連續變數(類別或序位)的分佈：2560位AIDS病人中，Kaposis sacoma 疾病狀態的分佈情形, 以Bar Charts表示。相對次數=次數/總次數排序

例2：連續變數(等距或等比)的分佈：新生兒體重的分佈，將資料分組，以直方圖(Histogram)表示。 相對次數=次數/總次數

樣本平均數 • 【樣本平均數 (Sample Mean, Arithmetic Mean) 】 • 兩密閉室(甲,乙)的溫度的集中趨勢

樣本變異數與樣本標準差 • 【樣本變異數(Sample Variance) (s2)，樣本標準差(Sample Standard Deviation) (s)】 • 兩密閉室(甲,乙)的溫度的分散趨勢

許多變項的分佈服從常態分佈 常態分佈圖形隨平均數及標準差不同而不同平均數=10 標準差=1.5 平均數=20 標準差=4

範例：AV為臨床指標 • 若無腫瘤患者AV值的分佈為常態分佈X~N(10,1.52) 理論上可得到有68％的機率落在(8.5,11.5)中間可得到有95％的機率落在(7,13)中間可得到有99％的機率落在(5.5,14.5)中間 68%

68% 若有　無腫瘤患者AV值的分佈為常態分佈X~N(20,42) • 任何常態資料若經標準化，理論上可得到有68％的機率落在(16,24)中間可得到有95％的機率落在(12,28)中間可得到有99％的機率落在(8,32)中間＊＊＊　由平均值及標準差可知兩族群人AV值的分佈,進而….

Thanks for your attention~

如何建立檔案

如何建立檔案

Presentation Transcript