540 likes | 902 Views
기술 통계학 ( Descriptive Statistics ). 수집된 자료를 명료하고 유용하게 정리하는 문제를 다루는 통계학. 이슈 이를 입증하기 위해 자료를 수집하여 분석. 예 : 서강대학교 군 제대 학생 vs . 군 입대 전 남학생의 성적 비교. 군 제대 학생 의 성적 군 입대 전 남학생 성적. 성적 자료 수집. 자료의 형태. 양적 자료 vs. 질적 자료. 양적 자료 : 어떤 것을 세거나 측정하거나 혹은 수학적 계산에 의해 얻어진 자료
E N D
기술 통계학(Descriptive Statistics) 수집된 자료를 명료하고 유용하게 정리하는 문제를 다루는 통계학
이슈 이를 입증하기 위해 자료를 수집하여 분석 예 : 서강대학교 군 제대 학생 vs. 군 입대 전 남학생의 성적 비교 군 제대 학생 의 성적 군 입대 전 남학생 성적 성적 자료 수집
자료의 형태 양적 자료 vs. 질적 자료 양적 자료 : 어떤 것을 세거나 측정하거나 혹은 수학적 계산에 의해 얻어진 자료 예 : 3월 중 자동차 사고 발생 건수(예 X = 5,421건) 질적 자료 : 숫자 대신에 단어로 설명된다. 예 : 자동차 스타일(Y = 대형, 중형, 소형, 경차) 질적 자료도 숫자를 부여하여 나타낸다(coding이라 함) 예 : 대형 = 1, 중형 = 2, 소형 = 3, 경차 = 4
질적 자료와 양적 자료의 예 (1) 통계학 수강생들의 부모의 학력 자료 ? (2) 통계학 수강생들의 정치성향에 대한 자료 ? (3) 통계학 수강생들의 키 자료 ? (4) 통계학 수강생들의 전공 자료 ? (5) 통계학 수강생들의 성적 누계 자료 ? (6) 통계학 수강생들의 성별 자료 ?
횡단면(cross sectional ) 자료 vs. 시계열(time series) 자료 횡단면 자료 (cross sectional data) : 동일 시점의 자료 예 : ’09년도 가구별 소득과 소비지출 자료 시계열 자료 (time series data): 다른 시점에서 측정된 자료 예 : ’60년부터 ’09년까지 가구별 소득과 소비지출 자료
횡단면 자료와 시계열 자료의 예 (1) ‘12년 3월 10일 각 기업의 주식 종가 ? (2) 서강대학교 7,000명 학생의 ’08년 2학기 성적 자료 ? (3) ’12년도 S 은행 지점별 예금실적 ? (4) S 은행 신촌지점의 연도별 예금실적 ? (5) 길동이의 1학년 1학기부터 최근까지의 성적 자료? (6) ’90년 1월 3일부터 ’12년 3월 10일까지 종합주가지수 자료 ? (7) 각 도별 연말 기준 실업률 자료 ?
이산(discrete ) 자료 vs. 연속(continous) 자료 측정 단위가 불연속적인 경우, 그 변수를 이산 변수(discrete variable), 연속적인 경우 연속변수(continuous variable)라고 부른다. - 가족 수, 결혼 여부 등 : 이산변수 - 키, 몸무게 등 : 연속변수
명목(nominal ) 자료 vs. 실질(real) 자료 명목자료 : 물가상승을 고려하지 않은 가격과 소득 자료 예 : ’60년부터 최근까지의 임금 자료 실질자료 : 물가상승을 고려한 가격과 소득 자료 예 : ’60년부터 최근까지의 실질임금 자료 명목자료 실질자료 = X 100 물가 지표
소비자 물가지수 : 2000 년 = 100 기준 2000년 가치로 환산한 실질 소득 : ’65년 실질 소득 (x) : 3.509 : 7,320 = 100 : x x = (7,320/3.509)X100 = 208,606원 ’08년 실질 소득 = (3,490,259/109.7)X100 = 3,181,640원
자료의 수집 • 쉽게 구할 수 있는 자료 http://kosis.kr (통계청 website) - 거의 대부분의 거시경제 자료포함 • 조사(survey)를 통하여 구해야 하는 자료 예를 들어, 대통령 선거 조사, 어느 특정 제품에 대한 선호도 등
조사를 통한 자료수집 • 모집단을 가장 잘 대변할 수 있도록 표본을 수집 • 최종보고서에 들어가야 하는 내용 모집단 규명, 표본추출방법, 표본 수, 조사방법, 설문지(보통 부록) 등
모집단 • 예를 들어, 서강대학교 학생 • 혹은 경제학과 학생 • 혹은 경제 통계학을 수강하는 학생 등 2. 표본 추출법 단순무작위 추출법 (simple random sampling) 층화 표본 추출법 (stratified sampling) 군집 표본 추출법 (clustered sampling)등 앞으로 표본 추출은 단순무작위 추출법에 의해 추출 ; 모든 사건이 표본으로 뽑힐 확률이 같고, 서로 독립이다.
3. 표본의 크기(수) 표본의 크기를 크게 하면 => 신뢰성이 높아지나 비용이 많이 소요 4. 조사 방법 전화조사, 우편조사, 면접조사, 인터넷 조사 등 조사하고자 하는 내용에 따라 선택된다 예를 들어, 여론 조사는 대부분 전화조사 (짧은 기간 실시) 주의: 조사방법에 따라 표본이 모집단을 잘 대변할 수 없을 수도 있다.
5. 설문지 작성시 특히 주의할 점 - 설문지에 조사의 목적, 조사기관, 자료의 이용제한을 명시 - 쉽고 명확한 단어를 이용 - 다항문항인 경우 전체 집합이 되어야 하고, 중복이 되어서는 안됨 - 유도하는 질문이 되어서는 안됨 - 개인적인 프라이버시를 질문할 경우 가능한 설문지 마지막에 삽입
자료의 입력 • 자료를 수집한 다음에는 수집한 자료를 입력 • 대부분의 경우 EXCEL프로그램을 이용하여 입력 EXCEL프로그램 • 자료 입력 후에는 자료를 정리, 요약하여 자료의 특성을 보기 쉽게 표현한다. 그림, 표, 평균, 분산 등
1. 도수분포표와 누적도수표 • 자료의 구조를 이해하기 위해, 관찰한 값들을 알기 쉽게 표로 정리한 것이다. 최초에 얻은 정보의 일부는 분실되지만 관찰대상이 전체적으로 어떠한 양적 구조를 갖고 있는지 한 눈으로 볼 수 있다.
1. 도수분포표 lotto당첨숫자(총 70개) 계급: 각 구간 계급의 수 : 계급의 숫자 계급구간(계급간격) : 계급의 폭 계급 값 : 계급의 중앙값 계급도수: 각 계급에 속하는 관찰단위의 수
계급간격과 계급개수 • 보통 계급의 개수는 6개에서 20사이가 적당. • 제일 큰 값(M)과 제일 작은 값(m)을 결정한 후, 그 차이인 범위(range)를 먼저 구한다. • 범위를 n 으로 나누어 계급간격을 결정한다. 계급간격 = range/n 앞의 예 : range = 45-1=44, 70 = 약 8 => 계급간격 = 44/8 =약 5 => 계급개수 = 9개
2. 기술 통계량 • 많은 경우 주어진 자료의 특성을 하나의 숫자로 표시하여 그 구조를 파악한다. • 중심(center) 혹은 대표값을 표시하기 위해 산술평균, 기하평균, 중앙값(median), 최빈값(mode) 등을 사용한다. • 퍼짐정도(dispersion)를 파악하기 위하여 범위(range), 분산(variance), 표준편차(standard deviation) 등을 이용한다.
대표값 : 평균(mean) 도수분포표를 이용하는 경우 이 경우 평균은
; 원 자료 혹은 ; 도수분포표 여기서 Y는 계급값
평균의 의미 • 히스토그램은 평균을 중심으로 균형이 잡혀있다. 평균
예 : 남자의 평균 점수 = 72점(200명) 여자의 평균 점수 = 84점(100명) 남녀 모두의 평균점수 =
표본평균 : 모집단 N 표본 n 모평균 :
대표값 :기하평균(geometric mean) 혹은 • 거치식 펀드의 첫 해 수익률이 200%, 둘째 해 수익률이 • 800%인 경우 연 평균 투자 수익률은?
기하평균 : ‘율’로 나타낸 변수의 대표값으로 주로 이용 최초의 값과 마지막 값을 각각 ; (n+1)개 자료 각 값들을 대표할 수 있는 값을 찾고자 하는 것임 , . . . , 들의 기하평균을 구하는 것임
대표값 : 메디안(중앙값) 변수의 크기 순으로 놓았을 때 두 집단으로 이등분하는 중앙값 n이 홀수 : (n+1)/2번째의 수 n이 짝수 : n/2번째와 n/2+1번째의 산술평균
대표값 : mode(최빈값) 변수 중에 가장 많이 나타나는 값 Mode = 2 1, 1, 2, 2, 2, 3, 3, 5, 7, 8
퍼짐 dispersion • 대표값은 관찰값의 “퍼진(dispersed)”정도에 대한 정보를 가지고 있지 않다. 평균 = 0 으로 같지만 같은 성질의 자료라고 할 수 없다
분산도: 제곱평균 • 제곱평균은각각의 표본을 제곱하여 평균한 값으로 이차적률(second moment)이라고도 부르며, 표본의 퍼진 정도를 측정하는 기본적인 통계량 중의 하나이다. X 하지만 수준만이 변하였지만 제곱평균 값이 서로 다르다. 이를 보완하기 위해 ‘편차’이용
중앙에서 퍼짐 정도 편차(deivation) = Note : 편차의 합은 항상 영의 값을 갖는다. • 절대편차의 평균(absolute deviation)
분산도: 분산 variance • 분산(variance) ; 모분산 ; 표본분산
표준편차(standard deviation) • 분산의 단위는 단위의 제곱이 되어 해석에 문제가 생긴다. 제곱근을 취하여 단위를 조정하여 준다. 혹은 표준편차도 측정되는 단위의 영향을 받는다. 이를 극복하기 위해 변동계수(coefficient of variation, CV )
기타 분포에 대한 정보 • 집중 정도와 퍼짐 정도 이외에도 대칭 정도를 측정하기 위해 왜도(skewness), 평균값을 중심으로 표본이 얼마나 집중되어 있는지를 보여주는 첨도(kurtosis) 등이 자주 사용된다.
두 개의 자료 • 하나의 자료만을 다룰 경우, 평균과 표준편차는 해당 자료의 기본적인 성질을 잘 설명해 준다. • 2개 이상의 자료를 비교할 경우, 자료간의 상관관계까지도 염두에 두어야 한다. • 다음 슬라이드는 키와 몸무게의 관계를 표시한 그래프(scatter diagram)이다.
공분산(Covariance) • 이러한 자료간의 상관관계를 측정하기 위하여 공분산을 이용한다. • 공분산은, 중앙을 기준으로, 한 변수의 크기가 증가(감소)함에 따라 다른 변수의 크기가 증가하는 경향이 있는지 감소하는 경향이 있는지를 보여준다.
Y Y의 편차 I II 점 관계 I, III 양 Y II, IV 음 III IV X X X의 편차
점들이 주로 I, III 사분면 : 점들이 주로 II, IV 사분면 : 공분산(covariance) ; 모집단의 공분산 ; 표본의 공분산
공분산 > 0 두 변수가 양의 관계 공분산 < 0 두 변수가 음의 관계 Y 공분산 = 0 X 주의 : 공분산=0은 두 변수간에 아무런 관계가 없다는 것이 아니라 양의 관계나 음의 관계가 없는 것을 의미
모집단 공분산 표본 공분산
키를 mm단위로 측정할 경우, 공분산의 값은 10배로 늘어나게 된다. 이러한 이유로 공분산은 두 변수의 관계에 대한 경향성만을 보여준다. 공분산의 단위
상관계수 correlation coefficient • 공분산의 부호는 두 변수가 어떤 관계에 있는지를 보여준다. • 상관관계의 정도를 알기 위해서는 단위를 통일시켜 비교해야 한다. 이를 위해 정규화된 변수들을 비교한다.
상관계수 상관계수는 항상 -1과 1사이의 값을 가지며, 두 변수가 선형관계일 때만 -1이나 1이 된다. 표본의 상관계수 모집단의 상관계수
양의 상관계수 상관계수가 1에 가까운 경우 상관계수가 0에 가까운 경우
음의 상관계수 상관계수가 0에 가까운 경우 상관계수가 -1에 가까운 경우