230 likes | 358 Views
선형통계모형. 아주대학교 산업공학과 대학원. Scatter Plot Matrix. Diagnostics & Remedial Measures. Correlation Matrix. 삼두박근 넓적다리 상완 넓적다리 0.924 0.000 상완 0.458 0.085 0.042 0.723 체지방 0.843 0.878 0.142 0.000 0.000 0.549 셀 내용 : Pearson 상관 계수.
E N D
선형통계모형 아주대학교 산업공학과 대학원
Scatter Plot Matrix Diagnostics& Remedial Measures
Correlation Matrix 삼두박근넓적다리 상완 넓적다리 0.924 0.000 상완 0.458 0.085 0.042 0.723 체지방 0.843 0.878 0.142 0.000 0.000 0.549 셀 내용: Pearson 상관 계수 Diagnostics& Remedial Measures
Three Dimensional Scatter Plot Diagnostics& Remedial Measures
Residual Plot • Normality Test for Residuals • Constancy of Error Variance • Lack of Fit test Diagnostics& Remedial Measures
Multiple Regression 에서적합함 모델 수립 • 적은 수의 독립변수로 이루어진 모델 • ExtraSum of Squares SSTO SSR(X2) SSE(X2) Extra Sum of Squares SSR(X1|X2) SSE(X1,X2)
Decomposition of SSR Extra Sum of Squares
Tests for Regression Coefficients • t-test • F-test 예) FullModel 의 SSE Extra Sum of Squares Reduced Model 의 SSE 검정통계량
Tests for Regression Coefficients Standard Error : 계수의 표준편차 FullModel 의 SSE Reduced Model 의 SSE 검정통계량 T=5.375/0.6638 예측 변수 계수 SE 계수 T P 상수 0.375 4.740 0.08 0.940 crew 5.3750 0.6638 8.10 0.000 bonus 9.250 1.328 6.97 0.001 Extra Sum of Squares
Coefficientof partial determination of Y and X1 when X2 is already in the model cf. conditional probability SSTO SSR(X2) SSE(X2) Coefficientof Partial Determination SSR(X1|X2) SSE(X1,X2)
Non-standardized model 의경우 • round-off error • Lack of comparability of regression coefficients • Standardization • Correlation Transformation Standardized Regression
Model • properties Correlation Transformation
Normal Equations standardized regression coefficients Correlation Transformation
Uncorrelated predictor variables case : 생산성문제에서 • BodyFat 문제 Multicollinearity
Polynomial regression 은 multiplelinear regression 의특수한 case로간주할 수 있다. 그러나 4 차식 이상에서는 multicollinearity 발생가능성아 높다. orthogonalpolynomial • 2 predictor variables-second order • Interaction Effect(교작용) 예) X2 = 3 인경우 E(Y) = 25 + 3.5X1 X2 = 1 인경우 E(Y) = 15 + 2.5X1 PolynomialRegression
사례 : study of innovation in the insurance industry Y : innovation period X1 : size of firm X2 : type of firm = 1 for stock company = 0 for mutual company model : Q) 각 기업형태별로 각각 regression 하는 것보다 유리한 점은? Y Stock company 동일한 에러일 경우 가능하면 각각 하는 것보다 합쳐서 하면 DF(자유도)가 낮아져서 에러율이 적다 Qualitative Predictors mutual company X1
사례 : study of innovation in the insurance industry model : Y Stock company mutual company Qualitative Predictors X1
More than 2 classes 사례) tool wear 를 tool speed 와 tooltype 에따라 회귀분석 만일 tooltype 이 (M1,M2, M3, M4) 로 4가지 type 이 있다면 Y : tool wear X1 : tool speed X2 = 1 if M1 0 o/w X3 = 1 if M2 0 o/w X4 = 1 if M3 0 o/w Qualitative Predictors
앞의경우를 Y : tool wear X1 : tool speed X2 = 0 if M1 1 ifM2 2 if M3 3 if M4 로하여 모델을 로 하는 것은 곤란함. 왜냐하면 이 경우 Qualitative Predictors
사례 : 비누생산라인 (p 330) 산점도:‘회귀선및그룹표시’에서 X=scrap ,Y=line speed이고 범주형에 line을 선택한다 회귀분석에서 저장에 가서 ‘잔차’를 선택한다. Comparison of Two or More Regression Functions
Regression model Y : amount of scrap X1 : line speed X2 = 1 if line 1 0 ifline 2 계산기에 가서 저장할 장소를 지정하고, 식을 'line speed'*'line‘이렇게 작성하고 확인 회귀분석에서 새로 생긴 변수를 포함하여 변수를 지정하고 저장의 잔차를 체크 해제 Ho : b2=b3=0 H1:not H0 예측 변수 계수 SE 계수 T P 상수 7.57 20.87 0.36 0.720 line speed 1.32205 0.09262 14.27 0.000 line 90.39 28.35 3.19 0.004 X1X2 -0.1767 0.1288 -1.37 0.184 S = 20.7512 R-제곱 = 94.5% R-제곱(수정) = 93.7% 분산 분석 출처 DF SS MS F P 회귀 3 169165 56388 130.95 0.000 잔차 오차 23 9904 431 전체 26 179069 출처 DF Seq SS line speed 1 149661 line 1 18694 X1X2 1 810 Comparison of Two or More Regression Functions
회귀 방정식은 scrap = 7.6 + 1.32 line speed + 90.4 line - 0.177 X1X2 예측 변수 계수 SE 계수 T P 상수 7.57 20.87 0.36 0.720 line speed 1.32205 0.09262 14.27 0.000 line 90.39 28.35 3.19 0.004 X1X2 -0.1767 0.1288 -1.37 0.184 S = 20.7512 R-제곱 = 94.5% R-제곱(수정) = 93.7% 분산 분석 출처 DF SS MS F P 회귀 3 169165 56388 130.95 0.000 잔차 오차 23 9904 431 전체 26 179069 출처 DF Seq SS line speed 1 149661 line 1 18694 X1X2 1 810 기초회계-이표본분산-RESI1(표본),LINE(첨자)으로 그리면 아래와 같다 계산기에 가서 저장할 장소를 지정하고, 식을 'line speed'*'line‘이렇게 작성하고 확인 Comparison of Two or More Regression Functions
1. Test for Variance Equity : see text p332 2. Test for identity of regression functions 3. Test for same slopes F분포 : 계산-확률분포에 있음 누적분포함수 F 분포(2 분자 DF, 23 분모 DF) x P( X <= x ) 0.95 0.598600 Comparison of Two or More Regression Functions