2007 겨울 통계강좌 중급과정

2007 겨울 통계강좌 중급과정 제11강 요인분석의 실전

요인분석의 실제 1 ▣ 목표 : 직무 만족 척도의 개발 : factor.sav 파일 open ▣ 1969년 Smith 등이 개발한 직무기술척도(JDI) 활용 편의상 21개 문항 추출 후 5점 척도로 사용 -> 직무기술척도(JDI)는 ‘직무자체’, ‘상사’, ‘동료’, ‘승진’, ‘임금’ 등 다섯 개의 하위척도로 구성=> 21개 문항이 직장생활에서의 만족에 얼마나 중요한지 측정 ▣ 탐색적 요인분석 방법이기에 분석방법을 설명하는 것은 1) 아이겐값을 기준으로 요인을 추출하는 방법, 2) 연구자가 요인의 수를 정해주는 방법 ▣ 주의할 점 : 상기 두 가지의 요인추출방식과 어떤 요인추출모델을 사용하는가와 요인회전에 따라 요인분석의 결과가 달라지기에 주의해야 한다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ① ``````1) 아래 옵션 선택 후 분석 실행 : ① descriptive : 통계치 선택 ② extraction : 요인추출방법 선택 ③ rotation : 요인 회전방법 선택 ④ scores : 변수에 대한 회전 후 저장 방법 선택 ⑤ option : 미싱밸류 및 디스플레이 포맷 결정 syntax : FACTOR /VARIABLES a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a17 a18 a19 a20 a21 /MISSING LISTWISE /ANALYSIS a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a17 a18 a19 a20 a21 /PRINT UNIVARIATE INITIAL CORRELATION SIG DET KMO REPRAIC EXTRACTION ROTATION /PLOT EIGEN ROTATION /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION .

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ② 2) 옵션 선택에 따른 요인 추출 결과 도출 : ① corelation matrix(1-tailed) : ② KMO 지수 및 Bartlett 구형성 검증 결과 도출 : ③ Anti-image correlation matrix : ④ communality & Total varience explaned : : ⑤ scree plot : ⑥ component matrix : ⑦ reproduced correlations : ⑧ rotated component matrix : ⑨ component transformation matrix : ⑩ component plot in rotated space :

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ③ 2) 옵션 선택에 따른 요인 추출 결과 도출 : ① corelation matrix(1-tailed) : 변인간 상관행렬이 적당한 크기를 가져야 요인분석이 가능. 따라서 상관행렬의 계수 중 절반이상이 +/-3.0을 넘어야 한다는 대략적 기준 만족 치 않음. ② KMO지수 및 Bartlett 구형성 검증 결과 도출 : <KMO = .736 / Bartlett = 643.883(p<.000) > - KMO지수는 단순상관계수와 부분상관계수의 크기를 비교하여 표본의 적절성을 측정하는 지수로 KMO지수 값이 1에 가까울 수록 표본의 상관이 요인분석하기에 적합하다(0.9이상이면 매우 좋고, 0.8정도면 양호, 0.6이나 0.7정도면 보통이며, 0.5 이하면 부적절하다고 판단) - Bartlett 구형성 검증도 상관행렬의 적절성을 평가하는 매우 엄격한 방법으로, 이는 변인들간의 상관이 0인지를 검증하기 때문에 자료가 적절한 상관을 가지고 있는지를 평가하는 준거가 된다. 따라서 구형성 검증의 통계치가 크고 그에 따른 유의수준이 작으면(p<.05) 상관행렬이 0이 아니라는 것을 말하므로 자료의 상관이 요인분석될 만큼 적절한 수준이라 판단한다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ④ ③ Anti-image correlation matrix :대각선을 중심으로 값 본다 - 한편 개별 변인에 대한 표본의 적절성은 MSA라는 값으로 반영상관행렬의 대각선에 채워진 값들로 좋은 요인분석이 되려면 이 MSA값들이 전체적으 로 커야 한다. 즉, 요인이 제대로 추출되지 않거나 타당한 요인구조로 묶이 지 않는다면 아마도 이 반영상관행렬의 값이 작기 때문일 수 있다. - 따라서 반영상관행렬의 대각선 값인 개별 변인의 MSA가 작다면 이 값을 나타내는 변인들을 제외하고 요인분석 하는 것이 적절하다. ④ communality & Total varience explaned : 주성분분석방법으로 최초의 요인의 산출 결과 - PCA 방식(주성분분석)이기에 투입된 변인의 수와 같다. 그리고 커뮤넬러티가 모두 동일하게 1임을 주목하라. 즉, 모든 변인의 변량이 1.0이기에 전체변량은 21이 된다. 즉 전체 변량 가운데 첫 번째 요인은 23%의 설명력을 가지고(아이겐값 4.83/변인수 21=23.0) 두 번째 요인은 전체변량의 10.3%를 설명한다(2.16/21=10.3). - 여기서 개별 요인의 변량비율이 아이겐값 1.0이상인 요인은 6개로 나타났다. 따라서 대략적인 요인의 추출은 6개정도 된다고 연구자는 1차 판단한다. - 다만 아이겐 값 1.0 기준으로 추출 판단시 6번과 7번 요인을 보라, 실제 차이는 거의 없기에 연구자 입장에서 애매한 판단일 수도 있다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ⑤ ⑤ scree plot : - 스크리 검사에 대한 명확한 준거 기준은 없으나 변인들을 연결하는 선이 급경사를 이루면 각 성분(component)이 하나의 요인이 된다고 판단 할 수 있다. 여기서는 세 군데가 있어 요인구조가 대략 네 개로 구성되고 있구나 판단 할 수 있다. - 다만 스크리 검사는 요인추출에 대한 통찰만 제시해 줄 뿐 요인 추출에는 반영되지 않는다. 즉, 연구자가 요인분석에 앞서 요인의 수를 지정해 주는 방식을 취할 때 매우 중요한 정보를 제공해 주는 방법일 뿐이다. ☎ 요인분석에서는 요인을 추출하는 준거가 되는 것으로 두 가지가 있다 (중요하므로 잊지 말아야 함) 1) 아이겐 값을 이용한다(1.0기준) 2) 연구자가 배경이론을 통해 요인의 수를 지정한다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ⑥ ⑥ component matrix : 교재 296p. ⑦번 factor matrix 와 동일 - 아이겐 값 1.0을 기준으로 여섯 개의 요인 산출, 요인행렬에 요인 부하량 (factor loading)이 채워져 있다. 요인 부하량은 각 변인의 요인에 대한 가중치(요인패턴 이라 함)이며, 요인간 상관이 없다고 가정할 때 요인 부하량은 각 변인과 요인간의 상관관계(요인구조)라 해석한다. - 따라서 요인간의 상관을 가정하지 않았으므로 요인 부하량은 요인구조 행렬이자 요인패턴 행렬이다. - 요인 부하량 값이 크면 클수록 해당 요인과 상관이 높다고 해석 : 요인 1과 A16은 r=0.66 즉, r2=0.4356으로 43.6%의 높은 상관을 가지고 있다고 볼 수 있다. 이런 식으로 6개 요인에 대해 각 개별 변량들이 모두 관련 있음의 정도를 표시한다. - 이 단계의 요인행렬은 최적의 해를 구하기 위한 요인을 회전시키기 전의 상태 이므로 유의미하게 해석 가능한 요인구조가 아니라고 본다. 다만 이 최초의 요인행렬은 커뮤넬러티 추정과 재생상관 행렬을 얻는데 사용한다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ⑦ ※ 한편 ④의 Total varience explaned에는 초기 커뮤넬러티와 추출 커뮤넬러티, 그리고 회전후 커뮤넬러티가 한번에 도출되어 있음이 교재와는 다르다. - 커뮤넬러티는 특수변량과 오차변량을 제외한 공통요인의 변량 이다. 즉, 공통요인을 가정하기에 항상 1.0보다 작아진다. ④ communality에서 초기와 extraction을 보면 알 수 있다. - 따라서 최종통계치(회전 후 커뮤넬러티)에서는 21개의 성분을 대상으로 변인의 설명량을 산출하는 것이 아니라 추출된 6개의 요인에 의해서만 설명되는 변량을 산출하기에 값이 달라진다. - 이 값은 앞서 언급한 대로 component matrix의 요인 부하량 으로 부터 산출해 낸 값이다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ⑧ ⑦ reproduced correlations : 재생상관행렬 - 산출된 최초 요인 부하량을 통해 다시 상관계수를 추정하였다는 의미에서 재생 상관이라 한다. 따라서 반복적인 추출과정을 통해 최적의 요인모델이 산출되면 재생 상관행렬의 잔차가 주어진 자료로부터 최소화되고 보다 정확한 커뮤넬러 티의 추정치를 얻게 되는 것이기에 연구자는 컴퓨터가 계산해 주는 값을 이용 하면 된다. - 최초 요인 부하량에 의해 추정된 상관행렬과 관찰된 변인의 상관에서 추정된 상관을 뺀 잔차, 그리고 추정된 커뮤넬러티(대각선 값 : 커뮤넬러티의 extraction과 정확하게 일치)로 산출된다. - 주목할 것은 요인 부하량으로부터 추정된 재생상관과 관찰변인의 상관간의 차이 를 말하는 잔차의 크기이다. 즉, 잔차는 적을 수록 좋은 모델이다. 왜 그럴까? 추정된 상관과 관찰된 상관간의 차이가 없어 그 만큼 추출된 요인모델이 주어진 자료에 적합함을 의미한다. - 특히 재생상관행렬의 마지막에 절대값 0.05보다 큰 잔차가 전체 잔차 행렬에서 90사례(42.0%)라는 것을 보여주고 있다. 이 비율이 높으면 높을 수록 모델이 적합하지 않는다고 할 수 있는데 대략 50%가 넘지 않으면 양호한 모델이라고 해석한다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ⑨ ⑧ rotated component matrix : 회전 후 요인행렬 -> ⑥ component matrix와 차이를 비교해보라 - 최적의 요인 해를 찾고 유의미하게 해석 가능한 요인패턴을 얻기 위해 요인 축을 회전한 후의 요인 행렬이다. - 실제 요인의 구조를 확정하는 단계로 요인을 해석하는 단계이므로 요인분석 에서 가장 중요한 단계라고 볼 수 있다. - 요인의 회전은 최초의 요인부하들로부터 명확히 설명되지 않는 요인을 단순구조(simple structure)로 전환하는 목적을 가지고 있다. 이렇게 하는 이유는 단순구조로 회전 시 각 문항(변인)들은 한 요인에만 높게 부하되고 다른 요인에는 상대적으로 낮게 부하되어 ‘요인적으로 순수한’ 요인구조를 갖는다. 이처럼 요인이 단순구조가 되면 최초의 요인부하로 설명되지 않던 요인구조가 유의미하게 해석 가능하게 되고 요인의 유용성이 개선되는 효과를 볼 수 있다.

요인분석의 실제 2 : 아이겐값을 기준으로 요인추출 ⑩ ⑨ component transformation matrix : 변형행렬은 회전후의 요인 부하량행렬을 구하기 위해 높은 요인 부하량은 더욱 높게 만들고 낮은 요인 부하량은더욱 낮게 만드는 과정에서 얻어지는 행렬이다. ⑩ component plot in rotated space : 회전된 요인에 의해 각 문항들이 어덯게 공간상에 위치하는 지를 보여주는 플랏. 다만 요인수가 세 개 이상이 될 경우 공간상에 표현하기 곤란해지므로 유용성이 제한된다. (두 개일 경우는 문항들이 공간상에서 어떻게 요인에 부하되는지를 파악하는데 유용한 도구) 여기까지가 1차적 분석 끝남 : 여기서 부적절한 문항(변인)을 제외하고 추가적인 요인분석 재실시

요인분석의 실제 3 : 변수문항을 제외하고 요인추출 재실행 ▣ 요인모델 수정 전략 : 연구자의 주관적 판단이다. 따라서 주의할 부분 한 두 개 문항으로 정의된 요인이나 여러 요인에 높게 부하된 문항들은 요인적으로 순수하지 못하기에 이들 문항을 제거한다. 이때 각 변인의 커뮤넬러티 값을 함께 고려한다. -> ⑨ component transformation matrix :에서 A7은 요인 6에 부하되면서도 요인 2에도 비슷한 값으로 높게 부하된다. A7의 커뮤넬러티는 0.454로 다른 문항에 비해 다소 낮은 편이기도 하다. => A7을 제외한 상황에서도 전체적인 설명변량이 유지되면서 보다 나은 요인 구조를 보인다면 A7을 제외한 요인구조가 더 타당하다고 보아야 한다. => 그 결과 요인은 5개로 산출된다. 이때 전체 설명변량은 59.2%로 원래의 62.5%에 비해 -3.3% 감소했다. 특히 함께 요인 6에 묶였던 A2가 요인3에 부하 되었다.(묶였다) => 그러나 A7만 제외한 모델은 그다지 만족스럽지 못하다. 요인모델의 설명력이 3.3% 감소하고, 여전히 A13은 요인 1과 요인 5에 높게 부하되어 있고, 요인 3으로 옮겨간 A2도 요인3과 4에 높게 부하되어 있다. 이때 A2의 커뮤넬러티는 0.359이며, A13은 0.448이다. => 따라서 한 번 더 A2와 A13을 제외한 요인분석을 실시해 본다. => 결과해석

2007 겨울 통계강좌 중급과정

2007 겨울 통계강좌 중급과정

Presentation Transcript