본문 바로가기
Study/통계 공부 + R

SEM 책 정리 (3)상관

by PhD_Ming 2022. 2. 4.
300x250

상관(Correlation)

 

상관계수의 종류

피어슨 상관 계수

  • 유의성 검증, 분산 설명정도, 선형회귀에서의 예측, 신뢰성 추정(검사-재검사, 일치성) 및 타당성에 대한 기반을 제공해줌
  • 측정된 혹은 잠재변수 간의 모델을 결정하고 검증하는 기반을 제공해주기도 함
  • 부분, 편상관은 더 나아가 다른 변수를 통제하면서 특정 두 변수 간 관계 확인을 허용함. 이는 피어슨 상관계수와 비슷하지만, 자유도를 n-2로 사용함. 
  • 피어슨 상관계수가 통계 영역에 주요 영향을 미쳤지만, 다른 상관계수 역시 변인 측정 수준에 따라 나타났음

상관계수의 종류

  • 피어슨의 product-moment: 두 변수는 동간척도
  • 스피어맨의 rank 혹은 켄달의 tau: 두 변수는 서열척도
  • phi, contingency: 두 변수는 명목척도
  • point biserial: 한 변수는 동간, 다른 한 변수는 이분변수
  • gamma, rank biserial: 한 변수는 서열, 다른 변수는 명목
  • biserial: 한 변수는 동간, 한 변수는 이분변수로 재코딩한 변수
  • polyserial: 한 변수는 동간, 또 다른 변수는 연속성에 따른 서열변수
  • tetrachoric: 두 변수가 모두 이분변수
  • polychoric: 두 변수는 연속성에 따른 서열변수

 

상관에 영향을 미치는 요인들

측정 수준 및 값의 범주

구조방정식에서 각각의 척도 유형 변수들을 사용할 수 있지만, 상관행렬에 여러 유형의 척도를 혼합해서 사용하는 것은 추천되지 않음. 초기엔 구조방정식은 동간 혹은 비율척도로 측정된 변수를 사용하는 것을 요구하여 피어슨 상관계수가 회귀, 경로, 요인, 구조방정식에 모두 사용되었음. 동간 및 비율척도 변수는 또한 분산값을 가지기 위해 충분한 범위의 점수를 가져야 했음. 만약 범위가 제한되어있으면 상관 강도가 감소했음. 피험자집단이 동일해질수록 분산은 감소하며 변수간 상관값이 감소함. 변수의 분포가 넓게 다양할때 역시 상관은 영향받을 수 있음. 이런 경우 정규 분포에 더 가까울 수 있게 데이타 변환이 추천됨.

비선형성

피어슨 상관은 두 변수 간 선형관계의 정도를 나타냄. 따라서 곡선관계에 있으면 0의 상관에 있다고 나올수도있음. 따라서 선형 정도가 상관계수에 영향을 미침. 산점도를 사용해 선형성 확인이 필요함. 

결측치

*그 전 포스팅 설명도 참고하기

  • MCAR(Missing completely at random): 완전히 임의적으로 결측치가 발생한 경우; 통계값과 관련 없음 -> 평균대체법은 편향된 분산 및 공분산 추정치를 일으키는 반면, listwise나 pairwise는 일관적 해결을 제공해줄 수 있음
  • MAR(Missing at random): 다른 변수에 따라 그 변수의 결측치가 발생한 경우. 대신 그 변수값과는 상관 없음. -> 평균대체, listwise, pairwise 모두 편향된 결과 제공 가능
  • nonignorable: 결측치에 대한 확률적 정보를 함축하는 경우-> 모든 경우 편향된 결과로 이끌 수 있음. 

이상치

하나의 이상치만으로도 피어슨 상관계수는 극적으로 영향받을 수 있음. 

감쇠(attenuation) 수정

기본적인 심리 측정 이론의 가정은 모든 관찰된 데이타값들은 측정 오류를 지닌다는 것임. 관찰된 값은 진점수와 측정오류를 모두 포함함. 피어슨 상관계수는 이러한 신뢰할 수 없는 측정오류(감쇠)를 고려해 수정하여 진점수 상관을 산출할 수 있음. 

여기서 수정된 상관계수는 1 이상이 될 수도 있는데 독립/종속 변수에서의 낮은 신뢰도와 두 변수간 높은 상관이 합해져 이러한 결과를 일으킬 수 있음. 이 경우, 비양수 유한 오류 메시지가 나타남 

비양수 유한 행렬(nonpositive definite matrices)

상관계수가 1 이상인 경우 상관행렬이 비양수 유한이게 됨. 분산-공분산 행렬에서 역시 1 이상의 계수가 있으면 비양수 유한이게 되어 추정치가 계산될 수 없음. 

표본크기

구조방정식에서 종종 큰 표본 크기를 요구함, 이는 power를 유지하고, 안정적인 모수치 추정과 표준 오류를 얻기 위함임. 또한 큰 표본 사이즈는 잠재변수를 구하기 위한 다중 관찰 변수 사용에 의한 것이기도 함. 

Hoelter는 Critical N statistic을 제시해서 SEM에서 영가설을 기각할 만한 카이스퀘어 값을 얻는 데 필요한 표본크기를 구할 수 있게 함. 

SEM 소프트웨어는 사용자가 특정한 이론적 모델 (i.e. implied model)에 기반한 계수를 추정하는데, saturated model(모든 모수치를 추정)과 independence model(영가설 모델 혹은 아무런 모수치를 추정하지 않는 모델) 역시 처리해야함. p개의 관찰된 값이 있는 saturated model은 p(p+3)/2개의 자유 모수치를 가짐. 만약 표본 크기가 작으면 많은 수의 변수를 가지는 saturated model의 모수치 추정에 정보가 충분하지 못함. 그 결과 카이스퀘어 핏 통계치나, AIC(Akaike's Infomation Criterion), RMSEA(root-mean-square error of approximation) 계산이 안됨. 이에 더해 indepdendence model의 핏은 CFI(Comparative Fit Index), NFI(Normed Fit Index)이 계산되어야 함.

 

이변량, 부분, 및 편상관

  • 이변량 상관(bivariate correlation) 두 변수 간 관계, 상관
  • 편상관(partial correlation; r12.3): 제 3변수의 영향력을 통제한 후의 두 변수간의 관계. 예를 들면 읽기 난이도를 통제한 후 연령과 읽기 이해간의 상관을 구한다고 했을 때, 난이도와 연령간 관계랑 난이도와 읽기 이해 간의 상관을 제거하는 것임.
    • 피어슨 상관보다 크기가 더 작을거고, 만약 더 안작다면 suppressor variable(다른 예측변수와는 관계 있지만, 종속변수와는 거의 0의 관계에 가까운 변수)가 존재할 것. 이 상황에서는 예측변수간의 분산을 통제하는 역할만 할 뿐. 이 때 이 변수가 제거되면 두 예측변수 간의 상관은 증가함
  • 부분상관(part correlation; r1(2.3) or r2(1.3)): 부분상관은 제 3변수를 통제한다고 했을 때, 읽기이해와 난이도 간의 상관만을 제거한 후 연령과 읽기 이해의 상관을 구하는 것임.

편상관/부분상관 사용은 특정 연구 문제/모델에 따름. 

편상관
부분상관

상관 대 공분산

SEM에서 계산을 위해 사용되는 데이타 행렬 유형은 분산-공분산 행렬임. 분산-공분산 행렬은 대각선에 분산, 그리고 그 외의 공분산으로 이루어짐. 만약 상관 행렬이 데이타 인풋 행렬로 사용된다면, 따로 지정하지 않는 이상 대부분의 컴퓨터 프로그램은 표준편차를 사용하여 분산-공분산 행렬으로 바꿀 것임. 연구자는 원자료, 상관 행렬, 혹은 분산-공분산 행렬을 입력할 수 있는 선택권이 있음. 상관행렬은 분석에서 표준화 혹은 비표준화 변수를 사용할 선택권을 제공해줌. 만약 상관 행렬이 평균 행과 표준편차 행과 함께 있다면, 분산-공분산행렬이 비표준화 결과와 함께 사용될 것임. 만약 상관 행렬만 있다면 평균 및 표준편차는 디폴트로 0과 1로 설정되며, 표준화 결과가 나타날 것임. 만약 원자료라면 분산-공분산 행렬이 계산될 것. 

만약 위 사진처럼 분산-공분산 행렬이 X, Y, Z의 세 변수가 있다면, 상관은 다음과 같이 구해짐

즉...! 두 변수의 공분산에 두 변수의 분산의 제곱근을 나누면 상관이 나옴. 

 

변수 행렬 (표준화 대 비표준화)

연구자들은 표준화/비표분화 변수 사용에 대해 논쟁했음. 표준화 계수는 특정 표본에만 적용되고 변수의 변산성 변화 때문에 다른 표본에는 안정적이지 않다고 생각되어온 반면 비표준화 계수는 여러 다른 표본에 대한 변화를 검증가능함, 하지만 표준화 계수는 주어진 표본에서 한 변수에 대한 각각의 다른 변수들의 상대적인 중요성을 결정하는 데 유용함. 표준화 변수를 사용하는 또 다른 이유는 같은 척도에 변수들이 존재하니 해석이 쉽다는 것임.

 

인과 가정 및 한계

피어슨 상관을 사용하는 가정 및 한계가 모두 충족된다 하더라도 인과관계는 여전히 알 수 없음. 인과관계를 추론하기 위해서는 다음과 같은 조건들이 충족되어야 함

  • X가 Y보다 선행되어야 함
  • X와 Y의 공분산 혹은 상관의 존재
  • 다른 원인들 통제

단 조작변수가 사용된 경우, 인과관계를 결정할 수 있기도 함.

 

반응형

'Study > 통계 공부 + R' 카테고리의 다른 글

SEM 구조방정식 (4)  (0) 2022.02.12
SEM 구조방정식 (3)  (0) 2022.02.05
SEM 책 정리 (2)데이타 정리하기  (0) 2022.02.04
SEM 책 정리 (1)구조방정식 소개  (0) 2022.01.28
SEM 구조방정식 (2)  (0) 2022.01.28

댓글