본문 바로가기
Study/통계 공부 + R

기초통계. 이변량 통계2: 변인 유형에 따른 상관 분석

by PhD_Ming 2020. 12. 4.
300x250

피어슨 상관 (Pearson Correlation)

저번에 상관분석에 대해 알아보았다. 저번에 알아본 상관 분석 유형은 Pearson correlation이라 할 수 있다. 피어슨 상관분석은 상관을 구하고자 하는 변인이 모두 동간척도나 비율척도를 이용한 연속변인일 때 사용한다. 즉, 연구자들이 가장 많이 사용하는 상관분석이라고 생각할 수 있다. 저번에 살펴본 상관식을 좀만 변형시키면 다음과 같은 식이 된다. 

피어슨은 저번에 깊게 알아봤으니 이제 다른 유형의 상관분석을 살펴보기로 하자. 

 

양류상관(Point Biserial Correlation)

양분상관은 이진변수(binary variable) 혹은 이분변수(dichotomous variable)와 연속변수 간의 상관을 구할 때 사용된다. 이진변수/이분변수는 성별(남/녀), 결혼여부(유/무) 등과 같이 두개의 값만을 취하는 변수이다. 양류상관계수는 수학적으로 피어슨과 동일하다고 할 수 있다.

스피어맨의 등위상관(Spearman's rank correlation; Spearman's rho)

등위상관은 서열변인(ordinal variable; 서열척도로 측정된 변인)간의 상관을 구할 때 사용된다. 즉 두 변인 모두 서열척도인 경우에 사용되는 상관이다. 두 변인이 유사할수록 상관 강도는 강해진다. 등위상관은 피어슨 상관과는 달리 선형성을 강조하지 않으며, 두 변인이 유사한 서열을 가지면 상관의 강도가 세질 것이다. 예를 들어 수학 성적과 과학 성적의 순위가 비슷하고, 수학성적과 그림성적의 순위가 많이 다르다고 했을 경우 수학 성적과 과학 성적의 순위에 대한 상관이 더 강할 것이다. 

성적은 연속변수인데요? 성적 그 자체만의 상관을 구할 경우(수학 성적과 과학성적의 상관) 피어슨 상관을 사용할 수 있다. 그러나 성적의 순위에 대한 상관을 구하는 경우 스피어맨의 등위상관(혹은 아래 켄달의 등위상관)을 사용한다. 서열변수로 사용하는 것에 비해 연속변수로 점수를 사용할 때 변산성이 낮다면, 서열변수로 상관을 구하는 방법을 사용할 수 있다.

켄달의 등위상관(kendall's tau (𝜏)

 

켄달의 등위상관 역시 서열 변인간의 상관과 강도를 측정할 때 사용된다. 스피어맨의 등위상관과의 차이는 무엇일까? 스피어맨과 캔달의 등위상관은 서열을 매기는 방식에 차이가 있다. 스피어맨이 각 변인에 대한 서열 값 간의 상관을 구한다면, 켄달은 두 변인 간의 서열이 일치하는지 일치하지 않는지에 대한 상관을 구한다 (아래 그림 참조). 따라서 켄달의 등위상관은 최소한의 상관값을 제공해주며, 스피어맨보다 값이 낮게 나오는 경향이 있다. 두 상관의 방향성은 일반적으로 유사하게 나온다. 켄달보다 스피어맨의 등위상관이 더 널리 사용된다.

A변인과 B변인의 서열을 구한 후 그에 대한 서열 랭킹을 대하는 방식의 차이

 

파이 상관계수 (Phi coefficient) vs 크래머 브이 계수(Cramer’s V)

 

파이 상관계수는 이진변수(binary variable) 혹은 이분변수(dichotomous variable)간의 상관을 구할때 사용한다. 반면에 크래머 브이 계수는 두 명명척도 변인 간의 상관을 구할 때 사용된다. 둘 간의 차이라면, 두 변인이 모두 이분변수일 경우 파이상관계수와 크래머브이계수를 모두 사용할 수 있고 둘은 동일하지만, 적어도 하나의 변인이 세가지 수준을 가진다면(e.g., 인종: 흑인, 백인, 아시안) 크래머 브이계수를 사용하여야 한다.

 

반응형

댓글