본문 바로가기
Study/통계 공부 + R

기초통계. 이변량 통계1: 상관분석 기초

by PhD_Ming 2020. 12. 3.
300x250

이변량 통계(bivariate statistics)란 변인이 두개 이상인 경우의 통계 분석을 의미한다. 가장 기본적인 이변량 통계로 상관이 있다. 

 

상관(Correlation)

상관이란, 두개의 양적 변인 간의 관계를 말한다. 우리는 상관분석을 통해 두 변인 간 관계를 측정하고 알아볼 수 있다. 예를 들면 키와 몸무게의 관계, 자존감과 행복감간의 관계, 음식 섭취량과 활동수준 간의 관계 등의 관계를 알아보는 것이 상관이라고 할 수 있다. 저번 글에서 본 바와 같이 명명척도는 크기 비교가 불가능하기 때문에 상관관계를 구하는 것은 불가능하며, 서열척도, 동간척도, 비율척도만 상관분석이 가능하다.  

한 변인의 값이 증가할수록 다른 변인의 값이 어떻게 변화하는지에 따라 정적 상관과 부적 상관으로 나뉠 수 있다. 정적 상관(positive correlation)이란 한 변인의 값이 증가할수록 다른 변인의 값도 증가하는 관계를 의미한다. 키가 클수록 몸무게가 증가한다면 이 둘은 정적 상관을 보인다고 할 수 있다. 부적 상관(negative correlation)이란 한 변인의 값이 증가할수록 다른 변인의 값이 감소하는 관계를 의미한다. 예를 들면 공격성이 증가할수록 친구관계가 안좋게 나타난다면 이 둘은 부적 상관을 보인다고 할 수 있을 것이다. 이렇게 관계가 정적인지 부적인지 나타내 주는 것을 상관관계의 방향성(direction)이라 한고, 정적인 관계는 +, 부적인 관계는 -로 표기한다. 

상관관계의 방향성 외에 우리는 그 관계의 강도(strength) 역시 나타낼 수 있다. 한 변인의 값이 변화할수록 다른 변인의 값이 극도로 변화한다면, 관계의 강도가 강하다(strong)고 할 수 있다. 상관은 -1에서 +1의 값의 범위를 가지며, 두 변인이 아무런 관계가 없으면 (한 변인이 변화하는 데 다른 변인에 아무런 변화가 없다면), 상관값은 0이 된다. 상관값의 절대값이 커질수록 상관의 강도가 강함을 의미한다. 즉 -.25나 .25 모두 같은 강도의 상관을 지니며, 두 상관의 차이는 방향성에만 존재한다. 

상관값은 로 표기하며, 범위를 표시하자면 -1  r  +1 이 된다. 

상관계수(Correlation Coefficient)

x와 y 변인간의 관계를 수식으로 나타내면 다음과 같다: 

너무 복잡해보인다. 하지만 수식을 구체적으로 살펴보면 상관계수의 원리가 어떻게 되는지 알 수 있으므로 같이 살펴보도록 하겠다. (수식이 많아서 워드로 작성하고 캡쳐했다.)

수식을 통해 상관의 원리를 이해할 수 있었다! 상관계수의 특징을 다시 정리하자면 다음과 같다

  • 두 변인간의 관계를 알려줌
  • 방향성과 강도 모두를 알려줌
  • 표준화한 값임

 

상관 그래프와 산포도

산포도(scatterplot): 산포도란 다음과 같은 그래프에서 라인만 뺀 것이다. 즉 모든 데이타를 그래프 상에 해당되는 곳에 점을 찍은 것이 산포도이다. 우리는 산포도를 이용하여 상관의 방향성, 강도, 선형여부를 알아내는 것이 중요하다. 선형상관의 경우 산포도에 표현된 두 변인 간의 관계가 대략적으로 직선으로 보여진다. 선형상관이라면 관계의 방향성(정적 vs 부적)과 강도(strong, moderate, weak)를 살펴볼 수 있다. 비선형상관의 경우 데이타가 U 자로 분포되어 있거나 둥글게 휘어있고 그렇다. 향수를 적게 뿌리면 향이 나지 않을 것이고, 너무 많이 뿌리면 향이 너무 독해질 것이다. 즉, 향수를 뿌린 정도와 타인이 느끼는 매력의 정도는 비선형적인 형태를 띄게 된다. 상관이 없는 경우도 있다. 이는 두 변인간 아무런 조직적 관계가 없음을 의미한다. 즉 하나의 변인이 변해도 다른 변인에 영향을 미치지 않는 관계이다. 

상관 그래프: 위 그림을 보면 산포도를 가장 잘 나타내 주는 하나의 직선이 보이는데, 이를 상관 그래프라 한다. 정적 상관인 경우 선은 오른쪽 위로 올라가는 형태를 보이며, 부적 상관인 경우 선은 오른쪽 아래로 내려가는 형태를 보인다. 정적 상관의 예로는 공부 시간과 학업 성취도 수준을, 부적 상관의 예로는 공격성과 친구와의 관계를 들 수 있다. 상관 그래프에서 산포도의 점들이 얼마나 직선과 가까이 있는지에 따라 상관의 강도가 결정되는데, 직선 가까이에 점들이 존재할수록 강도가 강함을 의미한다.

상관에서 주의할점

상관은 인과관계를 의미하지 않음을 명시해야한다. 공부 시간과 학업성취도 수준을 예로 들면 공부를 많이 해서 학업성취도 수준이 향상되었을 수도 있지만, 학업 성취도가 높아 성취감을 느껴 공부를 더 많이 했을 수도 있다. 아니면 두 변인은 서로 직접적 관련이 없지만 제 3의 변인에 의해 함께 움직이는 것일수도 있다. 무엇이 됐든 상관은 두 변인 간 어떤 것이 원인이되고, 어떤 것이 결과가 되는지 알려주지 않는다. 

* 결정계수(coefficient of determination): 결정 계수는 상관 계수의 제곱이다. 이는 한 변인이 다른 변인에 의해 설명될 수 있는 비율을 의미하며 두 변인간 상관이 r이라면 한 변인은 다른 변인에 의해 r 제곱% 만큼 설명될 수 있다. 

 

다음은 여러 종류의 상관에 대해서 포스팅할 예정이다. 

반응형

댓글