회귀분석(regression analysis)
회귀분석이란, 독립변인이 종속변인을 얼마나 잘 예측하는지를 분석하는 통계적 기법이다. 예를 들어 키를 통해 몸무게를 유추한다고 했을 때 몸무게를 얼마나 잘 예측해주는지 등을 알아볼 때 사용할 수 있다. 회귀는 완전히 상관에 기반한 통계적 기법이다. 상관과의 차이라면, 상관은 두 변인 간의 관계를 묘사한다고 했을 때 회귀는 한 변인을 통해 다른 변인의 값을 예측해준다는 점에서 차이가 있다.
저번 글에서 독립변인은 다른 변인에 영향을 주는 변인, 종속변인은 다른 변인의 영향을 받는 변인임을 배웠다. 회귀분석에서 역시 독립변인, 종속변인이라는 용어를 사용하지만, 예측을 해준다는 점에서 예측변인(predictor variable = 독립변인), 준거변인(criterion variable = 종속변인)의 용어를 사용하기도 한다. 키를 통해 몸무게를 예측한다고 했을 때 예측변인은 키가 되고 준거변인은 몸무게가 될 것이다.
단순 선형 회귀(Simple linear Regression)
단순 선형 회귀 분석이란, 하나의 독립변인을 통해 종속변인을 예측하기 위한 통계적 기법이다. "선형"이라는 용어는 상관분석에도 본 바가 있다. 회귀는 상관을 기반으로 한다고 했다. 그러므로 다시 상관에서 본 그래프를 가져와보자.
상관은 점들이 얼마나 선에 가깝게 찍혀있는지를 의미한다고 했다. 위 그래프에서 선은 뭘까? 저 선은 점들을 가장 잘 대표해주는 선이라고 하였다. 이 선은 우리가 학창시절에 배운 유사한 개념을 떠올리게 한다. 바로 일차방정식! y=ax+b가 기억이 날 것이다. 우리는 a와 b의 값을 구하면 x변인을 통해 y변인의 값을 구할 수 있는 것이다. 다시 강조하면, 회귀분석은 x 변인의 값을 통해 y 변인의 값을 예측하기 위한 통계적 분석이다. 그럼 a와 b 값은 어떻게 구할 수 있을까? 티스토리가 수식을 지원해주지 않기 때문에 수기로 설명하도록 하겠다.
식을 어떤 원리로 구하는지 배웠으니 다시 단순선형회귀의 식으로 돌아와보자.
- 기울기 a는 무엇을 의미할까? x가 한단위 변화할 때마다 y는 a의 만큼 변화함을 의미한다 (a가 음수인 경우 감소, 양수인 경우 증가).
- 절편 b는 무엇을 의미할까? b는 x의 값이 0인 경우 y 값을 의미한다.
- 우리는 이 회귀선을 이용하여 주어진 특정 x값에 대한 y값을 예측할 수 있다.
실제로 계산은 통계 프로그램이 다 해주므로 기억해야할 점은 우리의 연구문제가 무엇이고 어떤 통계방식을 통해 우리의 연구문제를 분석할 것인지 정확히 알아야 한다는 점이다. R을 통한 회귀분석은 순서대로 차차 올릴 예정.
'Study > 통계 공부 + R' 카테고리의 다른 글
R기초: 데이타 클리닝(양질의 데이타란?, 데이타 일부 삭제하기) (0) | 2020.12.05 |
---|---|
R 기초: 데이타 클리닝(역코딩) (0) | 2020.12.05 |
R기초: 데이타 클리닝 (문자값 수정하기) (0) | 2020.12.04 |
R기초: 데이타클리닝(데이타 확인하기, 범위 확인하기) (0) | 2020.12.04 |
R 기초: 데이타 클리닝(변인 이름 변경, 변인 척도 변경) (0) | 2020.12.04 |
댓글