본문 바로가기
Study/통계 공부 + R

범주화하기: 로지스틱 회귀, r 통계 분석

by PhD_Ming 2021. 1. 1.
300x250

로지스틱 회귀(Logistic Regression)란

로지스틱 회귀란 한 변인 내 점수들을 기반으로 두 개의 범주 (이분 변인) 중 하나로 예측할 때 사용되는 통계 기법이다. 즉 종속변인이 이분변수일 경우 사용되는 회귀분석이라고 생각하면 쉽다. 다른 회귀분석처럼 로지스틱 회귀도 "예측적(predictive)" 분석기법이며, 독립변수와 종속변수 간의 관계를 설명해주는 분석기법이라 할 수 있다. 이 때 독립변수는 하나 이상의 명목, 서열, 동간, 비율 척도로 이루어진다. 

이 때 중요한 점은 선형회귀에서는 종속 변수의 예측된 값이 독립변수들의 조합을 기반으로 한다는 점이다. 즉, 독립변수 x의 함수를 통해 조건 확률 Pr(Y = 1|X = x)을 모형화하여야 한다. 이 때 여러 알려지지 않은 변수들은 최대우도법을 통해 추정되어야 한다. 

p(x)가 x의 선형함수가 되게 해보자. 이때 x가 증가 혹은 감소함에 따라 그만큼 확률도 변화하게 되는데, 이 때의 문제는 p가 0과 1 사이어야 하며, 선형 함수로 제한되지 않는다. 또 p가 변화함에 따라 같은 양만큼의 x도 변화되어야 하는데, p가 1/2에서 가까울 때보다 멀리 있는 경우 더 큰 변화가 나타난다. 따라서 이 방식은 선형 모형을 사용할 수 없다.  

따라서 통계학자들은 log를 사용하여 log p(x)가 x의 선형함수가 되는 방식을 사용하였는데, 이는 p가 변화함에 따라 고정된 양만큼 x도 변화할 수 있게 해주었다. 하지만 로그는 하나의 방향으로만 무한대로 나타나기 때문에 양방향으로 무한대로 나타나는 선형 회귀를 그대로 사용할 수 없었다. 따라서 통계학자들은 log 1-p를 함께 사용하게 되었다. 

즉, 로지스틱 회귀에서는 종속변수의 승산비 (Odds ratio; 교차비, 오즈비라고도 함)가 예측변수들의 값의 조합에 사용된다. 여기서 승산비란 어떤 한 범주에 속할 확률 vs 어떤 한 범주에 속하지 않을 확률을 의미하며 다음과 같이 표현된다. 

Odds = p/(1-p)

예를 들어, 어떤 학생이 성균관대학교 학생일 확률을 12/14라고 했을 때, 성균관대학교 학생이 아닐 확률은 2/14가 된다. 즉, odds ratio 값은 (12/14)/(2/14)=6.12가 될 것이다.

이 때 단순 선형 회귀분석을 사용하기 위해서 확률을 -∞부터 ∞까지의 범위로 이루어진 연속척도(continuous scale)로 변환시켜주어야 하는데, 이를 위해 로그를 사용한다: log(odds ratio). 

log p(x)/{1-p(x)} = a + bx

대충 이정도로만 설명하고 실제로 로지스틱 회귀분석을 돌려보기로 하자.

로지스틱 회귀분석 in R

child2.csv
0.07MB

위 데이타를 사용하여, 부모 삶의 만족도, 학생의 학업 효능감, 학생의 삶의 만족도를 이용해 여성인지 남성인지에 대한 승산비를 측정하기로 해보자.

아래와 같이 먼저 데이타 클리닝을 해준다 (이전에 올린 R 포스팅에 더 자세한 내용이 포함되어 있어요). 

종속변수가 0과 1로 코딩되어야만 통계가 돌아가기 때문에 gender 변인도 점수를 변환해준다. 역문항 척도 점수 변환하는 방법에서 생각해보면 금방 쉽게 점수를 변환할 수 있다.

이제 데이타 클리닝이 정말로 끝났다. 로지스틱 회귀를 돌려보기로 하자.

x <- glm(dependent ~ independent1 + independent2 + ..., data = data, family = "binominal") 코드를 사용하면 되는데, 우리는 종속변인이 gender고, 독립 변인이 부모 삶의 만족도, 학업 효능감, 학생 삶의 만족도이므로 다음과 같이 사용할 수 있다. 

ch.glm <- glm(gender~parsatisf + acaefficacy + stusatisf, data=child_data, family="binominal")

summary(ch.glm)을 사용해 값을 구해보면 다음과 같은 결과값을 얻을 수 있다. 

 각각의 예측값에 대한 승산비를 얻기 위해서는 exp(coef(ch.glm))을 사용하면 된다. 이를 돌리면 다음과 같은 값을 구할 수 있다. 

 

로지스틱 회귀분석 표

APA에 따라 로지스틱 회귀분석 표를 그려보면 다음과 같이 표현할 수 있다.

세 개의 예측변인 중 학업 효능감만 유의미한 값이 나온 걸 볼 수 있다. 남자가 0, 여자가 1로 코딩되었다 했을 때, 여학생들이 남학생보다 0.62배 더 학업 효능감이 높은 경향이 있다 라고 해석할 수 있다. 

반응형

댓글