본문 바로가기
Study/통계 공부 + R

기초통계: 가설 검정

by PhD_Ming 2020. 12. 21.
300x250

이전에 '기초통계: 기본개념1'에서도 살짝 다루었던 가설 검정에 대해서 더 자세히 이야기해보려고 한다. 가설에 대해서 더 자세히 가기 전에 '연구문제'라는 것이 있다. 연구 문제랑 연구 가설은 무슨 차이가 있을까?

연구문제 VS 연구가설

연구문제(research questions)는 단순히 연구자가 세상에 대하여 궁금해하는 문제인 반면, 연구 가설(research hypothesis)은 학문적인 추측을 바탕으로 한다. 연구문제가 탐구적 연구방법이라고 한다면, 가설은 과학적 연구 방법인 것이다. 일반적으로 연구문제는 질문의 형태를 띄는 반면 연구 가설은 예측하는 형태를 띈다. 연구 가설은 선행 연구의 증거를 기반으로 증거를 따라 제시하여야 한다. 

연구문제의 예시를 살펴보면 다음과 같다.

  • 어떤 요인이 아동의 수학학습을 촉진시킬까?
  • 성차별 경험은 여성의 직업 만족도에 영향을 줄까?
  • 빈곤은 아동의 인지 발달에 어떤 영향을 줄까?

연구가설의 예시를 살펴보면 다음과 같다.

  • 이중 언어 학생의 높은 인지 수준은 높은 수학 학습 수준과 연관 있을 것이다.
  • 성차별 경험이 많을 수록 여성의 직업 만족도는 낮을 것이다.
  • 빈곤할수록 아동의 인지 수준은 낮을 것이다.

처음에 우리는 관심이 가는 주제에 대해 연구문제를 설정한다. 그리고 우리는 이 연구문제에 대하여 대답하기 위해서 모집단으로부터 표본집단을 추출하여 그 표본집단을 연구하고, 모집단에 대한 추론을 한다. 다음 연구문제를 설정하였다고 해보자. 

"대학생들은 정치적으로 진보적일까?"

이제 우리는 대학생들이 정치적으로 어떤 성향을 띄는지 선행 연구를 통해 조사하고, 연구 가설을 세우게 된다.

"대학생들은 정치적으로 진보적이다."

구체적으로 가설 검정을 살펴보도록 하자.

가설 검정(Hypothesis testing)

표본집단을 대상으로 모집단을 추론할 때, 항상 불확실성이 내포되어 있다. 정말 그 표본집단을 통해 모집단의 특성을 잘 알아낼 수 있는지, 아니면 표본집단에서 관찰된 값이 우연에 의해서 일어난 건 아닌지? 이에 따라 우리는 통계를 사용한 가설 검정을 통하여 이 불확실성에 대해 수치화하고, 우리의 추론이 모집단 특성을 잘 나타내는지를 결정하게 된다. 

즉 가설검정이란, 이론 및 데이타에 기반하여 연구를 통해 우리의 가설(추측)을 검정하는 것이라 할 수 있다. 

가설 검정에 대해서는 다음과 같이 네가지 결과가 나올 수 있다. 즉, 모집단 대학생들이 보수적인데 표본집단은 진보적이다, 진보적이지 않다고 결론 내려진 두가지 경우, 모집단 대학생들이 진보적인데 표본집단을 통해 진보적이다, 진보적이지 않다는 결론이 나온 경우. 이때 두가지 경우는 우리의 검정 결과가 현실과는 다른 '오류'가 나타났음을 볼 수 있다 (빨간색 표시)

"대학생들의 정치적 성향" FACT
보수적임 진보적임
가설 검정 결과 "진보적이지 않음" 보수적인데 진보적이지 않다고 결론

(1)진보적인데 진보적이지 않다고 결론

"진보적임" (2)보수적인데 진보적이라고 결론

진보적인데 진보적이라고 결론

이 두가지 오류 중 어떤 것이 더 심각한 오류라고 할 수 있을까? 

다른 예시를 통해 다시 살펴보도록 하자. "어떤 사람이 살해를 했다"가 우리의 가설이다. 그리고 그 결과에 따라 이 사람을 사형에 처한다고 해보자. 

"살해를 했음" FACT
살해하지 않음 살해함
가설 검정 결과 "살해하지 않음" 
(무죄)
살해하지 않았고 살해하지 않았다고 결론

(1)살해했는데 살해하지 않았다고 결론

"살해함"
(유죄)
(2)살해하지 않았는데 살해했다고 결론

살해했는데 살해했다고 결론

범죄자가 빠져나가는 것보다 무죄인 사람을 범죄자로 만들어 사형에 처하게 되는 (2)가 더 심각한 오류라 할 수 있다. 우리는 이 더 심각한 오류를 일종오류(type I error), 덜 심각한 오류를 이종오류(type II error)라고 말한다. 또, 우리가 세운 연구 가설을 대립가설(H1, alternative hypothesis), 그 반대의 가설을 영가설(H0; null hypothesis)이라 하며, 이 영가설은 심각한 오류가 나올 때의 가설의 반대의 가설이라 할 수 있다. 

가설검정 FACT
H0 H1
가설 검정 결과 영가설(H0)  1-α β
type II error
연구가설(H1) α
type I error

= 유의수준(significant level)

1-β
power

추리통계의 오류

일종오류와 이종오류를 더 자세히 알아보자. 

일종오류(type I error)는 영가설이 사실일 때. 영가설을 기각하는 오류로써,  아주 심각한 오류라고 할 수 있다. 집단 간 차이가 없는데 차이가 있다고 하거나, 신약 효과가 없는데 효과가 있다고 결정내리게 되는 오류이다. 이종오류(type II error)는 영가설이 거짓일 때 영가설을 기각하지 않는 오류로, 집단간 차이가 있는데 없다고 하거나, 효과가 있는데 없다고 결정내리게 되는 오류라고 할 수 있다. 우리가 우울감을 줄이기 위한 우울 감소 프로그램을 개발했고, 이 효과가 있는지 검정한다고 생각해보자. 효과가 있는데 없다고 결정내리게 된다면(이종오류), 그냥 효과가 있는 프로그램을 사용하지 못하는 결과만 낳을 뿐이지만, 효과가 없는데 있다고 결정을 내리게 된다면 효과 없는 프로그램을 여기저기서 비용을 들여 사용하는 결과를 낳게 된다. 즉 일종오류는 다시 강조하지만 더 심각한 오류라고 할 수 있다.

이 일종 오류를 범할 확률은 유의수준(significance level)과 같다. 많은 사람들이 연구를 하면서, 통계를 돌리면서도 p값의 의미를 모르는 경우가 종종 있다. p값의 의미는 일종오류를 범할 확률을 나타내준다.

만약 유의수준이 p < .01 수준으로 정해졌다면, 그것은 제일 심각한 오류를 내릴 확률이 1/100 미만임을 의미한다. 즉, 영가설이 사실일 때 영가설을 기각할 확률이 1/100 미만이라는 것이다. 우리는 연구의 심각성에 따라서 유의수준을 결정하는데, 사회과학에서는 일반적으로 .05 미만으로 유의 수준을 결정한다. 하지만 더 심각한 연구인 경우 (예: 신약의 부작용을 연구하는 경우), 일종오류를 범할 확률을 더 줄여 p < .01, p < .001 등의 더욱 더 깐깐한 유의수준을 결정하게 된다.

영가설 VS 대립가설

아래 표는 영가설과 대립가설의 차이를 보여준다. 영가설은 위에서 보았듯이 우연에 의한 결과라는 가설로, "효과가 없다", "차이가 없다" 등의 부정적인 서술 방식을 사용하게 된다. 반면에 대립가설은 통계적으로 "효과가 있다", "차이가 있다" 등 긍정적인 서술방식을 사용하며, 일반적으로 연구자들은 대립가설이 채택되기를 희망한다. 나의 가설이 들어맞기를 희망하고, 이에 따라 논문을 출판하는 등의 활동을 할 수 있기 때문이다. 반면에 이에 대해서 비판적으로 심사하는 사람들은 반대의 경우를 생각하면서 연구를 검토할 것이다. 따라서 심사하는 사람들은 영가설이 맞다는 가정에 입각해 내 연구를 심사하게 되는 것이다. 

영가설 대립가설
순전히 우연에 의한 결과라는 가설
(효과가 없음, 차이가 없음)
통계적으로 효과/차이가 있다는 가설
부정적이고 수동적인 서술 방식을 사용 긍정적이고 적극적인 서술방식을 사용
심사하는 사람들의 바람 연구자들의 바람

가설검정 단계

가설을 검정하기 위한 단계는 다음과 같다.

  1. 나의 연구 가설 세우기
  2. 영가설을 기각할 유의수준 정하기
  3. 통계치 계산하기
  4. 통계치와 유의수준을 비교하기 (신뢰 구간을 설정하여 해석하기)
  5. 영가설에 대해 결정하기

순서대로 자세히 살펴보자.

1. 나의 연구 가설 세우기

다시 위의 예시로 돌아가서 연구문제가 "대학생들은 정치적으로 진보적인가?"라고 해보자, 

영가설은 내가 검정할 가설이다. 보통 집단간 차이가 없다, 아무런 효과가 없다 혹은 변인간 관계가 없다라고 서술되고, 발견된 차이는 우연에 의해 발생했을 뿐임을 의미한다. "대학생들은 정치적으로 진보적이지 않다"

대립가설은 분명한 효과가 있다, 집단간 차이가 있다, 효과가 있다,  변인간 관계가 있다 등으로 서술된다. 우리의 연구가설은 "대학생들은 정치적으로 진보적이다"라고 할 수 있고 이를 대립가설이라고 할 수 있다. 이 때 양방향적(non-directional), 일방향적(directional) 가설을 설정할 수 있는데 이는 나중에 더 자세히 다루도록 하겠고 여기서는 가설 검정 단계에 더 초점을 맞추도록 하겠다. 

2. 영가설을 기각할 유의수준 정하기

유의 수준은 영가설을 검정할 때 일종오류를 범할 확률이라고 했다. 이는 우리가 검정하는 효과가 통계적으로 유의미하다고 결론짓게 하는 수준을 결정하는 것이다. 자료 수집 전 이 유의 수준을 결정해야하며, 사회과학에서는 일반적으로 .05 수준을 사용한다.

α = .5 

참고로, 이 때 표집 분포(sampling distribution)에서 영가설을 기각하는 영역이 시작되는 값을 가설 검정에서의 임계치(critical values)라고 하며, 이 임계치 값을 넘어가면 영가설이 기각된다. 또, 기각 영영(rejection criteria)은 영가설이 사실이라면 거의 불가능한 표본 평균을 대표하는 값의 영역이라고 할. 수 있다. 즉, 영가설을 기각하는 영역이다. 

3. 통계치 계산하기

전국의 모든 대학생들을 조사하기엔 시간과 비용이 많이 들기 때문에, 그 중의 일부 대학생들만을 대상으로 연구한 뒤 모집단에 대한 결론을 추론하게 된다. 예를 들면, 성균관대 대학생들을 대상으로 정치 성향 척도를 사용해 1 (아주 보수적)~ 7( 아주 진보적)까지 대답한 10개의 질문에 대한 답을 구했다고 해보자. 그리고 각각의 참여자에 대한 평균 정치 성향 점수를 구하게 될 것이다. 이때 영가설이 맞다면, 표본집단에게서 구한 표본 평균값은 아마도 4점 이하가 될 것이고, 나의 연구가설(대립가설)이 맞다면, 표본집단에게서 구한 표본 평균값은 4점보다 클 것이다. 

4. 통계치와 유의수준 비교하기 (신뢰구간을 설정해 해석하기)

통계치를 통해 p값을 구하게 되면 우리가 설정한 유의수준과 비교하여 결과값이 유의미한지 결정하게 된다. 일반적으로 통계프로그램이 이 값을 계산해준다.

참고로 신뢰구간(confidence intervals): 신뢰구간은 다음과 같이 나타낼 수 있다. 

5. 영가설에 대해 결정하기

유의미한 p값이 나오면 우리는 영가설을 기각했고, 우리의 연구가설을 지지한다는 결론을 내릴 수 있다. 

반응형

댓글