본문 바로가기
Study/통계 공부 + R

기초통계. 기본 개념1 (기술/추론 통계, 표집방식, 변인, 척도)

by PhD_Ming 2020. 12. 2.
300x250

학부 시절 통계수업을 들으면서 왜 심리학관데 수학 수업을 들어야 하는거지 어리둥절한 적이 있었다. 지금은 통계의 중요성을 깊이 체감하며 학교에서 왜 더 많은 통계수업을 개설하지 않는지 불만을 표시하고 있다. 왜 심리학(혹은 사회과학)에서 통계가 중요할까? 이는 심리학(혹은 사회과학) 연구가 어떻게 진행되는지 살펴보면 이해가 좀 더 쉽다. 

심리학 이론은 어떻게 발달할까? 

여러 사실을 관찰 후 이론을 설립할 수도 있고(귀납적 추론), 이론을 설정한 후 그게 사실인지 개별 데이타를 확인하는 방법(연역적 추론)도 있다. 많은 심리 연구들은 연역적 추론을 기반으로 한다. 즉 심리학에서의 연구 과정은 일반적으로 다음과 같다:

먼저 내가 관심이 가는 연구 주제가 있을 것이다. 예를 들면 "한국에서 성별에 따라 임금 차이가 존재하는가?" 라는 문제에 관심이 있다고 해보자. 이러한 연구문제를 설정하고 나면, 그 연구문제와 관련된 이론을 공부하게 된다. 예시로, Social Dominance Theory는 남성이 성불평등에 기여하는 제도와 이데올로기를 형성한다고 주장한다. 이에 따라서 가설 설정을 하면 "한국에서 남성은 여성보다 임금이 더 높다"라는 가설이 형성되게 된다. 이에 따라 여성과 남성의 임금과 관련한 데이타를 수집한다. 양적 혹은 질적 분석을 사용하여 수집한 데이타를 분석하고 이론이 옳은지 틀렸는지 결정하게 된다. 

이때 우리는 통계를 사용하여 양적 분석을 하게 된다.

통계란?

통계란 숫자로 이루어진 데이타를 조직, 분석, 해석하는 수학과 관련된 학문이라고 할 수 있다. 위에서 설명했듯, 우리는 수집한 데이타를 분석하여 내가 설정한 가설을 지지하는지, 지지하지 않는지 결정하게 된다. 위의 예시를 이어 생각해보자. 만약 한국에 있는 모든 남성과 여성 직장인의 임금에 대한 데이타를 모을 수 있다면, 가장 정확하게 분석할 수 있을 것이다. 하지만, 모든 사람이 내 데이타 수집에 참여해주지도 않을 뿐더러, 시간과 비용이 엄청나게 많이 든다는 문제점이 있다. 그래서 우리는 한국에 있는 모든 남성과 여성 직장인, 즉 모집단(전체 집단)을 대상으로 데이타를 수집하지 않고, 모집단에서 일부(표본집단)만을 대상으로 데이타를 수집하고 분석한 뒤 모집단에 대한 추론을 하게 된다. 이렇게 추론할 때 사용하는 통계 방식을 추론통계(inferential statistics)라고 할 수 있다.

반면, 추론하지 않고 집단 특성을 나타내는 통계방식을 기술통계(descriptive statistics)라고 하는데, 인구총조사를 그 예로 들 수 있다. 또 다른 예로는 한 학교에서 그 안의 학생들의 성적 데이타의 평균, 표준편차 등은 그 학교 학생들의 성적 특성을 보여주게 되는데 이를 기술 통계라고 할 수 있다. 

즉, 기술통계란 데이타를 요약하고, 조직화하고, 단순화하는 통계 방식이라 한다면 (예: 남성과 여성의 평균 임금), 추론통계란 표본을 통하여  모집단에 대한 일반화할 수 있는 결과를 얻는 통계 방식이라 할 수 있다 (예: 남성과 여성의 평균 임금은 유의미하게 다른가). 기술통계엔 평균, 중앙값, 빈도 등의 수치가 포함되며, 추론통계엔 t-test, ANOVAs, 회귀분석(regression analysis) 등이 포함된다. 

모집단 데이타의 평균, 표준편차 등의 수치를 모수치(parameter)라고 하고, 표본집단의 평균, 표준편차 등의 수치를 통계치(statistics)라고 한다. 이때 표본을 뽑는 행위 자체를 표집(sampling)이라고 한다.

 

표집방식

우리는 표본을 통해 모집단을 추론하기 때문에, 표본집단을 모집단과 가장 유사하게 뽑는 것이 제일 좋은 방법일 것이다. 표본을 뽑는 방법을 알아보자. 각각 장단이 존재한다. 

1. 단순무선표집(simple random sampling): 조사 대상을 완전히 무작위로(랜덤으로) 뽑는 방식을 말한다. 모집단과 가장 유사하게 뽑힐 확률이 높지만, 실제 적용하기엔 어려움이 따른다. 랜덤으로 조사 대상을 뽑더라도 그 대상이 연구에 참여할 의사가 없을 수도 있고, 내가 연구하고자 하는 모집단의 크기가 크다면 모집단에 누가 속하는지 구체적으로 알지 못하니 랜덤으로 뽑지도 못한다. 

2. 계층화무선표집(stratified random sampling): 모집단을 몇개의 계층으로 나눈 후 각각의 계층에서 독립적으로 개별 조사 대상을 무작위로 뽑는 방식을 말한다. 예를 들면 20대, 30대, 40대로 나뉘어 각 집단에서 랜덤으로 10명씩 선택하여 조사하는 방식 등이 있을 수 있다.

3. 군집표집(cluster samling): 모집단이 몇개의 군집으로 나뉠 때 개별 조사 대상을 선택하는 것이 아닌 각각의 군집을 무작위로 뽑는 방식을 말한다. 예를 들면 전국 초등학교 5학년이 대상이라면, 서울에서 일부 학교를 선택하고, 대전에서 일부 학교를 선택하고, 부산에서 일부 학교를 선택해, 그 선택된 일부 학교 내 학생들을 모두 표본으로 뽑는 방식이다.

4. 계통표집(systematic sampling): 고정 간격에 따라 표집을 선택하는 방식. 예를 들면, 5000명 중 500명을 뽑는다고 가정했을 때, 일렬로 쭉 나열 한 뒤 랜덤으로 정한 한명을 기점으로 매 10번째 되는 사람을 표본으로 선택하는 방식이라고 할 수 있다. 

5. 편의표집(convenience sampling): 연구자가 주변에서 편리하게 표집할 수 있는 대상을 선택하는 방식으로 예를 들면 성인의 특성에 관련한 연구를 할 때에 교수가 대학생을 대상으로 연구 참여자를 모집할 수 있다. 편리한 만큼 가장 많이 사용되는 표집 방식이다. 

변인 (Variable)

더 깊은 내용을 들어가기 전에, 변인에 대해 알아볼 필요가 있다. 양적 연구를 할 때에 우리는 연구하고자 하는 개념을 수치화하여 측정한다. 따라서, 변인(혹은 변수)이란 사람, 상황 등에 따라 다르게 측정될 수 있는 값을 말한다. 예를 들면 임금 수준의 경우 사람마다, 직장마다 다 다를 것이다. 또한 스트레스 수준을 0~7점 사이에서 측정하는 경우 개인마다 보고하는 값이 다 다를 것이다. 여기서 임금수준, 스트레스 수준을 우리는 변인이라 할 수 있다. 

변인의 종류

가설을 설정할 때에, 우리는 변인들간의 관계성에 대해 가설을 설정하게 된다. 위의 여성과 남성에 따른 임금수준에 차이가 있는지에 관한 가설 역시, 성별에 따라 임금수준에 차이가 나타나는지에 대한 것이니, 성별은 임금수준에 영향을 주는 변인이며, 임금수준은 성별에 따라 영향을 받게 되는 변인이다. 전자처럼 다른 변인에 영향을 주는 변인을 독립변인(independent variable), 독립변인에 의해 영향을 받는 변인을 종속변인(dependent variable)이라 한다. 독립변인은 적어도 두 수준이상 가지고 있어야 하는데, 예를 들면 사람을 대상으로 연구를 하는 경우 "사람"은 전체 집단이기 때문에 하위 단위를 갖지 않아 독립변인이 될 수 없다. 성별의 경우 남성, 여성, (그리고 다른 성소수자)을 포함하기 때문에 독립변인이라 지칭할 수 있다.

이 외에도 연구 가설에 직접적인 관련은 없지만 독립변인 혹은 종속변인에 영향을 주는 변인을 매개변인(confounding variable) 혹은 공변인(covariable)이라 한다. 성별에 따른 임금차이를 연구할 때, 직장에 따라 임금이 달라질 수 있게 된다. 예를 들면 고소득 직업군의 여성이 더 많이 표집된 경우, 직장을 고려하지 않은 채 데이타를 분석한다면 성별에 따른 임금차이가 없다는 결론을 내릴 수도 있게되는 것이다. 이때의 직업군은 매개변인 혹은 공변인이라 부를 수 있다.

이 외에도 변인은 그 특성에 따라 연속 변인(continuous variable)과 비연속변인(discrete variable)으로 나뉠 수 있다. 비연속변인이란 개별 범주로 이루어진 변수로, 이웃한 범주 간에 어떠한 값도 가질 수 없는 변인을 말한다. 즉 인종, 거주하는 도시 등을 예로 들 수 있다. 연속변인이란 수량화가 가능하고 관찰된 두 값 사이에 무한한 값을 가질 수 있는 변인을 말한다. 즉, 수입, 연령 등을 예로 들 수 있다. 

척도(scale)

척도란 체계적인 단위를 가지고 변인을 수량화한 것이라 할 수 있다. 다음 네가지 척도를 살펴보면 척도가 무엇인지 감이 더 올 것이다. 

1. 명명척도(nominal scale): 명명척도란 서로 다른 이름을 가진 범주로 이루어진 척도이다. 범주 간에 의미있는 차이는 없기에 크기를 비교할 수 없다. 즉 성별 (남성, 여성), 인종(아시안, 흑인, 백인, 라티노) 등이 명명척도에 해당하고, 각각의 척도 내 범주들은 생물학적 차이를 명명한 것일 뿐이다.

2. 서열척도(ordinal scale): 특정 범주들을 서열로써 나타낸 척도이다. 범주 간 의미있는 차이가 존재하여 크기를 비교할 수 있다. 사회경제적 지위를 예로 들었을 때, 상위층, 중산층, 하위층으로 구분할 수 있으며 상위층은 중산층, 하위층보다 더 높은 경제적 지위를 지니는 등의 차이가 존재한다. 하지만, 상위층과 중산층간 혹은 중산층과 하위층간 차이가 동일하지 않다는 것이 특징이다. 

3. 등간척도(interval scale): 이는 특정 범주들이 서열화되어있으며, 범주간 의미있는 차이가 존재하여 크기를 비교할 수 있고, 또 그 범주간 차이가 동일하지만, 절대영점이 없는 경우를 말한다. 온도를 예를 들자면, 0도가 절대 영이 아니라, 우리가 정한 일정한 온도를 0도라고 하는 것이므로, 절대영점이라 할 수 없다. 심리학에서 쓰이는 리커트척도도 이에 해당한다. 

4. 비율척도(ratio scale): 비율척도는 특정 범주가 서열화되어있으면서, 범주간 간격이 동일하고, 절대영점이 존재하는 경우를 말한다. 연령, 물건의 개수 등을 예로 들 수 있다. 

 

한가지 더 추가하자면, 동일한 개념을 측정한다고 하더라도 측정방식에 따라 척도의 구분이 달라질 수 있다는 점을 명심하여야 한다.

미국 통계수업에서 보여준 예시를 번역하였다.

 

반응형

댓글