본문 바로가기
반응형

Study/통계 공부 + R31

R 기초: 데이타 클리닝(역코딩) 설문조사에 어떤 개념을 측정할 때, 여러 문항을 사용해 하나의 구성개념을 측정하게 된다. 이 때 우리는 역문항을 종종 볼 수 있다. 역문항이란 측정하고자 하는 구성개념을 반대로 측정한 문항이다. 우리의 데이타 중 peer 변인과 selfesteem 변인 역시 역문항을 포함한다. 먼저 peer변인을 살펴보자. 순서대로 peer1~peer13의 문항이다. peer9~13은 역문항임을 볼 수 있다. 역문항은 구성개념을 반대로 측정하므로, 제대로 그 구성개념을 측정하기 위해서는 역문항 점수를 변환시켜주어야 한다. 이를 역코딩(reverse coding)이라고 한다. 척도가 7점 척도로 구성되어 있다면, 역문항 점수를 1점은 7점으로, 2점은 6점으로, 3점은 5점으로 수정해주어야 할 것이다. 우리는 peer 변.. 2020. 12. 5.
기초통계. 이변량통계3: 단순 선형 회귀 분석 회귀분석(regression analysis) 회귀분석이란, 독립변인이 종속변인을 얼마나 잘 예측하는지를 분석하는 통계적 기법이다. 예를 들어 키를 통해 몸무게를 유추한다고 했을 때 몸무게를 얼마나 잘 예측해주는지 등을 알아볼 때 사용할 수 있다. 회귀는 완전히 상관에 기반한 통계적 기법이다. 상관과의 차이라면, 상관은 두 변인 간의 관계를 묘사한다고 했을 때 회귀는 한 변인을 통해 다른 변인의 값을 예측해준다는 점에서 차이가 있다. 저번 글에서 독립변인은 다른 변인에 영향을 주는 변인, 종속변인은 다른 변인의 영향을 받는 변인임을 배웠다. 회귀분석에서 역시 독립변인, 종속변인이라는 용어를 사용하지만, 예측을 해준다는 점에서 예측변인(predictor variable = 독립변인), 준거변인(criter.. 2020. 12. 5.
R기초: 데이타 클리닝 (문자값 수정하기) 인터넷을 사용해서 연구자료를 수집한다고 생각해보자. 여기서 우리는 인종이 어떻게 되나요? 하고 주관식 문항을 포함해놨다. 사람들이 모두 같게 입력하지 않을 것이다. 어떤 사람은 Asian 어떤 사람은 asian, 어떤 사람은 Asia 등등으로 적을 수 있다. R은 대문자와 소문자를 민감하게 구분하기 때문에 이 모든 대답을 다 다른 범주로 간주하게된다. 따라서 우리는 대답을 한가지로 통일시켜주어야 한다. 우리의 예시 데이타에는 이러한 변인이 없기 때문에 코드만 제공할 예정이다. 먼저 해당 변인 내의 모든 값을 소문자로 변화시킬 때 사용하는 코드는 다음과 같다. data$variable 2020. 12. 4.
R기초: 데이타클리닝(데이타 확인하기, 범위 확인하기) 범위(range) 확인하기 항상 바로 분석에 들어가지 말고, 데이타값을 확인해보자. 먼저, 각 변인의 범위가 예상된 범위 내에 있는지 확인하여야 한다. 예를 들면, 100점 만점인 시험 점수에 대한 변인이 있다고 해보자. 만약 범위가 0~10으로 나타난 경우, 심각하게 어려운 시험이 아닌 이상 뭔가 잘못되었음을 알 수 있다. 혹은 설문조사를 통해 7점 척도로 측정한 변인이 있다고 해보자. 만약 이 번인의 범위가 1~8로 나타났다면 그 8은 있어서는 안되는 값이므로 뭔가 잘못되어있음을 알 수 있다. 일반적으로 다음의 경우에 이러한 오류가 발생한다. 데이타가 R에서 읽히는 동안 오류가 발생한 경우 데이타 입력에 실수가 있는 경우 연구 참여자가 조사항목에 대답할 때 잘못 입력한 경우 범위를 확인하기위해서는 여.. 2020. 12. 4.
R 기초: 데이타 클리닝(변인 이름 변경, 변인 척도 변경) R 에서 특정 변인 지칭하기 R 내에서 변인을 지칭하기 위한 코드는 다음과 같다. 데이타에는 내 데이타셋 이름을 쓰고, $ 뒤에는 변인이름을 쓴다. data$variable "데이타 불러오기" 글에서 가져온 데이타셋을 계속 사용할 것이다. 우리가 가진 데이타셋에서 성별을 지칭한다고 해보자. 혼자 해보고 더보기를 통해 확인해보자. 더보기 child_data$gender *그 전 글에서 하위 데이타 관련해서 배운다고 child_new 데이타셋이 있을 텐데 보기 싫으면 rm(child_new) 하면 오른쪽 창에서 해당 데이타 셋이 사라질 것이다. 변인 이름 바꾸기 (변인명 변경) 현재 내가 준비해서 업로드한 데이타는 나름 변인 이름이 예쁘게 정리되어 있지만, 패널 데이타 등에서는 온갖 알파벳으로 이루어져있을 .. 2020. 12. 4.
기초통계. 이변량 통계2: 변인 유형에 따른 상관 분석 피어슨 상관 (Pearson Correlation) 저번에 상관분석에 대해 알아보았다. 저번에 알아본 상관 분석 유형은 Pearson correlation이라 할 수 있다. 피어슨 상관분석은 상관을 구하고자 하는 변인이 모두 동간척도나 비율척도를 이용한 연속변인일 때 사용한다. 즉, 연구자들이 가장 많이 사용하는 상관분석이라고 생각할 수 있다. 저번에 살펴본 상관식을 좀만 변형시키면 다음과 같은 식이 된다. 피어슨은 저번에 깊게 알아봤으니 이제 다른 유형의 상관분석을 살펴보기로 하자. 양류상관(Point Biserial Correlation) 양분상관은 이진변수(binary variable) 혹은 이분변수(dichotomous variable)와 연속변수 간의 상관을 구할 때 사용된다. 이진변수/이분변수.. 2020. 12. 4.
반응형