반응형 데이타 클리닝4 R 기초: 데이타 클리닝(결측치 다루기) 많은 경우 연구는 내 예상대로 흘러가지 않고. . . 영아 대상으로 하는 연구면 도중애 애기가 울어서 실험이 중단되고, 설문조사를 통해 하는 연구면 많은 사람들이 문항을 체크하지 않은 채 넘겨버리기 일쑤다. 그리고 그 결과는 당연히 missing data! 결측치이다. 이 결측치는 어떻게 다루어야 하는걸까? 결측치에 대해서 어떻게 다루어야 할 지 결정하기 전에 가장 먼저 해야할 것이 내 연구와 데이타에 대해 생각해보아야 한다. 여러 이유로 결측치가 생길 수 있다. 예를 들어 여성의 출산에 대해 연구를 한다고 했을 때 여성의 입장에서 생각하지 않고 출산지도(feat. 박근혜 정부)같은 걸 들이민다면 당연히 기분이 나빠 제대로 설문에 응하지 않거나 할 수 있다 (여성은 애기를 낳는 기계가 아님을 명백히 밝힌.. 2020. 12. 5. R 기초: 데이타 클리닝(역코딩) 설문조사에 어떤 개념을 측정할 때, 여러 문항을 사용해 하나의 구성개념을 측정하게 된다. 이 때 우리는 역문항을 종종 볼 수 있다. 역문항이란 측정하고자 하는 구성개념을 반대로 측정한 문항이다. 우리의 데이타 중 peer 변인과 selfesteem 변인 역시 역문항을 포함한다. 먼저 peer변인을 살펴보자. 순서대로 peer1~peer13의 문항이다. peer9~13은 역문항임을 볼 수 있다. 역문항은 구성개념을 반대로 측정하므로, 제대로 그 구성개념을 측정하기 위해서는 역문항 점수를 변환시켜주어야 한다. 이를 역코딩(reverse coding)이라고 한다. 척도가 7점 척도로 구성되어 있다면, 역문항 점수를 1점은 7점으로, 2점은 6점으로, 3점은 5점으로 수정해주어야 할 것이다. 우리는 peer 변.. 2020. 12. 5. R기초: 데이타 클리닝 (문자값 수정하기) 인터넷을 사용해서 연구자료를 수집한다고 생각해보자. 여기서 우리는 인종이 어떻게 되나요? 하고 주관식 문항을 포함해놨다. 사람들이 모두 같게 입력하지 않을 것이다. 어떤 사람은 Asian 어떤 사람은 asian, 어떤 사람은 Asia 등등으로 적을 수 있다. R은 대문자와 소문자를 민감하게 구분하기 때문에 이 모든 대답을 다 다른 범주로 간주하게된다. 따라서 우리는 대답을 한가지로 통일시켜주어야 한다. 우리의 예시 데이타에는 이러한 변인이 없기 때문에 코드만 제공할 예정이다. 먼저 해당 변인 내의 모든 값을 소문자로 변화시킬 때 사용하는 코드는 다음과 같다. data$variable 2020. 12. 4. R기초: 데이타클리닝(데이타 확인하기, 범위 확인하기) 범위(range) 확인하기 항상 바로 분석에 들어가지 말고, 데이타값을 확인해보자. 먼저, 각 변인의 범위가 예상된 범위 내에 있는지 확인하여야 한다. 예를 들면, 100점 만점인 시험 점수에 대한 변인이 있다고 해보자. 만약 범위가 0~10으로 나타난 경우, 심각하게 어려운 시험이 아닌 이상 뭔가 잘못되었음을 알 수 있다. 혹은 설문조사를 통해 7점 척도로 측정한 변인이 있다고 해보자. 만약 이 번인의 범위가 1~8로 나타났다면 그 8은 있어서는 안되는 값이므로 뭔가 잘못되어있음을 알 수 있다. 일반적으로 다음의 경우에 이러한 오류가 발생한다. 데이타가 R에서 읽히는 동안 오류가 발생한 경우 데이타 입력에 실수가 있는 경우 연구 참여자가 조사항목에 대답할 때 잘못 입력한 경우 범위를 확인하기위해서는 여.. 2020. 12. 4. 이전 1 다음 반응형