본문 바로가기
반응형

r 시작하기3

R기초: 데이타 클리닝 (문자값 수정하기) 인터넷을 사용해서 연구자료를 수집한다고 생각해보자. 여기서 우리는 인종이 어떻게 되나요? 하고 주관식 문항을 포함해놨다. 사람들이 모두 같게 입력하지 않을 것이다. 어떤 사람은 Asian 어떤 사람은 asian, 어떤 사람은 Asia 등등으로 적을 수 있다. R은 대문자와 소문자를 민감하게 구분하기 때문에 이 모든 대답을 다 다른 범주로 간주하게된다. 따라서 우리는 대답을 한가지로 통일시켜주어야 한다. 우리의 예시 데이타에는 이러한 변인이 없기 때문에 코드만 제공할 예정이다. 먼저 해당 변인 내의 모든 값을 소문자로 변화시킬 때 사용하는 코드는 다음과 같다. data$variable 2020. 12. 4.
R 기초: 데이타 클리닝(변인 이름 변경, 변인 척도 변경) R 에서 특정 변인 지칭하기 R 내에서 변인을 지칭하기 위한 코드는 다음과 같다. 데이타에는 내 데이타셋 이름을 쓰고, $ 뒤에는 변인이름을 쓴다. data$variable "데이타 불러오기" 글에서 가져온 데이타셋을 계속 사용할 것이다. 우리가 가진 데이타셋에서 성별을 지칭한다고 해보자. 혼자 해보고 더보기를 통해 확인해보자. 더보기 child_data$gender *그 전 글에서 하위 데이타 관련해서 배운다고 child_new 데이타셋이 있을 텐데 보기 싫으면 rm(child_new) 하면 오른쪽 창에서 해당 데이타 셋이 사라질 것이다. 변인 이름 바꾸기 (변인명 변경) 현재 내가 준비해서 업로드한 데이타는 나름 변인 이름이 예쁘게 정리되어 있지만, 패널 데이타 등에서는 온갖 알파벳으로 이루어져있을 .. 2020. 12. 4.
R 기초: 데이타 구조, 데이타 클리닝(하위데이타 선택하기, 제거하기) 데이타를 분석하기 전에 가장 먼저 해야할 것은 데이타 클리닝이다. 내가 직접 데이타를 수집했다면 좀 덜하지만 다른 패널 데이터를 사용하거나 e-prime 등 데이타 수집 프로그램으로부터 데이타를 구하거나 하면 하면 아주 복잡하게 구성되어 있는 경우도 많다. 나도 아이트래커를 사용해 데이타를 수집하다가(코로나때문에 중간에 막혔지만..), 학부생 졸업 프로젝트 도와준다고 데이타를 뽑아봤더니 너무 복잡하게 구성되어 있어서. 당황한 기억이 있다. 주로 볼 수 있는 가장 "깨끗한" 데이타셋은 다음과 같은 특징을 지닌다. 변인 이름이 적힌 첫째 줄(row) 두번째 줄부터는 데이타가 입력되어 있고, 한 줄에 한명의 데이타가 입력됨 각각의 변인을 대표하는 칸들(column) 내가 저번에 공유한 데이타("R 시작하기: .. 2020. 12. 4.
반응형