본문 바로가기
반응형

r 기초7

R 기초: 데이타 시각화. 예쁘고 깔끔한 그래프 그리기 분석한 데이타를 항상 줄줄이 읊으면서 페이퍼에 보고하지 않는다. 어떨땐 표를 사용해서 기술치를 전부 한 표에 집어 넣어 간결하고 보기 좋게 제시하기도 하고, 그래프를 통해서 한눈에 데이타 특징을 볼 수 있게 나타내기도 한다. 많은 사람들이 SPSS를 사용하고 있는데, SPSS의 단점 중 하나는 그래프가 너무 못났다. 내가 SPSS를 사용할 때에는 SPSS에서 나타난 그래프를 사용할 생각도 안했고, 따로 엑셀로 작업했어야 했다. R을 사용하면 엑셀로 이중 작업을 할 필요 없이 예쁘고 깔끔한 그래프를 그릴 수 있다. 여기서 예쁘고는 알록달록한 그래프가 아니라, 정말 깔끔하게 한눈에 잘 보이는 그런 그래프를 의미한다. 예쁜 그래프는... 심플해야함 최대한 색깔을 적게 사용해야함 의미를 분명히 전달하여야 함 최.. 2020. 12. 8.
R 기초: 평가자간 신뢰도 Cohen's kappa, 단순회귀분석 이번 단순회귀랑 데이타 시각화 글에는 저번에 올린 여러유형의 상관분석 돌리기에 사용했던 데이타를 그대로 사용할 예정이에요! 혹시 모르니 다시 올림(친절). 두개는 같은 파일이고 그냥 엑셀파일인지 씨에스븨 파일인지만 차이 있어요. 선호하시는 것 그대로 다운받으면 됩니다. 시작하기 전에 그 전에 배웠던 데이타 클리닝을 기반으로 데이타 정리를 좀 해볼게요. 여러유형의 상관분석 돌리기글을 따라 하신 분은 그 코드 그대로 사용하시면 됨! 다음을 순서대로 실행해주었어요. 아래 사진에서 자세한 코드 보실 수 있고, 더 자세한 설명을 원하시는 분은 데이타 클리닝 관련 글 쭉 보시면 됩니다. 1. 작업디렉토리 설정 2. 데이타 파일 열기 3. 변인 유형 설정 4. 문항 간 상관 확인(이번 데이타는 역코딩 문항이 없어요).. 2020. 12. 7.
R 기초: 기술치(평균, 표준편차 등), 상관, 척도점수 구하기 위 두개 중에 아무거나 파일을 받는다. 저번에 올린 데이타 파일에서 사교육 유무(1= 사교육 받음, 2=사교육 받지 않음)를 추가했다. 여태까지 배운 것을 기반으로 다시 처음부터 우리 데이타에 맞게 데이타를 정리해보자. 먼저 작업 디렉토리를 설정했고, 데이타 파일을 열었고, 성별과 사교육유무를 요인으로 설정했다. 또 친구관계, 자존감의 역문항을 역코딩해주었다. 깔끔해진 데이타. 기술치 분석 (Descriptive Statistics) 먼저 기술치(descriptive statistics)를 돌려보겠다. 기술치는 그 데이타 자체에 대해 설명해주는 통계 수치를 말한다. 평균, 분산, 표준편차, 중앙값 등이 기술치에 해당한다. 이에 대한 자세한 설명은 다음 링크로 가면 볼 수 있다: daily1123.tist.. 2020. 12. 6.
R기초: 데이타 클리닝(양질의 데이타란?, 데이타 일부 삭제하기) 사회과학의 경우 많은 경우 설문조사나 질문지를 통해 데이타를 수집하게 된다. 이 때 우리는 어떻게 양질의 데이타를 구분할 수 있을까? 이를 다루는 많은 문헌들이 존재하지만, 오늘은 가장 기본적인 부분을 다루도록 하겠다. 한 연구자가 여러 사람들에게 설문을 돌려 데이타를 수집하였다. 설문조사를 참여한 사람들 중 당연히 대충대충 설렁설렁 참여한 사람이 존재할 것이고, 심한 경우 문항을 읽지도 않고 모두 '예' 혹은 '아니오' 등을 일렬로 체크한 사람들도 있을 것이다. 이래서 어떤 설문의 경우 읽었는지 확인할 수 있는 문항("당신의 의사와는 무관하게 예를 선택하시오")을 포함시키기도 한다. 데이타를 최대한 보존하는 것이 좋지만, 일부의 경우 특정 참여자의 데이타를 삭제해야할 경우가 있다. 1. 내가 연구하고자.. 2020. 12. 5.
R 기초: 데이타 클리닝(변인 이름 변경, 변인 척도 변경) R 에서 특정 변인 지칭하기 R 내에서 변인을 지칭하기 위한 코드는 다음과 같다. 데이타에는 내 데이타셋 이름을 쓰고, $ 뒤에는 변인이름을 쓴다. data$variable "데이타 불러오기" 글에서 가져온 데이타셋을 계속 사용할 것이다. 우리가 가진 데이타셋에서 성별을 지칭한다고 해보자. 혼자 해보고 더보기를 통해 확인해보자. 더보기 child_data$gender *그 전 글에서 하위 데이타 관련해서 배운다고 child_new 데이타셋이 있을 텐데 보기 싫으면 rm(child_new) 하면 오른쪽 창에서 해당 데이타 셋이 사라질 것이다. 변인 이름 바꾸기 (변인명 변경) 현재 내가 준비해서 업로드한 데이타는 나름 변인 이름이 예쁘게 정리되어 있지만, 패널 데이타 등에서는 온갖 알파벳으로 이루어져있을 .. 2020. 12. 4.
R 기초: 데이타 구조, 데이타 클리닝(하위데이타 선택하기, 제거하기) 데이타를 분석하기 전에 가장 먼저 해야할 것은 데이타 클리닝이다. 내가 직접 데이타를 수집했다면 좀 덜하지만 다른 패널 데이터를 사용하거나 e-prime 등 데이타 수집 프로그램으로부터 데이타를 구하거나 하면 하면 아주 복잡하게 구성되어 있는 경우도 많다. 나도 아이트래커를 사용해 데이타를 수집하다가(코로나때문에 중간에 막혔지만..), 학부생 졸업 프로젝트 도와준다고 데이타를 뽑아봤더니 너무 복잡하게 구성되어 있어서. 당황한 기억이 있다. 주로 볼 수 있는 가장 "깨끗한" 데이타셋은 다음과 같은 특징을 지닌다. 변인 이름이 적힌 첫째 줄(row) 두번째 줄부터는 데이타가 입력되어 있고, 한 줄에 한명의 데이타가 입력됨 각각의 변인을 대표하는 칸들(column) 내가 저번에 공유한 데이타("R 시작하기: .. 2020. 12. 4.
반응형