본문 바로가기
반응형

Study/통계 공부 + R31

R 기초: 데이타 시각화. 예쁘고 깔끔한 그래프 그리기 분석한 데이타를 항상 줄줄이 읊으면서 페이퍼에 보고하지 않는다. 어떨땐 표를 사용해서 기술치를 전부 한 표에 집어 넣어 간결하고 보기 좋게 제시하기도 하고, 그래프를 통해서 한눈에 데이타 특징을 볼 수 있게 나타내기도 한다. 많은 사람들이 SPSS를 사용하고 있는데, SPSS의 단점 중 하나는 그래프가 너무 못났다. 내가 SPSS를 사용할 때에는 SPSS에서 나타난 그래프를 사용할 생각도 안했고, 따로 엑셀로 작업했어야 했다. R을 사용하면 엑셀로 이중 작업을 할 필요 없이 예쁘고 깔끔한 그래프를 그릴 수 있다. 여기서 예쁘고는 알록달록한 그래프가 아니라, 정말 깔끔하게 한눈에 잘 보이는 그런 그래프를 의미한다. 예쁜 그래프는... 심플해야함 최대한 색깔을 적게 사용해야함 의미를 분명히 전달하여야 함 최.. 2020. 12. 8.
R 기초: 평가자간 신뢰도 Cohen's kappa, 단순회귀분석 이번 단순회귀랑 데이타 시각화 글에는 저번에 올린 여러유형의 상관분석 돌리기에 사용했던 데이타를 그대로 사용할 예정이에요! 혹시 모르니 다시 올림(친절). 두개는 같은 파일이고 그냥 엑셀파일인지 씨에스븨 파일인지만 차이 있어요. 선호하시는 것 그대로 다운받으면 됩니다. 시작하기 전에 그 전에 배웠던 데이타 클리닝을 기반으로 데이타 정리를 좀 해볼게요. 여러유형의 상관분석 돌리기글을 따라 하신 분은 그 코드 그대로 사용하시면 됨! 다음을 순서대로 실행해주었어요. 아래 사진에서 자세한 코드 보실 수 있고, 더 자세한 설명을 원하시는 분은 데이타 클리닝 관련 글 쭉 보시면 됩니다. 1. 작업디렉토리 설정 2. 데이타 파일 열기 3. 변인 유형 설정 4. 문항 간 상관 확인(이번 데이타는 역코딩 문항이 없어요).. 2020. 12. 7.
R 기초: 여러 유형의 상관분석 돌리기 상관에는 여러 종류가 있다. 자세한 설명은 다음 링크에서 찾고, 여기서는 r돌리는 것에 집중할 예정이다. daily1123.tistory.com/entry/기초통계-이변량-통계2-변인-유형에-따른-상관-분석 우리는 저번 글에서 corr.test를 사용해서 상관을 돌려보았다. corr.test의 디폴트는 피어슨 상관이므로, 우리는 피어슨 상관을 배웠던 것이다. 만약에 다른 유형의 상관을 돌리려면 어떻게 해야할 지 알아보자. 새로운 데이타 파일을 준비했다. 다음 변인이 포함되어 있음 성별 (gender: 1=남, 2=여), 사교육유무(privateedu: 1=유, 2=무), 가족 수입(famincome: 1=저수입, 2=중간, 3=고수입), 부모 삶의 만족도(parsatisf: 높을 수록 만족감이 높음), .. 2020. 12. 6.
R 기초: 기술치(평균, 표준편차 등), 상관, 척도점수 구하기 위 두개 중에 아무거나 파일을 받는다. 저번에 올린 데이타 파일에서 사교육 유무(1= 사교육 받음, 2=사교육 받지 않음)를 추가했다. 여태까지 배운 것을 기반으로 다시 처음부터 우리 데이타에 맞게 데이타를 정리해보자. 먼저 작업 디렉토리를 설정했고, 데이타 파일을 열었고, 성별과 사교육유무를 요인으로 설정했다. 또 친구관계, 자존감의 역문항을 역코딩해주었다. 깔끔해진 데이타. 기술치 분석 (Descriptive Statistics) 먼저 기술치(descriptive statistics)를 돌려보겠다. 기술치는 그 데이타 자체에 대해 설명해주는 통계 수치를 말한다. 평균, 분산, 표준편차, 중앙값 등이 기술치에 해당한다. 이에 대한 자세한 설명은 다음 링크로 가면 볼 수 있다: daily1123.tist.. 2020. 12. 6.
R 기초: 데이타 클리닝(결측치 다루기) 많은 경우 연구는 내 예상대로 흘러가지 않고. . . 영아 대상으로 하는 연구면 도중애 애기가 울어서 실험이 중단되고, 설문조사를 통해 하는 연구면 많은 사람들이 문항을 체크하지 않은 채 넘겨버리기 일쑤다. 그리고 그 결과는 당연히 missing data! 결측치이다. 이 결측치는 어떻게 다루어야 하는걸까? 결측치에 대해서 어떻게 다루어야 할 지 결정하기 전에 가장 먼저 해야할 것이 내 연구와 데이타에 대해 생각해보아야 한다. 여러 이유로 결측치가 생길 수 있다. 예를 들어 여성의 출산에 대해 연구를 한다고 했을 때 여성의 입장에서 생각하지 않고 출산지도(feat. 박근혜 정부)같은 걸 들이민다면 당연히 기분이 나빠 제대로 설문에 응하지 않거나 할 수 있다 (여성은 애기를 낳는 기계가 아님을 명백히 밝힌.. 2020. 12. 5.
R기초: 데이타 클리닝(양질의 데이타란?, 데이타 일부 삭제하기) 사회과학의 경우 많은 경우 설문조사나 질문지를 통해 데이타를 수집하게 된다. 이 때 우리는 어떻게 양질의 데이타를 구분할 수 있을까? 이를 다루는 많은 문헌들이 존재하지만, 오늘은 가장 기본적인 부분을 다루도록 하겠다. 한 연구자가 여러 사람들에게 설문을 돌려 데이타를 수집하였다. 설문조사를 참여한 사람들 중 당연히 대충대충 설렁설렁 참여한 사람이 존재할 것이고, 심한 경우 문항을 읽지도 않고 모두 '예' 혹은 '아니오' 등을 일렬로 체크한 사람들도 있을 것이다. 이래서 어떤 설문의 경우 읽었는지 확인할 수 있는 문항("당신의 의사와는 무관하게 예를 선택하시오")을 포함시키기도 한다. 데이타를 최대한 보존하는 것이 좋지만, 일부의 경우 특정 참여자의 데이타를 삭제해야할 경우가 있다. 1. 내가 연구하고자.. 2020. 12. 5.
반응형