반응형 in r6 범주화하기: 로지스틱 회귀, r 통계 분석 로지스틱 회귀(Logistic Regression)란 로지스틱 회귀란 한 변인 내 점수들을 기반으로 두 개의 범주 (이분 변인) 중 하나로 예측할 때 사용되는 통계 기법이다. 즉 종속변인이 이분변수일 경우 사용되는 회귀분석이라고 생각하면 쉽다. 다른 회귀분석처럼 로지스틱 회귀도 "예측적(predictive)" 분석기법이며, 독립변수와 종속변수 간의 관계를 설명해주는 분석기법이라 할 수 있다. 이 때 독립변수는 하나 이상의 명목, 서열, 동간, 비율 척도로 이루어진다. 이 때 중요한 점은 선형회귀에서는 종속 변수의 예측된 값이 독립변수들의 조합을 기반으로 한다는 점이다. 즉, 독립변수 x의 함수를 통해 조건 확률 Pr(Y = 1|X = x)을 모형화하여야 한다. 이 때 여러 알려지지 않은 변수들은 최대우도.. 2021. 1. 1. R 기초: 평가자간 신뢰도 Cohen's kappa, 단순회귀분석 이번 단순회귀랑 데이타 시각화 글에는 저번에 올린 여러유형의 상관분석 돌리기에 사용했던 데이타를 그대로 사용할 예정이에요! 혹시 모르니 다시 올림(친절). 두개는 같은 파일이고 그냥 엑셀파일인지 씨에스븨 파일인지만 차이 있어요. 선호하시는 것 그대로 다운받으면 됩니다. 시작하기 전에 그 전에 배웠던 데이타 클리닝을 기반으로 데이타 정리를 좀 해볼게요. 여러유형의 상관분석 돌리기글을 따라 하신 분은 그 코드 그대로 사용하시면 됨! 다음을 순서대로 실행해주었어요. 아래 사진에서 자세한 코드 보실 수 있고, 더 자세한 설명을 원하시는 분은 데이타 클리닝 관련 글 쭉 보시면 됩니다. 1. 작업디렉토리 설정 2. 데이타 파일 열기 3. 변인 유형 설정 4. 문항 간 상관 확인(이번 데이타는 역코딩 문항이 없어요).. 2020. 12. 7. R기초: 데이타 클리닝(양질의 데이타란?, 데이타 일부 삭제하기) 사회과학의 경우 많은 경우 설문조사나 질문지를 통해 데이타를 수집하게 된다. 이 때 우리는 어떻게 양질의 데이타를 구분할 수 있을까? 이를 다루는 많은 문헌들이 존재하지만, 오늘은 가장 기본적인 부분을 다루도록 하겠다. 한 연구자가 여러 사람들에게 설문을 돌려 데이타를 수집하였다. 설문조사를 참여한 사람들 중 당연히 대충대충 설렁설렁 참여한 사람이 존재할 것이고, 심한 경우 문항을 읽지도 않고 모두 '예' 혹은 '아니오' 등을 일렬로 체크한 사람들도 있을 것이다. 이래서 어떤 설문의 경우 읽었는지 확인할 수 있는 문항("당신의 의사와는 무관하게 예를 선택하시오")을 포함시키기도 한다. 데이타를 최대한 보존하는 것이 좋지만, 일부의 경우 특정 참여자의 데이타를 삭제해야할 경우가 있다. 1. 내가 연구하고자.. 2020. 12. 5. R 기초: 데이타 클리닝(역코딩) 설문조사에 어떤 개념을 측정할 때, 여러 문항을 사용해 하나의 구성개념을 측정하게 된다. 이 때 우리는 역문항을 종종 볼 수 있다. 역문항이란 측정하고자 하는 구성개념을 반대로 측정한 문항이다. 우리의 데이타 중 peer 변인과 selfesteem 변인 역시 역문항을 포함한다. 먼저 peer변인을 살펴보자. 순서대로 peer1~peer13의 문항이다. peer9~13은 역문항임을 볼 수 있다. 역문항은 구성개념을 반대로 측정하므로, 제대로 그 구성개념을 측정하기 위해서는 역문항 점수를 변환시켜주어야 한다. 이를 역코딩(reverse coding)이라고 한다. 척도가 7점 척도로 구성되어 있다면, 역문항 점수를 1점은 7점으로, 2점은 6점으로, 3점은 5점으로 수정해주어야 할 것이다. 우리는 peer 변.. 2020. 12. 5. R기초: 데이타 클리닝 (문자값 수정하기) 인터넷을 사용해서 연구자료를 수집한다고 생각해보자. 여기서 우리는 인종이 어떻게 되나요? 하고 주관식 문항을 포함해놨다. 사람들이 모두 같게 입력하지 않을 것이다. 어떤 사람은 Asian 어떤 사람은 asian, 어떤 사람은 Asia 등등으로 적을 수 있다. R은 대문자와 소문자를 민감하게 구분하기 때문에 이 모든 대답을 다 다른 범주로 간주하게된다. 따라서 우리는 대답을 한가지로 통일시켜주어야 한다. 우리의 예시 데이타에는 이러한 변인이 없기 때문에 코드만 제공할 예정이다. 먼저 해당 변인 내의 모든 값을 소문자로 변화시킬 때 사용하는 코드는 다음과 같다. data$variable 2020. 12. 4. R 시작하기: csv 및 excel 데이타 불러오기 R 스튜디오 시작하기 R 스튜디를 열면 다음과 같은 화면이 보인다. SPSS를 사용하던 사람들에겐 다소 당황스러운 화면이다. 먼저 작업창을 불러올 예정이다. 제일 왼쪽 상단에 빈종이같은 아이콘을 클릭하고 R Markdown을 불러오자. 프로젝트 이름과 본인 이름을 적고, output format은 뭐든 상관없지만 나는 Word를 선호한다. output format은 추후 작업파일을 저장할 때 저장되는 방식이다. ok를 선택하면 다음과 같은 창이 보일 것이다. 새로 보이는 저 창이 우리의 작업창이다. 여기서 파일을 불러오고 데이타 분석도 할 수 있다. 드래그 한 부분은 지저분하니 지워주자. 지워도 별 상관 없다. 데이타 불러오기 시작하기 전에, R에게 어디서 데이타 파일을 찾을 수 있는지 알려주어야 한다... 2020. 12. 3. 이전 1 다음 반응형