반응형 r 분석3 범주화하기: 로지스틱 회귀, r 통계 분석 로지스틱 회귀(Logistic Regression)란 로지스틱 회귀란 한 변인 내 점수들을 기반으로 두 개의 범주 (이분 변인) 중 하나로 예측할 때 사용되는 통계 기법이다. 즉 종속변인이 이분변수일 경우 사용되는 회귀분석이라고 생각하면 쉽다. 다른 회귀분석처럼 로지스틱 회귀도 "예측적(predictive)" 분석기법이며, 독립변수와 종속변수 간의 관계를 설명해주는 분석기법이라 할 수 있다. 이 때 독립변수는 하나 이상의 명목, 서열, 동간, 비율 척도로 이루어진다. 이 때 중요한 점은 선형회귀에서는 종속 변수의 예측된 값이 독립변수들의 조합을 기반으로 한다는 점이다. 즉, 독립변수 x의 함수를 통해 조건 확률 Pr(Y = 1|X = x)을 모형화하여야 한다. 이 때 여러 알려지지 않은 변수들은 최대우도.. 2021. 1. 1. R기초: 데이타 클리닝(양질의 데이타란?, 데이타 일부 삭제하기) 사회과학의 경우 많은 경우 설문조사나 질문지를 통해 데이타를 수집하게 된다. 이 때 우리는 어떻게 양질의 데이타를 구분할 수 있을까? 이를 다루는 많은 문헌들이 존재하지만, 오늘은 가장 기본적인 부분을 다루도록 하겠다. 한 연구자가 여러 사람들에게 설문을 돌려 데이타를 수집하였다. 설문조사를 참여한 사람들 중 당연히 대충대충 설렁설렁 참여한 사람이 존재할 것이고, 심한 경우 문항을 읽지도 않고 모두 '예' 혹은 '아니오' 등을 일렬로 체크한 사람들도 있을 것이다. 이래서 어떤 설문의 경우 읽었는지 확인할 수 있는 문항("당신의 의사와는 무관하게 예를 선택하시오")을 포함시키기도 한다. 데이타를 최대한 보존하는 것이 좋지만, 일부의 경우 특정 참여자의 데이타를 삭제해야할 경우가 있다. 1. 내가 연구하고자.. 2020. 12. 5. R기초: 데이타클리닝(데이타 확인하기, 범위 확인하기) 범위(range) 확인하기 항상 바로 분석에 들어가지 말고, 데이타값을 확인해보자. 먼저, 각 변인의 범위가 예상된 범위 내에 있는지 확인하여야 한다. 예를 들면, 100점 만점인 시험 점수에 대한 변인이 있다고 해보자. 만약 범위가 0~10으로 나타난 경우, 심각하게 어려운 시험이 아닌 이상 뭔가 잘못되었음을 알 수 있다. 혹은 설문조사를 통해 7점 척도로 측정한 변인이 있다고 해보자. 만약 이 번인의 범위가 1~8로 나타났다면 그 8은 있어서는 안되는 값이므로 뭔가 잘못되어있음을 알 수 있다. 일반적으로 다음의 경우에 이러한 오류가 발생한다. 데이타가 R에서 읽히는 동안 오류가 발생한 경우 데이타 입력에 실수가 있는 경우 연구 참여자가 조사항목에 대답할 때 잘못 입력한 경우 범위를 확인하기위해서는 여.. 2020. 12. 4. 이전 1 다음 반응형