인터넷을 사용해서 연구자료를 수집한다고 생각해보자. 여기서 우리는 인종이 어떻게 되나요? 하고 주관식 문항을 포함해놨다. 사람들이 모두 같게 입력하지 않을 것이다. 어떤 사람은 Asian 어떤 사람은 asian, 어떤 사람은 Asia 등등으로 적을 수 있다. R은 대문자와 소문자를 민감하게 구분하기 때문에 이 모든 대답을 다 다른 범주로 간주하게된다. 따라서 우리는 대답을 한가지로 통일시켜주어야 한다.
우리의 예시 데이타에는 이러한 변인이 없기 때문에 코드만 제공할 예정이다.
먼저 해당 변인 내의 모든 값을 소문자로 변화시킬 때 사용하는 코드는 다음과 같다.
data$variable <- tolower(data$variable)
해당 변인 내 모든 값 중 "asia"를 "asian"으로 변화시킬 때 사용하는 코드는 다음과 같다. 아래 코드 중 ^와 $는 이 문자값의 시작과 끝을 표시해주는 것이다. 즉 asia그 자체만 asian으로 바꾸는 것이다. 만약 이 두 특수문자를 포함하지 않는다면 asian 내에도 asia가 포함되어 있기때문에 asiaasian이 되어버린다.
data$variable <-gsub('^asia$', 'asian', data$variable)
~~~~~~~~~~~
통계 교수님께서는 문자값 수정을 위해서 grep기능도 살펴볼 것을 추천해주었는데, 문자값을 수정하는 데 엄청 유용한 기능이라고 했다. '쿨'한 기능이라고. 근데 초보자들에게는 어렵다고도 했다. 초보자들을 위한 패키지, stringr를 추천해주기도 했는데 다음 사이트에서 구체적인 것을 확인할 수 있다: www.r-bloggers.com/2019/02/manipulating-strings-with-the-stringr-package/
나는 거의 실험연구를 위주로 하고, 설문을 한다고 하더라도 이런 변인은 객관식으로 넣으면 되서 자세히 살펴보진 않았다. 객관식으로 해놓으면 되는데 왜 주관식으로 해서 고생하나 싶기도 할텐데, 연구 특성상 이런 주관식 문항이 필요한 경우가 있다. 예를 들어, 논바이너리 젠더연구를 하는 사람인 경우, 미국에서는 젠더의 유형이 무궁무진하기 때문에 이러한 주관식 문항을 넣어 자신이 표현하고 싶은대로 성별을 표현할 수 있게 해준다.
'Study > 통계 공부 + R' 카테고리의 다른 글
R 기초: 데이타 클리닝(역코딩) (0) | 2020.12.05 |
---|---|
기초통계. 이변량통계3: 단순 선형 회귀 분석 (0) | 2020.12.05 |
R기초: 데이타클리닝(데이타 확인하기, 범위 확인하기) (0) | 2020.12.04 |
R 기초: 데이타 클리닝(변인 이름 변경, 변인 척도 변경) (0) | 2020.12.04 |
기초통계. 이변량 통계2: 변인 유형에 따른 상관 분석 (0) | 2020.12.04 |
댓글