R 시작하기: csv 및 excel 데이타 불러오기

R 스튜디오 시작하기

R 스튜디를 열면 다음과 같은 화면이 보인다. SPSS를 사용하던 사람들에겐 다소 당황스러운 화면이다. 먼저 작업창을 불러올 예정이다.

제일 왼쪽 상단에 빈종이같은 아이콘을 클릭하고 R Markdown을 불러오자.

프로젝트 이름과 본인 이름을 적고, output format은 뭐든 상관없지만 나는 Word를 선호한다. output format은 추후 작업파일을 저장할 때 저장되는 방식이다.

ok를 선택하면 다음과 같은 창이 보일 것이다. 새로 보이는 저 창이 우리의 작업창이다. 여기서 파일을 불러오고 데이타 분석도 할 수 있다.

드래그 한 부분은 지저분하니 지워주자. 지워도 별 상관 없다.

데이타 불러오기

시작하기 전에, R에게 어디서 데이타 파일을 찾을 수 있는지 알려주어야 한다. insert -> R을 클릭하거나 윈도우에서는 Ctrl + Alt + I, 맥에서는 Cmd + Option + I를 누르면 r코드를 삽입할 수 있는 회색 칸이 나온다.

setwd코드를 사용해서 폴더 위치를 설정해준다 (setting the work directory 라고 생각하면 코드에 대해서 이해가 더 쉽다). 이 폴더 내에 데이터가 존재하여야 데이터를 R이 불러올 수 있다. 주의할 점은 \이 아닌 / 를 사용하여야 하며, 대문자 소문자를 정확하게 지켜주어야 한다.

setwd("/Users/sangmipark/Documents/Stats")

폴더 위치는 맥을 기준으로 ctrl+폴더를 클릭 후 Get Info를 선택하면 폴더 정보 창이 나오는데 아래 빨간네모에 위치한 Where 에서 어디에 위치하는지 볼 수 있고, 이를 복사한 후 붙여넣기 하면 /Users/sangmipark/Documents로 나온다.

폴더 위치 작성을 완료했다면 코드를 돌려준다. 회색창 왼쪽 상단에 재생 아이콘을 클릭하거나 맥은 Command+Enter 키를 눌러준다. 이를 통해 우리는 R 프로그램에게 내 파일을 "Stats" 폴더 안에서 찾아보라고 말하는 것이다.

참고로 getwd()를 입력하면 현재 어디서 R이 데이타를 찾고 있는지 알 수 있다. 처음에 R을 사용하다보면 이 폴더 설정 때문에 데이타를 못찾는다고 오류메세지 나고 그러는데, 시작할 때 잘 워킹 디렉토리를 설정해놓으면 한결 편하게 사용할 수 있다. 함께 공부하고싶은 분들을 위해 데이타를 첨부해놓았다. .csv파일이든 .excel파일이든 아무거나 다운받으면 된다. 데이타는 한국아동청소년 패널데이타 중 성별(gender), 학업성취도(aca_achieve), 친구관계(peer), 자아존중감(selfesteem) 데이타 일부를 가져왔다.

친구관계와 자아존중감 데이타가 여러개인 것은 여러 문항으로 이루어진 척도로 이루어져있기 때문이다. 일반적으로 심리학에서는 하나의 문항으로 변인을 측정하는 것을 추천하지 않는다. 여러개의 문항을 통해 측정해야 그 개념을 좀 더 정확히 측정하고 오류를 줄일 수 있기 때문이다.

먼저 csv 파일을 열어보자. csv파일을 열기 위한 코드는 다음과 같다.

data <- read.csv(file = 'filename.csv', header = TRUE, sep = ",", na.strings = ".")

file - 파일 이름 입력
header - 만약 첫번째 가로 칸이 변인이름을 포함한다면 TRUE 라고 입력하여야 한다.
sep - 각각의 값을 분리해주는 분리자(seperator)를 명시적으로 R에게 알려주는 것
na.strings - 결측치를 어떻게 표현했는지 R에게 알려주기 위함이다. 만약 결측치가 빈칸이라면 " ", 결측치가 NA로 표시되어 있다면 "NA" 등을 입력해야한다. 여러 방식으로 결측치를 표시했다면 다음과 같이 표시가 가능하다. na.strings = c("NA", ".")

read.csv 이하는 그 파일을 불러오는 데 사용되는 r 코드라 할 수 있고, 그 앞의 data<- 코드는 우리가 그 파일을 <-를 통해 data라 부르기로 한다는 것을 의미한다. 아래 예시를 보면 나는 child.csv를 불러오면서 child_data라고 이 데이타 이름을 붙인 것을 볼 수 있다. 실행시키면 왼쪽 빨간 네모칸에 데이타가 추가된 것을 볼 수 있다.

file=부분은 생략 가능하므로 생략하였다. sep도 생략가능. 파일을 불러올때 csv 파일에 꼭 어포스트로피(')를 붙여야 파일이 열린다.

위 예시에 r 작업창에서 r회색 작업창 위에 #을 붙이면서 아래 코드가 무엇을 하기 위한 작업인지 설명을 덧붙일 수 있다. R프로그램에서는 샾을 붙이면 이는 무시하고 통계를 돌린다.

그 다음은 엑셀파일을 열어보자. 엑셀파일을 열기 위해서는 엑셀 패키지를 다운받아야 한다. r에서는 여러 패키지가 있고 패키지에 내가 사용하고자 하는 코드가 속해있다. 패키지를 다운받기 위한 코드는 다음과 같다.

install.packages()

엑셀파일을 열기위해 필요한 패키지는 readxl이다. 패키지 이름에 어포스트로피를 꼭 사용하여야 한다.

install.packages('readxl')

r 작업창에 이를 입력하면 아래와 같이 패키지가 잘 다운 된 것을 볼 수 있다.

한번 패키지를 다운받으면 그 다음부터는 다운받을 필요가 없으며, library코드를 사용하여 그 패키지를 사용하겠다고 R에게 알리면 된다. 지금도 엑셀패키지를 사용할 것이니 library(readxl) 을 입력하여 실행시킨다. 이때는 어포스트로피를 사용할 필요는 없다. 그 다음 이제 엑셀패키지를 열어보자. 엑셀 파일을 열기위한 코드는 다음과 같다. 해당하는 파일의 "Sheet1"에 해당하는 데이타를 가져오라는 것이다. 엑셀시트의 이름을 ""안에 넣어주면 된다.

data<-read_excel("file name", sheet="Sheet1")

나는 다음 코드를 사용하였다. csv파일과 구분짓기 위해서 child랑 data 사이에 _대신 .를 사용하였다.

child.data <- read_excel("child.xlsx", sheet = "Sheet1")

아래에 보면 왼쪽에 child.data가 생긴 것을 볼 수 있다.

참고로 r 회색창에서 해당하는 줄에 마우스 커서를 클릭한 후 ctrl+enter를 누르면 그 해당하는 줄이 실행되고, 오른쪽 재생칸을 누르면 그 칸 내에 전체 코드가 실행된다.

만약 r 프로그램 내 오른쪽에 나타나는 변인이나 데이타를 지우고 싶다면 rm 기능을 사용한다.

rm(child_data) 를 실행하면 오른쪽 위 창에서 child_data가 사라진 것을 볼 수 있다.

r의 좋은 점은 내가 여태까지 실행한 코드의 역사를 줄줄이 볼 수 있다는 점이다. child_data를 다시 불러오고싶다면 child_data<-read.csv('child.csv', header=TRUE, na.strings = "") 를 다시 입력하지 않고 다시 이를 입력한 줄에 가서 실행시키면 된다.

저작자표시 비영리 변경금지 (새창열림)

'Study > 통계 공부 + R' 카테고리의 다른 글

R 기초: 데이타 구조, 데이타 클리닝(하위데이타 선택하기, 제거하기) (0)	2020.12.04
기초통계. 이변량 통계1: 상관분석 기초 (0)	2020.12.03
기초통계. 기본개념3 (빈도, 중심경향, 분산도, 모수치와 통계치, 추론통계) (0)	2020.12.03
통계 프로그램 R 설치하기, R Studio 설치하기 (Mac 기준) (5)	2020.12.03
기초통계. 기본 개념2 (표집오차, 신뢰도, 타당도) (0)	2020.12.03

밍BLOG

R 시작하기: csv 및 excel 데이타 불러오기

R 스튜디오 시작하기

데이타 불러오기

'Study > 통계 공부 + R' 카테고리의 다른 글

댓글

티스토리툴바

R 시작하기: csv 및 excel 데이타 불러오기

R 스튜디오 시작하기

데이타 불러오기

'Study > 통계 공부 + R' 카테고리의 다른 글

관련글

댓글

티스토리툴바