본문 바로가기
Study/통계 공부 + R

SEM 책 정리 (2)데이타 정리하기

by PhD_Ming 2022. 2. 4.
300x250

데이타 정리하기

 

측정 척도(measurement scale)

변인이 어떻게 측정되었는지는 어떤 통계적 분석을 할지 결정할 때 영향을 줌

  • 명명척도
  • 서열척도
  • 등간척도
  • 비율척도

각 척도에 대한 설명 참고: https://daily1123.tistory.com/entry/기초통계-1-기본-개념1-기술추론-통계-표집방식-변인-척도?category=722850 

 

기초통계. 기본 개념1 (기술/추론 통계, 표집방식, 변인, 척도)

학부 시절 통계수업을 들으면서 왜 심리학관데 수학 수업을 들어야 하는거지 어리둥절한 적이 있었다. 지금은 통계의 중요성을 깊이 체감하며 학교에서 왜 더 많은 통계수업을 개설하지 않는지

daily1123.tistory.com

 

범주에 대한 제한

간격척도나 비율척도는 더 나아가 연속(continuous), 불연속(discrete) 변수로 나뉠 수 있음

  • 연속
  • 불연속

또 Joreskog는 15개의 구분된 척도 점수의 존재를 기반으로 간격 혹은 등간 척도 변수를 구분할 수 있다고 했음

 

결측치(Missing Data)

통계 분석은 변수의 결측치의 영향을 받음. 이를 어떻게 처리할지 몇가지 옵션이 있음

목록별 삭제(Listwise) 어떤 변수든 결측치가 존재하는 피험자 데이타를 모두 삭제함 
대응별 삭제(Pairwise)
분석에 사용되는 변수에 결측치가 존재하는 경우 해당 케이스를 제외한 채 분석을 진행함
평균 대체(Mean substitution) 결측값을 그 변수의 평균으로 대체
회귀 대체(Regression imputation) 결측치를 예측된 값으로 대체
기댓값 최대화(Expectation maximization;EM) 기대치 최대화 알고리즘에 기반하여 예상된 값 찾기
반응패턴 맞추기(Matching response pattern) 불완전한 데이타 사례들을 완전한 데이타 사례와 대응시켜 결측값 결정하기

이 옵션에 따라 분석에 크게 영향을 줌. 목록별 & 대응별은 많은 피험자 케이스를 지울 경우 추천하지 않음. 결측치가 적은 경우 평균 대체가 최선일 수 있는 반면 결측치의 양이 어느정도 된다면 회귀 대체가 더 나을 수 있음. 결측치가 많은 경우 EM이 추천되기도 함.

 

이상치(Outliers)

이상치는 독립 혹은 종속변수에서 극단적, 혹은 정상적이지 않은 데이타값이라 할 수 있음. 이상치는 관찰 오류, 데이타 입력 오류, 도구 오류 , 실제 자기 보고 데이타 중의 극단 값 등등으로 인해 나타날 수 있음. 이상치는 평균, 표준편차, 상관 등에 영향을 주기 때문에 설명되거나, 제거되거나, 다른 통계치를 사용해 대체되어야 함.

 

선형성(Linearity)

SEM을 포함해 일부 통계 기법들은 변인들이 선형적으로 서로 관계있다고 가정함. 따라서 일반적인 관습은 산점도(scatterplot)를 사용해 두 축에 데이타를 시각화하는 것. 이는 데이타가 선형적인 관계에 있는지 아닌지 보여줌. 곡선관계라면 피어슨 상관의 크기를 감소시킴.

 
비정규성(nonnormality)
SEM 결과 분석에 영향 줄 수 있기에 꼭 확인해야함. 단변량 검증, 다변량 검증, 왜도(skewnewss), 첨도(kurtosis) 통계치를 통해 확인할 수 있음. 변형(transformation), 추가적인 표집, 부트스트래핑, 점수 표준화, 혹은 다른 추정법 사용해 해결 가능.

 

반응형

'Study > 통계 공부 + R' 카테고리의 다른 글

SEM 구조방정식 (3)  (0) 2022.02.05
SEM 책 정리 (3)상관  (0) 2022.02.04
SEM 책 정리 (1)구조방정식 소개  (0) 2022.01.28
SEM 구조방정식 (2)  (0) 2022.01.28
SEM 구조방정식 (1)  (0) 2022.01.21

댓글