본문 바로가기
Study/통계 공부 + R

SEM 책 정리 (1)구조방정식 소개

by PhD_Ming 2022. 1. 28.
300x250

구조방정식(Structural Equation Model; SEM)이란? 

  • SEM은 다양한 유형의 모델을 사용해 관찰된 변수 간의 관계를 설명함. 
  • 동시에, 연구자에 의해 가설화된(hypothesized) 이론적 모델의 양적 검증을 제공함.
  • 여러 변수 집합이 구성개념을 정의하고, 구성 개념들은 특정 방식으로 관련되어 있을 것이라 가설 설정됨.
  • SEM의 목표는 이론적 모델이 얼마나 잘 표본 데이타에 의해 지지되는지 결정해주는 것임. 만약 표본 데이타가 이론적 모델을 지지한다면, 더 복잡한 이론적 모형이 가설화 될 수 있음. 만약 표본 데이타가 이론적 모델을 지지하지 않는다면, 본래의 모델은 수정되어 검증되어야 하며, 아니면 다른 이론적 모델이 개발되고 검증되어야 함.
  • 결론적으로 SEM은 구성개념간의 복잡한 관계에 대한 우리의 이해를 향상시키기 위해 이론을 바탕으로 한 가설을 검증하는 과학적 방법이라 할 수 있음.
  • SEM은 다양한 유형의 이론적 모델을 검증할 수 있는데, 가장 기본적으로는 회귀, 경로, 확인적 요인 모델이 있음. 이러한 모델에 대한 이해는 구조방정식의 기본적 이해를 도울 수 있음. 이런 기본적인 SEM 모델을 이해하기 위해서는 용어를 먼저 정리하고 가야함.

 

구조방정식에서의 두 가지 주요 변인 유형

1. 잠재 변수 (latent variable; construct 구성개념, factor 요인): 직접 관찰되거나 측정되지 않은 변인이라 할 수 있음. 간접적으로 측정/관찰되며 따라서 시험, 설문 등을 사용해 관찰된 변수 집합으로부터 추정됨. 예를 들면 지능은 심리적 구성개념을 대표하는 잠재변수라고 할 수 있음.

2. 관찰된/측정된/지표 변수(observed/measured/indicator variable): 잠재변수/구성개념을 정의 혹은 추론하기 위해 사용하는 변수들의 집합임. 에를 들어 Wechsler Intelligence Scale for Children-Revised(WISC-R)은 아동의 지능이라는 구성개념을 추론하기 위해 사용되는 도구로 측정된 변수(점수)를 제공해줌. 각각의 관찰된/지표변수는 잠재 변수에 대한 하나의 정의를 대표함. 연구자들은 여러 지표 변수의 집합을 사용해 잠재변수를 정의하며, 따라서 다른 측정 도구들은 지표 변수를 얻기 위해 사용됨. 

잠재변수이든, 측정된 변수이든 상관없이 변수들은 독립변수 & 종속변수로 나뉨

  • 독립변수(independent variable): 모델에서 다른 변수에 의해 영향을 받지 않는 변수. 
  • 잠재변수(dependent variable): 모델에서 다른 변수에 의해 영향을 받는 변수.

6장~8장에서는 회귀, 경로, 확인적 요인 모델에서  관찰된 변수와 잠재변수가 독립 혹은 종속변수로 정의되었을때의 사용방식을 설명해줌.

  • 회귀모형(regression model)은 단일 종속 관찰변수가 하나 이상의 독립 관찰 변수에 의해 예측 혹은 설명되었을 때, 관찰된 변수만으로 구성됨. 
  • 경로모형(path model)은 완전히 관찰 변수로 구성되지만, 유연함으로 인해 다수의 독립 관찰 변수와 다수의 종속 관찰 변수를 가질 수 있게 함. 경로모형은 따라서 회귀모형보다 더 복잡한 모형을 검증할 수 있음.
  • 확인적 요인 모형은 하나 이상의 잠재 변수(독립이거나 종속)를 측정하도록 가설화 된 관찰 변수들로 이루어져 있음. 예를 들어 식단 조절, 운동, 생리(physiology)는 건강함이라는 독립 잠재 변수의 관찰된 측정치임.

이 기본 모델들을 이해하는 것은 구조 방정식을 이해하는 데 기본이 되는 데, 구조 방정식은 이들의 결합이라고 할 수 있기 때문. 

 

구조방정식의 역사

구조방정식의 역사를 설명하기 위해서는 회귀, 경로, 확인적 요인, 그리고 구조 방정식 모델을 순서대로 얘기해볼 수 있다.

선형 회귀 모형(linear regression model)

상관계수와 최소 제곱 기준(least squares criterion)을 사용해 회귀 가중치를 계산하는 모델이라 할 수 있음. 이는 Karl Pearsondl 1896년 두 변수의 관계를 나타내는 지표인 상관 계수를 구할 수 있는 방정식을 만들었기에 가능한 모델임. 회귀 모형은 종속 관찰 변수 점수(Y)를, 잔차들의 제곱의 합을 최소화하는 독립 관찰 변수 점수(X)들의 집합의 선형 가중치를 예측하는 모델이다. 회귀 분석은 예측에 유용한 이론적 모델 검증을 제공해준다. 

확인적 요인 분석(confirmatory factor analysis)

이후 Charles Spearman은 상관 계수를 사용해 요인 모형을 만들기 위한 목적으로 상관계수를 사용한다. 기본 아이디어는 만약 문항들의 집합이 서로 상관관계에 있다면, 이 집합에 대한 개인들의 반응 역시 합해져 구성개념을 측정하고, 정의하고, 혹은 추론하는 점수를 생산할 수 있을 것이라는 것이었다. 스피어맨은 지능 이론을 위해 두 요인으로 이루어진 구성개념을 정의하는 데 "요인 분석"이라는 용어를 처음 사용한 사람이다. 이후 Lawley와 Thurstone은 요인 모형의 적용을 더 발달시켜 관찰된 점수로 부터 구성개념을 추론할 수 있는 도구를 제안하였다. 현대에 사용되는 많은 성취 지표, 진단 검사, 설문 등은 이러한 요인 분석 기법을 사용해 만들어졌다. 확인적 요인분석(CFA)이라는 용어는 Howe, Anderson과 Rubin, 그리고 Lawley의 초기 작업에 기반한다.

확인적 요인분석 기법은 이후 Karl Joreskog에 의해 더 완전히 발달되었는데, 문항들의 집합이 구성개념을 정의하는지 검증한다. 그는 이와 관련해 박사 졸업논문을 쓰고, 그의 첫 논문을 출판하고, 소프트웨어 프로그램을 개발했다. 요인분석은 100년이 넘는 기간동안 많은 학술 분야에서 측정 도구를 만드는 데 사용되었고, 반면 오늘날 확인적 요인 분석은 이론적 구성개념의 존재를 검증하기 위해 사용된다. 

경로모형(Path Model)

생물학자인 Sewell Wright은 세번 째 유형의 모형을 개발했음. 경로 모형은 상관계수와 회귀 분석을 사용해 관찰 변수들 간의 더 복잡한 관계를 모형화한다. 경로 분석의 첫 적용은 동물 행동 모형에서 이루어졌다. 경로모형은 1950년대 계량 경제학자들에 의해 구조방정식모형으로 재고려되고 사회학자들에 의해 재발견 되기 전까지 크게 무시되어 왔다. 경로 분석은 경로 모형에서 관찰된 변수들간의 관계를 이론적으로 설립하는 동시적 회귀 방정식의 집합을 해결한다. 예를 들어 교육적 생산성에 대한 이론적 모형이 5~8학년 학생들을 대상으로 검증되었다. 집 환경, 또래 집단, 미디어, 능력, 사회적 환경, 과제 시간, 동기, 그리고 도구적 전략 등의 변수들간의 관계가 단일 모형에서 분석되었다. 이런 변수들 간 모든 가설화된 경로는 통계적으로 유의미함을 보여주어, 교육적 생산성 모델을 지지하였다.

구조방정식 모형(Structural Equation Model)

구조방정식은 필수적으로 경로모형과 확인적 요인 모형을 결합한다. 즉, SEM은 잠재 및 관찰 변수 모두를 포함한다. 초기 SEM 모델의 개발은 Karl Joreskog, Ward Keesling, David Wiley에 의한 것이었음. 이 접근법은 초반에 JKW로 알려져 있었지만, 이후에는 선형 구조 관계 모형(Linear structural relation model; LISREL)으로 점점 알려졌으며, 이는 첫 소프트웨어 프로그램인 LISREL에 의한 이유기도 했다. 그때 이후로, 많은 구조방정식 논문들이 출판되었다. 하나의 예로 부모의 효능감이 청소년 학생들에게 미치는 이론적 모형을 검증한 연구가 있는데, 전체 표본에 대해 이웃의 질은 부모의 효능감을 예측하였고, 부모 효능감은 다시 부모의 개입 및 감독을 예측해주었으며, 이는 다시 학생의 학업적, 그리고 사회 정서적 적응을 예측하였다.

 

왜 구조방정식을 사용하나?

구조방정식이 유명한 이유는 무엇일까? 그 이유에는 최소 네가지 주요 이유가 있다. 

  1. 첫 번째 이유는 연구자들이 자신의 과학적 질문 영역을 더 잘 이해하기 위해 점점 더 다수의 관찰 변수를 사용할 필요가 있음을 인식했기 때문이다. 기존의 통계적 방법론은 제한된 수의 변수만을 사용할 수 있었기 때문에, 복잡하게 발달되는 이론을 다루기에는 부족하였다. 반면 SEM은 복잡한 현상을 통계적으로 모형화해 검증하는 것이 가능하며, 따라서 양적인 방식으로 이론적 모형을 확인하는 데 선호되는 기법이 되었다.
  2. 두 번째 이유는 측정 도구를 통한 관찰 점수의 타당도와 신뢰도에 대한 더 큰 인식에서 온다. 구체적으로, 측정 오류는 맣은 분야에서 주요 문제점이 되었지만, 측정 오류와 데이타에 대한 통계적 분석은 개별적으로 다루어졌다. 구조방정식 기법은 명백하게 측정 오류를 고려하여 데이타를 통계적으로 분석할 수 있다. 이후 더 다룰 것이지만, SEM 기법은 잠재변수와 관찰 변수, 그리고 측정 오류를 포함할 수 있다.
  3. 세 번째 이유는 어떻게 구조방정식이 30년동안 발달했는지, 특히 더 발전된 이론적 SEM모형을 분석하는 능력의 발달과 관련 있다. 예를 들어, 이론적 모형에서의 집단간 차이는 다중 집단 SEM 모형에서 평가될 수 있다. 추가로, 하나 이상의 수준에서 수집된 교육적 데이타(지역, 학교, 교사, 학생)를 분석하는 것 역시 중다 수준 SEM 모형화를 사용해 분석할 수 있다. 상호작용 역시 이제는 SEM 모델에 포함될 수 있어 주효과와 상호작용 효과를 검증할 수 있다. 이러한 더 발전된 SEM 모델과 기법들은 많은 연구자들에게 복잡한 현상의 복잡한 이론적 모형을 분석할 수 있는 힘을 제공해주었으며, 따라서 기존의 통계 방법에 덜 의존할 수 있게 해주었다.
  4. 마지막으로, SEM 소프트웨어 프로그램이 사용자가 쉽게 이용할 수 있게 점점 개발되었던 것이 한몫한다. 

 

 

 

출처: Schumacker, R. E., & Lomax, R. G. (2004). A beginner's guide to structural equation modeling. psychology press.

반응형

'Study > 통계 공부 + R' 카테고리의 다른 글

SEM 책 정리 (3)상관  (0) 2022.02.04
SEM 책 정리 (2)데이타 정리하기  (0) 2022.02.04
SEM 구조방정식 (2)  (0) 2022.01.28
SEM 구조방정식 (1)  (0) 2022.01.21
범주화하기: 로지스틱 회귀, r 통계 분석  (0) 2021.01.01

댓글