학위논문_ref

[Reference] A study of alternative approaches to non-normal latent trait distributions in item response theory models used for health outcome measurement

자유로운포도씨 2022. 11. 30. 16:21

Smits, N., Öğreden, O., Garnier-Villarreal, M., Terwee, C. B., & Chalmers, R. P. (2020). A study of alternative approaches to non-normal latent trait distributions in item response theory models used for health outcome measurement. Statistical Methods in Medical Research, 29(4), 1030-1048.

 

서론

- 건강에 관한 연구를 시행할 때는 통증이나 우울증과 같은 직접적으로 관찰할 수 없는 변수를 설문지를 통해서 측정하게 됨. 이러한 연구에서는 정규성 가정에 문제가 있을 수 있는데, 주로 두 가지를 해당 연구에서 다루고 있음

  • non-normal distribution 1)  zero inflation은 "건강문제가 없는 대다수의 경우"를 제외하고 "건강문제가 있는 소수의 경우"를 구분할 때 심각 정도에 따라서 더 미세하게 구분되어야 하는 경우에 발생하게 됨(quasi-traits); 모집단은 둘 이상의 하위집단으로 구분되게 되고, 하나의 하위집단(e.g. 우울증 X)에서는 0 패턴이 나타나 정보가 없음(In fact, a latent score cannot be assigned to respondents from this population, since a complete zero pattern does not contain information about the specific latent score.) ; 이를 해결하기 위해서는 하나의 하위집단(e.g. 우울증 O)에서는 그 정도에 따른 정규분포를 가정하고 나머지 경우에는 variance가 없는 두 개의 분포로 가정함(a normal distribution for the latent variable has been suggested for the regular response process and a constant distribution for the latent variable under the other response process.)
  • non-normal distribution 2) skewness(This situation may arise when the majority of the population has low to medium latent trait scores but a small fraction with much higher scores is also present)

- 정규성 편차가 클수록, 문항모수 및 능력 모수(점수) 추정이 정확하지 않게 됨 

  • Rash 모델의 MML 추정의 견고성을 조사한 연구에서는 정규성을 벗어날수록 편향이 증가(Zwinderman AH, Van Den Wollenberg AL. Robustness of marginal maximum likelihood estimation in the Rasch model. Appl Psychol Meas 1990; 14: 73–81.)
  • positive skewness인 경우 negative bias로 인해 낮게 추정(Woods CM. Ramsay-curve item response theory (RC-IRT) to detect and correct for nonnormal latent variables. Psychol Methods 2006; 11: 253–270.)
  • 극단값에 대해 더 크게 나타남(Boulet JR. The effect of nonnormal ability distributions on IRT parameter estimation using full-information and limited-information methods. Thesis, University of Ottawa, Canada, 1996.)
  • zero-inflation에서 편향이 나타남(Finkelman MD, Green JG, Gruber MJ, et al. A zero-and K-inflated mixture model for health questionnaire data. Stat Med 2011; 30: 1028–1043./Wall MM, Park JY, Moustaki I. IRT modeling in the presence of zero-inflation with application to psychiatric disorder severity. Appl Psychol Meas 2015; 39: 583–597.)

- 비정규성으로 인한 편향을 처리하기 위한 IRT 모델

  • zero-inflated mixture IRT (ZIM-IRT) (Finkelman et al., 2011/Wall et al., 2015)
  • skewed latent distributions인 경우 Ramsay Curve IRT (RC-IRT) (Woods, 2006) and Davidian Curve IRT (DC-IRT).(Woods CM, Lin N. Item response theory with estimation of the latent density using Davidian curves. Appl Psychol Meas 2009; 33: 102–117.)

- PROMIS ANGER item bank에서 추출한 29개 문항으로 구성된 다분문항 연구(Reise SP, Rodriguez A, Spritzer KL, et al. Alternative approaches to addressing non-normal distributions in the application of IRT models to personality measures. J Personal Assess 2017; 100: 1–12.)에서는 GRM과 비교하여 기울기 추정치가 RC-IRT에서 더 높고, ZIM-IRT에서 더 낮고, 임계값 추정치에서 RC-IRT의 범위가 더 작고 ZIM-IRT의 범위가 더 컸다고 보고했음. 그러나 경험적 데이터를 사용했기 때문에, TRUE VALUE없어 상대적 성능 비교가 어려움; Monte Carlo 시뮬레이션 필요

- ZIM-IRT는 10개, 11개의 문항으로 구성된 이분형 응답 데이터로 시뮬레이션 평가된 적 있음; DC-IRT는 아직 다분문항을 이용한 시뮬레이션이 거의 없음; 따라서 추가 연구 필요

 

연구방법

- 정규성이 위반된 설문지를 분석하기 위해 GRM(Graded Response Model), ZIM-GRM(Zero-Inflated Mixture IRT) 및 Davidian Curve IRT(DC-GRM) 비교 시뮬레이션 연구

- 조건: 응답자수(500, 1000), 문항수(5, 25, 50), ratio of zero-respondents(0, 10, 25%), skewness of the latent score distribution(0, 0.5, 0.75) 

- 각 distribution 별로 2*3*3=18개의 조건, 총 36개의 조건을 100번 반복시행

- ML(maxium likelihood)로 추정, bias, RMSE를 통해 편향정도 계산

 

연구결과

- 500명과 1000명의 결과가 유사함

- zero-inflation에서 GRM showed high bias overestimating discrimination parameters and yielding estimates of threshold parameters that were too high and too close to one another, 반면 ZIM-GRM showed no bias.

- skewness에서 GRM과 DC-GRM showed little bias, (GRM이 좀더 나은 결과를 보여줌, 이전 선행연구와 다른점)

 

논의

- GRM이 좀더 나은 결과를 보여준 이유; creating skewed distribution에 차이가 있어서 

해당 연구에서는 Fleishman의 방법(which resulted in distributions with zero kurtosis)(Fleishman AI. A method for simulating non-normal distributions. Psychometrika 1978; 43: 521–532.)을 사용하였으나, Woods(2006), Woods&Lin(2009)의 연구에서는 mixtures of normals 사용

경험적으로 왜도만 있는 분포는 왜도, 첨도가 모두 있는 분포보다 쉽게 normal distribution에 근사됨

"The choice for using HQC(Hannan-Quinn information Criterion) for model selection was based on the recommendations from the simulation study that examined DC-IRT for dichotomous items, but possibly this index is not optimal in the case of polytomous items; it is advised that future research compares the index with more conservative indices like the Bayesian information criterion."

- ZIM-IRT의 확장가능성; maximum-inflation (an excess of patterns containing only the highest item category for each item).

"Overestimation of discrimination parameters leads to standard errors of latent trait estimates that are too optimistic, which in computerized adaptive testing could lead to assessments that stop too early. Moreover, if one blindly interprets the latent trait estimates under the metric of the standard normal distribution (e.g., using percentile ranks), then respondents may seem to score less extreme than they actually do. Therefore, when calibrating item banks for the assessment of health outcomes, it seems like a good practice to consider the possibility of subpopulations."