학위논문_ref

[Reference] An Approach to Assembling Optimal Multistage Testing Modules on the Fly

자유로운포도씨 2022. 12. 26. 23:34

Han, K. T., & Guo, F. (2013). An approach to assembling optimal multistage testing modules on the fly. GMAC Research Reports RR-13-01.

 

이 연구는 기존의 MST-R(MST by routing)에서 발전한 Mutlstage test by shaping(MST-S)을 제안함

MST-S는 MST-R와 CAT의 장점을 모두 가지고 있음

 

- 문항을 개별적으로 관리하는 것보다 문항 그룹을 한번에 관리하는 것에는 장점이 있음; 예를 들어 하나의 지문에 포함된 문항 집합인 경우 문항 의존성 및 enemy management관련 복잡성을 방지하기 위해 문항을 하나의 모듈로 관리하는 것이 적절함; 또한, 시험 규격 및 특성을 제어할 수 있으며 CAT에 비해 컴퓨터에 주는 부담이 작음; 피험자의 test anxiety를 줄여줄 수 있음

 

⁕MST-R의 단점

1. MST는 측정 효율성이 부정적인 영향을 미칠 수 있음 ; 단계의 수를 무한정 늘리면 적응성을 향상시킬 수 있지만, 특정 단계에서 해당 문항이 사용되도록 설계되기 때문에 상당히 많은 문항이 필요해짐(It would require considerably more items to build an MST with many stages compared with CAT for the simple reason that in MST, item modules are designed for use only in one specific stage.)

2. MST의 또다른 단점은 능력 수준, 혹은 전체에 걸쳐 최종 test information function(검사 정보함수; TIF)의 inconsistency; 모듈이 사전에 구성될 때, 각 단계에 대한 모듈의 검사정보함수 수준은 피험자의 능력과 관계없이 일관되게 제어됨

(2,3단계 모듈정보함수는 비슷한 모양이며, 모듈정보함수의 피크에만 차이가 있음)

Figure 1

 

- 유사한 형상의 정보함수를 가지는 문항 모듈을 조립하기 위해서는 일반적으로 mixed integer grogramming 같은 기법 필요

- 각 단계에 대해 유사한 정보 함수 모양을 가진 문항 모듈을 구성하는 것은 검사의 어떤 단계에서 모듈 선택과 관계없이 선택된 문항 모듈이 제공하는 정보함수의 일관성을 유지하는 것에 도움이 되기 때문에 중요하게 고려된다. 그러나 이러한 것이 최종 일관된 TIF를 보장하지 않음

- 각 stage의 어떤 모듈을 선택하여 검사를 응시했는지에 따라 같은 능력임에도 TIF의 차이가 크게 나타남

- 또한 같은 검사를 응시했더라도 능력에 따라서 TIF의 차이가 크게 나타남

- 이는 피험자들의 검사 신뢰도 제어에 큰 어려움을 초래할 수 있음

-또다른 문제는 중간 능력 추정치가 cut score에 접근할 때, 다음 stage에 어떤 모듈이 결정되는지에 따라 다음단계에서 선택된 모듈이 최적이 아닐 가능성이 꽤 높음. 이것은 중간 능력 추정치가 신뢰할 수 없고, MST 초기단계에서 추정치의 표준오차가 큰 경우에 문제가 될 수 있음. 각 단계에서 모듈이 작고, 문항 난이도 측면에서 모듈 간 중첩이 충분하지 않을 때 심각해짐

"Another problem of MST occurs when an interim proficiency estimate is very close to the cut score. Depending which test module routing is decided for a following stage, there is a considerable likelihood that the module selected for the next stage will be less than optimal. This can be problematic especially when an interim proficiency estimate is unreliable and showing large standard errors of estimation during earlier stages of MST. Such a problem becomes even more serious when there are fewer modules at each stage and insufficient overlap between modules in term of item difficulty."

 

- MST-S는 TIF의 문제점을 해결하고 적응성(adaptability)을 향상시키기 위함; MST-S는 미리 모듈을 만드는 대신에 즉석으로 모듈을 생성

1) TIF를 평가하고 지금까지 응시한 문항으로 임시 θ를 추정

2) 중간 θ에서 다음 단계에 대한 현재 TIF와 목표 TIF 간의 차이를 평가

(Evaluate the difference between the current TIF and target TIF for the next stage at the interim θ)

3) 2)를 기반으로 다음 문항 모듈의 정보함수의 이상적인 모양을 나타내는 TIF mold를 구축

4) 3)의 mold를 기반으로 문항 모듈을 생성 

5) 4)에서 생성된 문항 모듈을 관리

6) 마지막 단계가 끝날 때까지 반복

 

 

- MST-R의 경우 노출 제어를 위해 라우팅 규칙이 있는 몇개(k)의 동등 패널을 구축함; 문항 노출률은 1/k로 줄어들게 됨

- MST-S는 (최적의 문항을 찾은 다음 노출 제어를위해 다른 random factor를 도입하는 일반적인 CAT 알고리즘과는 반대로,) 문항을 무작위로 선택하고, 다음 단계에서 각 내용 영역에 필요한 문항 수에 따라 문항을 무작위로 추출함. 초기의 random drawing of items가 완료되면 반복적인 shaping rouitne이 시작된다.

 

Simulation Design

- MST-R의 조건: 1-3-3/모듈당 문항수 20/ 첫단계는 넓은 난이도의 문항/2단계와 3단계는 난이도에 따라 3개로, 노출 제어 위한 패널 3개

- CAT-MFI(Maximum Fisher Information) + randomesque 3개

- CAT-b-blocking + a-stratification + randomesque 3개, 

- MST-S의 조건: 20개의 문항씩 3단계, 각 단계별로 대상 TIF를 설정하고, θ 척도의 3개 평가점 θ-1, θ, θ+1, 첫번째 단계의TIF 대상은 4, 5, 4, 2단계는 9, 15, 9, 3단계는 12,25, 12; MST-R 조건에서 설정된 모듈의 누적 TIF를 기반으로 MST-S가 유사한 수준의 측정 정밀도를 목표로 할 수 있음

- MST-S의 모듈 형성을 위해 3, 6, 100번의 반복

- -3과 3 사이의 균일분포에서 60,000개의 피험자 무작위 추출, 첫번째 문항(CAT-MFI,CAT-aStr, MST-R)을 선택하기 위해 초기값은 -0.5와 0.5 사이에서 추출한 난수, 중간능력치는 EAP로 추정하고, 최종 단계는 MLE로 추정

 

Result

 

- 3회 반복하는 후에도 MST-R과 유사한 측정정밀도를 가질 수 있음 

- MST-R에 비해 MST-S는 모든 단계에서 적격 문항을 사용할 수있으므로 전체 문항 풀 활용 수준이 향상됨

- MST-S가 만능은 아님; 측정효율성이 주요 관심사이고 문항의 노출 제어가 필요하지 않은 경우 CAT가 더 적합할 수 있음