Tests Adaptativos Informatizados

8/18/2019 Tests Adaptativos Informatizados

1/142


2/142

Julio Olea y Vicente Ponsoda

TESTS ADAPTATIVOSINFORMATIZADOS

UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA


3/142

Quedan rigurosamente prohibidas, sin la

autorización escrita de los titulares del Copyright, bajo las sanciones establecidasen las leyes, la reproducción total o parcial de esta obra por cualquier medioo procedimiento, comprendidos la reprografíay el tratamiento informático, y la distribuciónde ejemplares de ella mediante alquiler o préstamos públicos.

© Universidad Nacional de Educación a Distancia

Madrid 201

©

dición l: de 201


4/142

Presentación

Cuando elaboramos la presente monografía lo hacemos con elobjetivo básico de que nuestros alumnos (los presenciales y,fundamentalmente, los no presenciales) del curso “Tests AdaptativosInformatizados”, del programa de doctorado interuniversitario de“Metodología de las Ciencias del Comportamiento”, dispongan deforma ordenada de los contenidos básicos para un buenaprovechamiento del mismo. Dada la gran variedad de formación enPsicometría que tienen nuestros alumnos, hemos optado por incluiruna breve introducción a la Teoría de la Respuesta al Ítem (TRI) paraquienes no hayan tenido la oportunidad de estudiarla en sulicenciatura. Pueden ampliarse los conocimientos sobre estos modelosen los textos en castellano de López Pina (1995), Martínez Arias(1995, caps. 10 y 11), Muñiz (1997), Santisteban (1990, caps. 10 a14) y, en esta misma serie, en Santisteban y Alvarado (2001, caps. 4 y5). En cuanto a los objetivos que nos marcamos, no vamos a

limitarnos a mostrar el funcionamiento básico de este tipo de pruebas,sino que pretendemos entrar en la descripción de los principalesdesafíos con que se enfrenta en la actualidad la investigación teórica yaplicada sobre el tema. Es nuestro interés acercar al estudiante losdiferentes métodos de investigación que se aplican para resolver los

problemas, para lo cual describiremos determinados trabajos deinvestigación, entre los cuales se encuentran algunos de losdesarrollados por un equipo al que pertenecen de forma estable Pedro

Hontangas (Universidad de Valencia), Steve Wise (James MadisonUniversity) y Francisco Abad, Javier Revuelta, Carmen Ximénez ynosotros mismos, en la Universidad Autónoma de Madrid.


5/142

Resulta un tanto paradójico transmitir en papel la complejidad de procedimientos implicados en estas pruebas, que por definición seaplican en soporte informático. Los alumnos tendrán la oportunidaddurante el curso de comprobar cómo se responde a este tipo de testsen un ordenador, la información que proporcionan, diversas variantesen los algoritmos y algunas de sus ventajas e inconvenientes.

Madrid, Noviembre de 2002Los autores


6/142

Índice

1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA

1.1. Elementos básicos y beneficios previsibles..................... 5 1.2. Orígenes, desarrollo y aplicaciones.................................. 9

2. CONCEPTOS BÁSICOS DE LA TEORÍA DE LARESPUESTA AL ÍTEM

2.1. Ventajas de la teoría de la respuesta al ítem.................... 132.2. Algunos modelos de la teoría de la respuesta al ítem...... 15 2.3. El supuesto de unidimensionalidad.................................. 202.4. Estimación del nivel de rasgo.......................................... 21 2.5. Precisión de las estimaciones........................................... 27

3. DISEÑO DEL BANCO DE ÍTEMS

3.1. Componentes de un banco de ítems................................. 31 3.2. Elaboración de ítems........................................................ 31 3.3. Calibración....................................................................... 34 3.4. Propiedades psicométricas............................................... 41 3.5. Mantenimiento y renovación del banco de ítems............. 45

4. ALGORITMOS ADAPTATIVOS

4.1. Proceso de aplicación de un TAI.................................... 47 4.2. Procedimientos de arranque............................................ 484.3. Métodos de estimación del nivel de rasgo...................... 51


7/142

TESTS ADAPTATIVOS INFORMATIZADOS4

4.4. Algoritmos para la selección de ítems............................. 54 4.5. Procedimientos de parada................................................ 61 4.6. Requerimientos informáticos........................................... 63

5. PROPIEDADES PSICOMÉTRICAS DEL TAI 5.1. Precisión........................................................................... 67 5.2. Validez............................................................................. 69

6. INVESTIGACIÓN ACTUAL EN TESTS ADAPTATIVOSINFORMATIZADOS(en colaboración con P. Hontangas, F. J. Abad y J. Revuelta)

6.1. Presentación..................................................................... 736.2. Precisión y sesgo de las estimaciones.............................. 756.3. Alternativas a la información de Fisher........................... 79 6.4. Restricciones en la selección de ítems............................. 82 6.5. Control de la exposición................................................... 85

6.6. Generación automática de ítems...................................... 876.7. Nuevos modelos............................................................... 946.8. Condiciones de aplicación............................................... 1086.9. Otros objetivos de investigación...................................... 114

7. REFERENCIAS BIBLIOGRÁFICAS.................................... 125


8/142

Capítulo 1

Introducción conceptual e histórica

1.1.- Elementos básicos y beneficios previsibles

Un Test Adaptativo Informatizado (TAI) es una prueba,construida para fines de evaluación psicológica o educativa, cuyosítems se presentan y responden mediante un ordenador, siendo sucaracterística fundamental que se va adaptando al nivel decompetencia progresivo que va manifestando la persona. Taldenominación, hoy generalmente empleada en los trabajos publicadosen castellano y propuesta por primera vez en Olea y Ponsoda (1996),es la traducción de la expresión inglesa “Computerized AdaptiveTest” (CAT).

Los elementos básicos de un TAI son: a) un banco de ítems con

propiedades psicométricas conocidas, es decir, con parámetrosestimados desde un modelo de la Teoría de la Respuesta al Ítem(TRI) determinado, b) un procedimiento que establezca la manera decomenzar y finalizar la prueba, así como la forma de seleccionar

progresivamente los mejores ítems, y c) un método estadístico deestimación de los niveles de rasgo. Aunque ya desde Binet se hanintentado procedimientos de evaluación adaptativos mediante tests

psicológicos (sus tests de inteligencia tenían formas diferentes segúnel nivel educativo de los niños), en las últimas décadas, y dada laconfluencia entre los avances psicométricos realizados desde la TRI ylos avances técnicos en el campo de la informática, se handesarrollado instrumentos informatizados para presentar únicamente


9/142


los ítems que resultan altamente informativos para estimar el nivel decada sujeto en un determinado rasgo. Entre otros factores, el nivel deinformación depende de que los ítems seleccionados para unevaluando tengan una dificultad apropiada para su nivel de rasgo. Eneste sentido, en un test convencional de longitud fija se presentantodos los ítems que lo integran (y en la misma secuencia) a todos losindividuos. Para una persona en concreto, los ítems que le resultenmuy fáciles o muy difíciles pueden contribuir poco a determinar deforma precisa su nivel; de hecho, los tests fijos requieren ítems dedificultad heterogénea y tienen algunas características mejorables:requieren mayor tiempo para la aplicación y pueden incrementar enlos evaluandos su sensación de aburrimiento (si se le presentanmuchos ítems que le resultan fáciles) o de fracaso (cuando un númeroelevado de ítems resultan excesivamente difíciles para su nivel). Sinembargo, desde la conocida propiedad de invarianza de la TRI, en unTAI será posible estimar los niveles de rasgo de personas diferentesen la misma escala aunque hayan respondido a ítems diferentes

(fáciles, los evaluandos de bajo nivel; difíciles, los de alto nivel derasgo).En principio, cualquier test informatizado tiene ya determinadas

ventajas de indudable valor aplicado (Olea y Hontangas, 1999): permiten homogeneizar las condiciones de aplicación, establecercontroles para preservar la seguridad de la prueba, registrarinformación que puede ser útil para la evaluación (por ejemplo, lostiempos de respuesta a los ítems), conseguir un rápido procesamientode los datos, minimizar errores de corrección, proporcionar feedbackinmediato a los evaluandos, evaluar procesos psicológicos básicos uotro tipo de destrezas o competencias que exigen la presentación de lainformación de forma dinámica, etc.

Parshall, Davey y Pashley (2000) han denominado como “tiposinnovadores de ítems” a los que se benefician del soporte informáticoen varios aspectos relacionados con su construcción (uso de sonido,gráficos, animación o vídeo) o con el procedimiento de respuesta (porejemplo, marcar en figuras o gráficos, seleccionar partes de un texto,

mover objetos, reordenar estímulos, escribir el resultado de un problema, responder mediante micrófono...). Los TAIs, dada su


10/142

CAPÍTULO 1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA 7

condición adaptativa, tienen al menos tres importantes ventajasadicionales:

a) Mejoran la seguridad del test, ya que gran parte de los ítemsque se presentan a los evaluandos son diferentes. Esta es una

preocupación fundamental de los responsables de laevaluación en contextos aplicados ya que, incluso cuando sedecide aplicar tests convencionales, uno de los mayoresobstáculos a la validez de los tests es que los evaluandos

puedan conocer de antemano los ítems que se le van aadministrar. Como veremos, esto no significa que los TAIsresuelvan el problema de la copia o transmisión de los ítems(suele ocurrir que un escaso porcentaje de ítems se aplican amuchos evaluandos), pero el problema es menor que en lostests convencionales de lápiz y papel o en los testsinformatizados fijos; de hecho, cualquier algoritmoadaptativo desarrollado recientemente incorpora

procedimientos para preservar la integridad del banco deítems en que se fundamenta el TAI.

b) Reducen el tiempo de aplicación (a veces a menos de lamitad), ya que consiguen niveles similares de precisión quelos tests convencionales con un número menor de ítems. Paralas empresas responsables de la aplicación, el tiempo seasocia inexorablemente a los costes de la evaluación. Para losevaluandos, que además suelen manifestar una actitud

positiva hacia los tests informatizados en general y hacia losTAIs en particular, este tipo de pruebas tienen la ventaja de

permitir conocer sus puntuaciones en varios rasgos o áreas deconocimiento en una única sesión de evaluación, queeventualmente podría incluso realizarse mediante Internet.

c) Permiten además, con el mismo número de ítems que un testconvencional, realizar estimaciones más precisas. Bajo

condiciones similares a las de un test convencional (entiempo requerido y número de ítems aplicados) un TAI permite mayores garantías (menor error de medida) respecto


11/142


a los niveles que se estiman y, por tanto, respecto a lasdecisiones que se toman a partir de las puntuaciones en lostests. Si el banco tiene un tamaño suficiente de ítems conelevado poder discriminante para los diferentes niveles derasgo, un TAI puede resultar enormemente eficaz para medirlos niveles extremos de rasgo, algo difícil de conseguir en laaplicación de tests convencionales, informatizados o no.

Estos tres aspectos resultan muy importantes cuando se realizanaplicaciones masivas de tests de rendimiento o de conocimientos, porejemplo en contextos de selección de personal, de evaluacióneducativa o en pruebas de certificación profesional o licenciatura. Dehecho, algunos de los TAIs que más se aplican (por ejemplo el CAT-ASVAB, el CAT-GRE o algunos tests de certificación) tuvieron susancestros en versiones de lápiz y papel o en versiones informatizadasconvencionales, que requerían más tiempo de aplicación (por tantomayor incomodidad para los evaluandos y, bajo ciertas

circunstancias, mayores costes) además de mayor riesgo de difusión para futuras aplicaciones a las mismas o a distintas personas. Decualquier forma, resultaría equívoco creer que los tests adaptativosrepresentan la “piedra filosofal” de la evaluación mediante tests

psicométricos. Lo han reflejado muy bien algunos autores (Wainer,2000b, Wainer y Eignor, 2000) al reflexionar sobre los resultados dela masiva aplicación de los TAIs que se ha producido en la últimadécada y al analizar bajo qué circunstancias u objetivos de evaluaciónresultan auténticamente útiles; para estos autores, tiene sentido suuso: a) cuando la naturaleza del constructo sea tal que laadministración informatizada ayude a su evaluación, b) cuando el testha de ofrecerse de forma continua y no sólo una o pocas veces al año,y c) cuando las personas que hacen el test , y por supuesto losresponsables de la aplicación, tienen interés en obtener el nivel derasgo correcto (por ejemplo, cuando la puntuación estimada va aservir para recomendar o no un determinado programa de instrucción,o en situaciones donde los evaluandos no tienen interés en obtener

una puntuación más alta o baja que les dé más posibilidades de serseleccionado a un puesto de trabajo,..). Algunos inconvenientes,como por ejemplo la necesidad de calibrar bancos en muestras muy


12/142


numerosas, la escasa información diagnóstica que proporcionan odeterminados impactos negativos que pueden tener en los evaluandos, podrían incluso hacerlos inviables en la práctica.

Tampoco los TAIs pueden considerarse como algo único einvariable. Existen modos bastante diferentes de aplicar de formaadaptativa un banco de ítems, pueden utilizarse modelos de TRIdiferentes para estudiar sus propiedades y, como veremos, tienentodavía que dar respuesta a diversos interrogantes o problemas, tantotécnicos como aplicados, que se intentan responder desde diferenteslíneas de investigación.

1.2.- Orígenes, desarrollo y aplicaciones

Las primeras experiencias sobre aplicación adaptativa de ítemslas desarrollaron Binet y Simon (1905), quienes construyeron tests deinteligencia diferentes según la edad o el nivel educativo de los

estudiantes.Sin embargo, al plantear los orígenes de los TAIs resulta

obligado citar la obra de Lord y Novick (1968), fundamentalmentelos capítulos de Birnbaum en este libro, donde se establecen las basesde la TRI y los fundamentos estadísticos para ordenar a diversosevaluandos en la misma escala de medida aunque hayan respondidoítems distintos.

La idea original de los TAIs fundamentados en la TRI es de Lord

(1970), y se ha desarrollado durante los años 80 en el marco de unconvenio de la Universidad de Minnesota (dirigido por D. Weiss) conel ejército estadounidense para elaborar versiones adaptativas delArmed Services Vocational Aptitude Battery (ASVAB). La necesidadaplicada del ejército era realizar estimaciones precisas de los nivelesaptitudinales de muestras muy numerosas y heterogéneas decandidatos. Durante una década se estudiaron las previsibles ventajasde una versión adaptativa de este test, aplicado anualmente a más de500.000 personas, antes de utilizarla realmente como prueba de

selección. A mediados de los 80 se aplicó la primera versiónadaptativa del ASVAB.


13/142


Durante las décadas de los 70 y 80 se propusieron diferentes procedimientos o estrategias adaptativas de selección de ítems (unadescripción más detallada puede verse en Renom, 1993), algunas delas cuales se idearon para la presentación de los ítems en formato de

papel y lápiz, dado que en esos años los ordenadores difícilmente podían realizar con la rapidez necesaria los cálculos matemáticosrequeridos por la TRI:

a) Lord (1971c) propuso la estrategia de dos etapas, según lacual todos los evaluandos responden a un primer test deescasa longitud (test rutina). Después de estimar sus nivelesde rasgo, se aplica a cada sujeto uno de k tests de ubicación,homogéneo en dificultad y apropiado para el nivel estimadoen el test rutina.

b) También Lord (1971a,b) propuso la estrategia de nivel flexible, apropiada para la administración de bancos de escasa

longitud. Se divide el banco de ítems en dos mitades segúnsu dificultad: la primera con los ítems más fáciles y lasegunda con los más difíciles; se comienza con el ítem dedificultad media; si se acierta se pasa al siguiente más difícily si se falla se presenta el siguiente más fácil (entre los que nose han presentado todavía de esa mitad); la prueba se terminacuando se responde a la mitad del banco.

c) Weiss (1974) describe varias estrategias alternativas deramificación fija o estructura de árbol, que tienen en comúnel establecimiento previo de una ordenación de los ítems amodo de pirámide según su dificultad; la elección de un ítemdepende de la respuesta al ítem previo, pero las posiblessecuencias de ítems a presentar están prefijadas de antemano.

d) Lord (1980) describe una estrategia de ramificación variable,según la cual se estima un nivel provisional de rasgo después

de responder a un número determinado de ítems y se elige elítem más informativo para dicho nivel; este procedimiento deselección se denominará como método de “máxima


14/142


información”. Owen (1975) había propuesto previamente procedimientos bayesianos de selección progresiva de ítems.

En paralelo a los desarrollos psicométricos comienzan aensayarse los primeros TAIs en contextos aplicados para laevaluación de conocimientos de diversas oposiciones (Urry, 1977),exámenes escolares (Cusick, 1989; Kingsbury, 1990), aptitudesintelectuales (Lord, 1977; McBride, 1988; Schoonman, 1989) odominio del inglés (Abernathy, 1986).

Actualmente existen versiones adaptativas de testsconvencionales, por ejemplo, del Test of English as a ForeignLanguage (TOEFL), del Graduate Management Admissions Tests(GMAT), o del Graduate Record Exam (GRE), de diversos tests deaptitudes intelectuales (como el Differential Aptitude Tests), y demúltiples tests desarrollados tanto en Estados Unidos como en Europa

para evaluar los conocimientos y aptitudes en contextos de selecciónde personal (por ejemplo, el CAT-ASVAB en su versión actual o

algunos subtests de la batería MICROPAT para la selección de pilotos y controladores aéreos), en pruebas de admisión a centroseducativos (es el caso del Law School Admission Test), para laevaluación educativa de niños y jóvenes (por ejemplo el COMPASS

placement tests, el NWEA o el sistema CARAT), para la evaluaciónde conocimientos matemáticos de personas adultas (la pruebaholandesa MATHCAT) o en exámenes de licenciatura o certificación(por ejemplo los que se realizan en Estados Unidos para las

profesiones de enfermería y medicina). Wainer (2000b) plantea elcrecimiento exponencial de la aplicación de los TAIs, que él estimaen más de un millón de pruebas aplicadas en el año 1999 sólo enUSA.


15/142


16/142

Capítulo 2

Conceptos básicos de lateoría de la respuesta al ítem

2.1.- Ventajas de la teoría de la respuesta al ítem

Hace ya unos 40 años desde que se publicaron los primeros bosquejos de una nueva teoría de los tests, denominada como Teoríade la Respuesta al Ítem (TRI) o modelos de rasgo latente, en parte

para superar algunos de los inconvenientes de la más tradicionalTeoría Clásica de los Tests (TCT). Como es conocido, la TCTconsidera que la puntuación empírica de una persona en un test esigual a la suma de su puntuación verdadera y el error. Se asume quelos errores en un test son aleatorios (con media cero) en la población

de referencia, que correlacionan cero con las puntuaciones verdaderasy con los errores de otros tests. A partir de estos supuestos, y otrosadicionales sobre el concepto de formas paralelas, se deducenteoremas que posibilitan la obtención de medidas empíricas defiabilidad (coeficiente de fiabilidad, error típico de medida) y validez(coeficiente de validez, error típico de estimación) de los tests, asícomo indicadores estadísticos de las propiedades psicométricas de losítems (v.g. dificultad, discriminación,..).

Algunas de las limitaciones de la TCT, que por otra parteintentarán superar los diferentes modelos propuestos desde la TRI,son las siguientes:


17/142


a) Resulta difícil contrastar empíricamente el cumplimiento delos supuestos en que se fundamenta. b) Es evidente que las propiedades psicométricas de los ítems

(por ejemplo, los índices de dificultad y de discriminación) ydel test en su conjunto (coeficientes de fiabilidad y devalidez) dependen de las características de la muestra dondese obtienen (su nivel medio, su variabilidad) y de la propialongitud del test.

c) Resulta difícil comparar el rendimiento de dos personas endos tests diferentes que no son paralelos (por ejemplo, sitienen ítems de diferente dificultad).

d) La TCT asume que la precisión con la que se estima el nivelde rasgo de cualquier persona en un test es la misma.

Como cuestiones generales, desde la TRI se van a plantear lossiguientes objetivos fundamentales:

a) Establecer modelos estadísticos cuyo ajuste a los datos se puede contrastar. b) Realizar estimaciones invariantes de las propiedades

psicométricas de los ítems (independientes del nivel de rasgode las personas) y de los niveles de rasgo de las personas(independientes de las propiedades psicométricas de losítems). Por ejemplo, algo que resultará esencial en los TAIs,las estimaciones estadísticas del nivel de rasgo de dos

personas podrán compararse, aunque se les haya aplicadodistintos ítems (otra cosa será la precisión obtenida en cadacaso).

c) Obtener medidas individuales de precisión para cada personaevaluada.


18/142

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 15

2.2.- Algunos modelos de teoría de la respuesta alítem

Cualquier modelo de TRI establece una relación matemáticaentre la probabilidad de emitir una determinada respuesta a un ítem(v.g. dar con la respuesta correcta o elegir una de k categorías derespuesta) y otras características del sujeto (v.g. su nivel en uno o másrasgos) y del ítem (v.g. su dificultad o su discriminación). Cuando se

asume y se comprueba que el rendimiento en un ítem depende de unúnico rasgo latente se habla de modelos unidimensionales; cuando elrendimiento en un ítem depende de dos o más rasgos se habla demodelos multidimensionales. Por otra parte, si el modo decuantificación de las respuestas es dicotómico, normalmente el quecorresponde a ítems de rendimiento óptimo donde se producenaciertos y errores, se formulan modelos dicotómicos; si se consideranmás de dos categorías de respuesta (v.g. en ítems de escalas deactitudes o de tests de personalidad) se establecen modelos

politómicos. En las siguientes páginas describiremosfundamentalmente algunos modelos unidimensionales dicotómicos,aunque en apartados posteriores avanzaremos las características deciertos modelos multidimensionales y politómicos que representan la

base psicométrica de ciertos TAIs particulares que actualmente estánsiendo sometidos a prueba.

Comencemos por uno de los modelos más sencillos, que es unmodelo dicotómico unidimensional, denominado modelo logístico de

1 parámetro (1P) o modelo de Rasch:

)(

)(

1)(

j

j

b D

b D

e

e P

En este modelo P() es la probabilidad de acertar el ítem jcuando la persona tiene un nivel de rasgo . Este parámetronormalmente asume valores entre –4 y +4. b j es el parámetro dedificultad del ítem (normalmente asume valores entre –4 y +4, puesse mide en la misma escala que ), D es un valor constante (si D=1 se


19/142


habla de escala logística; si D=1.7, de escala normal), y e es la basede los logaritmos naturales (e=2.718).Con el modelo 1P se está asumiendo en realidad que el

rendimiento en un ítem depende únicamente del nivel de rasgo delsujeto y de la dificultad del ítem. Gráficamente, el funcionamiento decualquier ítem descrito por un modelo dicotómico unidimensional

puede representarse mediante la curva característica del ítem (CCI),que pone en relación los niveles con sus correspondientes P().

Figura 1. Curvas características de dos items para el modelo 1P

Véase por ejemplo la figura 1, en ella se han representado lascurvas características de dos ítems según 1P: el ítem 1 con unadificultad de 0 (curva más a la derecha), y el ítem 2 que tiene un

parámetro de dificultad igual a –2. La dificultad de un ítem indica por tanto el grado en que su CCI está desplazada hacia la izquierda(tendencia a la facilidad) o a la derecha (tendencia a la dificultad).Para un ítem en concreto, basta con sustituir en la expresión del

4,00

3,50

3,00

2,50

2,00

1,50

1,00

,50

,00

-,50

-1,00

-1,50

-2,00

-2,50

-3,00

-3,50

-4,00

P()

1,0

,8

,6

,4

,2

0,0

ítem 1

ítem 2


20/142


modelo 1P los correspondientes valores y su parámetro b paraobtener los correspondientes valores P().Si se analizan con detalle la expresión de P() y la figura

anterior, pueden comprobarse tres propiedades importantes de estemodelo:

a) Cuando el nivel de rasgo coincide con la dificultad del ítem,la probabilidad de acertarlo es igual a 0.5. Dicho de otro

modo, la dificultad de un ítem es el valor tal que P()=0.5. b) Si el nivel es extremadamente bajo, la probabilidad deacierto se aproxima a cero. En la expresión de P() se puedever que cuando el nivel tiende a -, el valor P() tiende a 0.Es decir, este modelo considera que no se producen aciertos

por azar.c) La pendiente que tiene la CCI en b es la misma para cualquier

ítem. Como veremos a continuación, tal pendiente tiene quever con la discriminación del ítem. Este modelo consideraque todos los ítems tienen la misma discriminación.

El modelo logístico de 2 parámetros (2P) incorpora a la funciónlogística un parámetro de discriminación del ítem (a j). Su expresiónmatemática es:

)(

)(

1)( j j

j j

b Da

b Da

e

e

P

donde a j es proporcional a la pendiente de la CCI en el valor = b j.Este parámetro de discriminación, que suele oscilar entre 0 y 3,indica el grado en que el ítem discrimina entre los niveles superiores e inferiores a la dificultad del ítem. Si la CCI tiene poca

pendiente en b j (a j cercano a 0), el ítem resulta poco discriminativo;si su pendiente es elevada, el ítem sirve para diferenciar los niveles derasgo por encima y por debajo de su dificultad.


21/142


En la figura 2 se representan las CCI de dos ítems según elmodelo 2P. Ambos tienen la misma dificultad (b=0) pero diferentediscriminación (a1=2, a2= 1).

Podemos observar que el punto de intersección entre las dos CCIindica precisamente que ambos tienen la misma dificultad, dado queen este caso coincide en los dos ítems que =0 para P() = 0.5.


Además, puede verse también que la pendiente de ambos ítemsen b no es la misma. El ítem 1 discrimina mejor que el 2 entre lossujetos que tienen un nivel de rasgo cercano a =0. Como ocurría enel modelo 1P, este modelo no considera tampoco la probabilidad deacierto aleatorio. Podemos comprobar también que, si en el modelo2P se sustituye el parámetro a por el valor 1, el modelo resultante esel 1P.

El modelo logístico de 3 parámetros (3P) añade al anterior unnuevo parámetro (c j), denominado como parámetro de pseudoazar(puede oscilar aproximadamente entre 0 y 0.5), que es la asíntotainferior de la CCI y representa la probabilidad que tienen de acertar el

4,00

3,50

3,00

2,50

2,00

1,50

1,00

,50

,00

-,50

-1,00

-1,50

-2,00

-2,50

-3,00

-3,50

-4,00

P()

1,0

,8

,6

,4

,2

0,0

ítem1

ítem2


22/142


ítem personas con nivel extremadamente bajo (límite de P()cuando tiende a -). Su expresión matemática es:

)(

)(

1)1()(

j j

j j

b Da

b Da

j je

ecc P

En la figura 3 se representan dos ítems con igual dificultad,

idéntica discriminación pero diferente parámetro de pseudoazar.Mientras que para el ítem 1 c1=0.5, el parámetro de pseudoazar delítem 2 es c2=0.1. Si supiéramos, por ejemplo, que ambos ítems tienendiferente número de opciones de respuesta, seguramente el ítem 2tendría mayor número de opciones que el ítem 1, ya que resultamenos probable de acertar teniendo un nivel de rasgo muy bajo.


4,00

3,50

3,00

2,50

2,00

1,50

1,00

,50

,00

-,50

-1,00

-1,50

-2,00

-2,50

-3,00

-3,50

-4,00

P()

1,0

,8

,6

,4

,2

0,0

ítem 1

ítem 2


23/142


Algunas propiedades de este modelo son:

a) Cuando c j=0, el modelo resultante es el 2P. b) El valor de c j suele asumir valores alrededor de 1/k, siendo k

el número de opciones de respuesta del ítem.c) A diferencia de los modelos 1P y 2P, en el modelo 3P, P(b j)=

(1+c j)/2. De ahí que las CCI representadas en la figura 3 nosean en principio muy ilustrativas para comprobarvisualmente la equivalencia en dificultad y discriminación delos dos ítems.

2.3.- El supuesto de unidimensionalidad

Los tres modelos expuestos son modelos unidimensionales,dado que suponen que el rendimiento en un ítem depende del nivelque tienen las personas en un único rasgo . El grado de

unidimensionalidad de un test o de un banco de ítems puede evaluarsemediante técnicas de análisis factorial exploratorio aplicadas a lamatriz de correlaciones entre los ítems (Lord y Novick, 1968). Unavez extraída la matriz factorial sin rotar, se estudia el porcentaje devarianza explicado por el primer factor. Algunos autores (Reckase,1979) plantean que se cumplen los mínimos de unidimensionalidadcuando este primer factor explica más del 20% de la varianza total.Conviene considerar que siempre puede ganarse enunidimensionalidad si después del primer análisis se eliminan losítems con cargas factoriales bajas en el primer factor sin rotar(Lumsden, 1976). Otro aspecto importante es el tipo de correlaciónmás adecuada para el tipo de datos que pretendemos estudiar(variables dicotómicas). Cuando se utiliza la correlación de Pearson,el primer factor sin rotar correlaciona significativamente con la

proporción de aciertos en los ítems, lo cuál se interpreta como un“factor espurio de dificultad”. Aunque tampoco está exento de

problemas, parece más adecuado un procedimiento (Lord, 1980) que

consiste en aplicar el análisis factorial sobre la matriz decorrelaciones tetracóricas, propuestas para el análisis de variablesdicotomizadas bajo el supuesto de distribución normal en las


24/142


variables continuas subyacentes. McDonald (1999) justifica yrecomienda el uso de modelos no lineales de análisis factorial.Existen muchos otros métodos para comprobar el grado deunidimensionalidad de las respuestas de una muestra a un test, variosde los cuales se exponen en Cuesta (1996).

2.4.- Estimación del nivel de rasgo

La primera vez que se aplica un test a una muestra debemosestimar los parámetros de los ítems, proceso que se denominacalibración, y también los parámetros de los sujetos. Una vez que eltest está calibrado, el problema estadístico se reduce a estimar losniveles de rasgo de los sujetos. Por motivos didácticos, vamos asuponer en principio que estamos ante esta segunda situación. Vamosa suponer además que un test está formado por 2 únicos ítems (losque hemos utilizado en la figura 1 para explicar el modelo 1P) con

parámetros b1=0 y b2=-2. Supongamos que una persona acierta el primero y falla el segundo. ¿Cuál es el nivel que más probablemente le correspondería a esta persona? Para responder aesta pregunta podemos establecer lo verosímil que resulta el patrón derespuestas dado para cada nivel posible (tomando en principio 17valores distintos en un rango desde –4 a +4). Como ha acertado el

primer ítem y ha fallado el segundo, para cada obtenemos el valorL=P1(1-P2), siendo P1 y P2 las correspondientes probabilidades de

acierto obtenidas mediante el modelo 1P. Gráficamente, losresultados L para cada valor serían los que se representan en lafigura 4.

Podemos observar en la gráfica que el nivel de rasgo que hacemás probable el patrón de respuestas observado es = -1, ya que elvalor máximo de L corresponde a dicho nivel de rasgo.


25/142


Figura 4. Estimación de L para cada nivel de rasgo

El procedimiento que hemos seguido se denomina estimación demáxima verosimilitud condicionada, dado que consiste en buscar elvalor asociado al máximo valor de la función de verosimilitud,tomados los parámetros de los ítems como conocidos. Obsérvese quese asume que, dado un nivel de rasgo concreto, la probabilidad deemitir un patrón de respuestas determinado es igual al producto de las

probabilidades de emitir cada respuesta individualmente, lo que seconoce como supuesto de independencia local , muy relacionado conel de unidimensionalidad. Para Santisteban y Alvarado (2001) ambossupuestos resultan equivalentes para datos estrictamenteunifactoriales.

En general, la función de verosimilitud se obtiene a partir de laexpresión:

4,00

3,50

3,00

2,50

2,00

1,50

1,00

,50

,00

-,50

-1,00

-1,50

-2,00

-2,50

-3,00

-3,50

-4,00

L

,08

,06

,04

,02

0,00

j j u

j

u

j

n

jQ P U L

1

1)|(


26/142


donde U es el vector de respuestas (aciertos, 1, y fallos, 0) a los ítems,P j es la probabilidad de acertar el ítem j (u j=1) dado un nivel de rasgo, y Q j es la probabilidad de fallarlo. Lo que significa que, dado undeterminado patrón de respuestas a los ítems que forman el test, elvalor L asociado a un nivel de rasgo se obtiene multiplicando lascorrespondientes probabilidades de acierto y error obtenidas medianteel modelo de TRI en uso.

Veamos otro ejemplo. Supongamos que una persona responde aun test de 5 ítems, con los siguientes parámetros de dificultad: b1=-2,

b2=-1, b3=0, b4=1 b5=2. Supongamos que la persona acierta los tres primeros ítems y falla los dos últimos. ¿Cuál será el nivel para elque la función L alcanza el máximo valor? Fijando 17 valores

posibles y aplicando el modelo de Rasch, obtenemos los datosseñalados en la tabla 1.

Tabla 1. Ejemplo de cálculo de L para cada nivel de rasgoP1 P2 P3 P4 P5 L=P1P2P3Q4Q5

-4,00 0,12 0,05 0,02 0,01 0,00 0,00-3,50 0,18 0,08 0,03 0,01 0,00 0,00-3,00 0,27 0,12 0,05 0,02 0,01 0,00-2,50 0,38 0,18 0,08 0,03 0,01 0,01-2,00 0,50 0,27 0,12 0,05 0,02 0,01-1,50 0,62 0,38 0,18 0,08 0,03 0,04-1,00 0,73 0,50 0,27 0,12 0,05 0,08-0,50 0,82 0,62 0,38 0,18 0,08 0,15

0,00 0,88 0,73 0,50 0,27 0,12 0,210,50 0,92 0,82 0,62 0,38 0,18 0,241,00 0,95 0,88 0,73 0,50 0,27 0,221,50 0,97 0,92 0,82 0,62 0,38 0,172,00 0,98 0,95 0,88 0,73 0,50 0,112,50 0,99 0,97 0,92 0,82 0,62 0,063,00 0,99 0,98 0,95 0,88 0,73 0,033,50 1,00 0,99 0,97 0,92 0,82 0,01

4,00 1,00 0,99 0,98 0,95 0,88 0,01


27/142


Por tanto, de los 17 niveles de rasgo considerados, la estimaciónmáximo verosímil coincide con el valor =0.5. En la última columnade la tabla 1 podemos observar que también existen otros niveles derasgo adyacentes que resultan bastante probables, pero esto es otracuestión que trataremos posteriormente al hablar de la precisiónasociada a una estimación concreta.

El problema de estimación es mucho más complejo ensituaciones reales. En primer lugar, es necesario trabajar contamaños muestrales N muy altos (normalmente por encima de 500sujetos), y no sólo con un sujeto como en los ejemplos anteriores. Ensegundo lugar, la primera vez que se aplica el test necesitamosestimar los parámetros de los sujetos y los parámetros de los n ítemsque forman el test, es decir, tenemos que realizar una estimaciónconjunta. En tercer lugar, el problema de la estimación y losrequerimientos muestrales son mayores cuantos más parámetrostenemos que estimar para los ítems. En cuarto lugar, los niveles derasgo considerados deben ser, desde luego, más de los 17 establecidos

en nuestro ejemplo. A la vista de lo anterior, se comprende que laestimación máximo verosímil requiere la obtención de los valores delos parámetros de las personas () y de los ítems (a, b, y c, siaplicamos el modelo 3P) que hacen máxima la función deverosimilitud L. La solución a este problema está bien resuelto:consiste en encontrar las soluciones del sistema de ecuaciones que seobtiene al igualar a cero la derivada de L respecto a cada parámetro.El sistema no tiene solución analítica y se recurre a procedimientos

numéricos para encontrar sus soluciones (ver Baker, 1992;Hambleton y Swaminathan, 1985;). Por razones de simplicidadmatemática, se suele maximizar LnL en vez de L, pues es más fácilde operar con LnL y se encuentran las mismas soluciones en uno yotro caso. Por lo tanto, si tenemos N personas y n ítems, la expresióna maximizar sería la siguiente:

N

i

n

j

ijijijij Qu P u L1 1

ln)1(lnln


28/142


Una explicación detallada y en castellano del procedimiento deaproximación numérica (de Newton-Raphson) se encuentra en LópezPina (1995, apartado 5.2.3) y en Santisteban y Alvarado (2001,apartado 2.3 del capítulo de estimación).

El método de estimación de máxima verosimilitud tiene unacaracterística que dificulta su uso para estimar progresivamente elnivel de rasgo de una persona a la que se aplica un TAI: no permiteobtener estimaciones finitas de mientras un sujeto tiene un patrónconstante de respuestas (todo aciertos o todo errores). En el modelo1P, si una persona responde a n ítems, cuyos parámetros suponemosconocidos, el estimador máximo verosímil de su nivel de rasgo es elvalor de obtenido al igualar a cero la expresión:

Se puede comprobar que a) si sólo ha habido aciertos (es decir uij

= 1, i: 1, 2, .. n), cuanto mayor es , más se acerca P al valor de 1 y por lo tanto más cerca estamos de la solución de la ecuación, b) sisólo ha habido errores, ocurre lo mismo cuanto más pequeño sea .Dicho de otro modo, cuando una persona obtiene un patrón constantede respuestas no puede obtenerse un máximo en la función deverosimilitud.

Una manera de resolver este problema es utilizar un procedimiento de estimación bayesiano, que permitirá obtener

estimaciones finitas aún con patrones constantes de respuesta. La ideafundamental es incorporar a la función de verosimilitud informaciónsobre la distribución a priori del rasgo en la población. Así, este tipode procedimientos establecen que el estimador de será la moda(estimación bayesiana MAP) o la media (estimación bayesiana EAP)de la distribución de probabilidad posterior de , P(|u), cuyaexpresión es:

)(/)(ln1

ijij

n

i j P u Du L


29/142


donde g() es la función de densidad (distribución a priori) del rasgo,L(U|) es la función de verosimilitud y L(U) es la verosimilitud del

patrón de respuestas U independientemente de .Dado que el denominador es un valor concreto, puede afirmarse

que la función de densidad posterior, P(|U), es proporcional al producto de la distribución a priori y la función de verosimilitud. Estosignifica que si la función g() fuera la uniforme, el estimador

bayesiano coincidiría con el máximo verosímil. Siguiendo a Baker(1992), puede demostrarse que, siendo g() una distribución normal

N(,), para la estimación bayesiana MAP el máximo se encuentraresolviendo la ecuación:

Como puede verse en la expresión anterior, el estimador MAP proporciona estimaciones finitas para , aún con patrones constantesde respuesta, dada la incidencia del primer sumando en la ecuación.

La estimación de parámetros en TRI es un asunto complejo. Los procedimientos de estimación vistos se combinan con tres estrategiasdistintas y dan lugar a los métodos de estimación conjunta, marginal

o condicionada. En el primer caso, se estiman simultáneamente los parámetros de los ítems y de las personas. En el segundo, a partir dela distribución conjunta de los ítems y de las personas, se obtiene ladistribución marginal de los estimadores de los parámetros de losítems, y a partir de esta información se obtienen los parámetros de las

personas. En los métodos condicionados los parámetros de los ítemsse obtienen a partir de su distribución condicionada, en vez de lamarginal. Puede encontrarse una descripción detallada de estosmétodos y sus características en Santisteban y Alvarado (2001, cap.5)y Revuelta y Ponsoda (2001, cap.3), en castellano y en Baker (1992)y Hambleton y Swaminathan (1985), en inglés.

0)()(

12

ijij

n

i

P u D

)()()(

)|()()|( U L g U LU L g U P


30/142


2.5.- Precisión de las estimacionesUna de las propiedades de la estimación de máxima

verosimilitud es que, asintóticamente (es decir, con un númerorazonablemente grande de ítems), la distribución del estimador de es normal, con media y varianza igual a:

donde P´es la derivada del correspondiente modelo. La raíz cuadradade la expresión anterior será el error típico de medida (e). Eldenominador de la expresión se denomina información del test oinformación de Fisher, y suele simbolizarse como I(). Dicho de otromodo, la información de un test para un valor de rasgo concreto es elinverso de la varianza del estimador para ese nivel. Puede observarseque la información del test es el resultado de sumar las informacionesde los n ítems que lo integran. De la misma forma, la relación entre elerror típico de medida y la información puede expresarse como:

El valor de I() para cada uno de los modelos logísticos seobtiene de la siguiente forma:

1) Para el modelo 1P:

)(

1

I e

n

i ii

i

Q P

P

1

2,

2

)|ˆ(

)()())((

1

)()()( 2 ii Q P D I


31/142


2) Para el Modelo 2P:

3) Para el modelo 3P:

A partir de las expresiones anteriores puede verse que lainformación de un test, y por tanto el error típico de medida, para undeterminado nivel de rasgo, depende fundamentalmente: a) de los

parámetros de discriminación de los ítems (cuanto mayores sean los parámetros a, mayor será el valor de la información), b) de los parámetros de pseudoazar (cuanto más bajos sean los valores de c,

mayor será la información), c) del número de ítems que tenga(suponiendo que los ítems tienen las propiedades psicométricasusuales, a mayor longitud, mayor información), y d) de laconvergencia entre el nivel de rasgo y los parámetros de dificultad bde los ítems (cuanto más próximos sean, mayor será el producto PQ,y por tanto más elevada será la información). Esto tiene una capitalimportancia para conseguir los objetivos que se pretenden con laaplicación de los TAIs: a pesar de aplicar pocos ítems, particularidad

que en principio dificultaría la obtención de una adecuada precisiónen la medida, conseguiremos buenos niveles de precisión si presentamos a una persona los ítems más apropiados para su nivel derasgo, es decir, aquellos ítems discriminativos y de dificultadapropiada para su nivel.

En la figura 5 se representan las funciones de información de los5 ítems y del test completo que sirvieron como ejemplo (tabla 1,apartado 2.3) para describir el cálculo de la función de verosimilitud,siguiendo el modelo 1P.

iiQ P a D I 22)(

2

222

)1(

)()(

c P

c P Qa D I

i

ii


32/142


Figura 5. Funciones de información de los ítems y del test

A partir de la gráfica concluimos que el test resulta másinformativo para valores centrales de rasgo que para nivelesextremos. Resulta curioso que, a pesar de que el test dispone de 5ítems heterogéneos en dificultad (lo cuál podría hacernos pensar queresultaría igualmente informativo para los diferentes niveles derasgo), los niveles más elevados de precisión se obtienen para unrango de valores centrales de rasgo, lo cuál resulta bastante habitualen la mayoría de los tests o bancos de ítems de rendimiento óptimo.Además, dado que se aplica el modelo 1P, podemos comprobar que elmayor nivel de información de un ítem coincide con los valores quese aproximan a su dificultad.

En el caso de la estimación bayesiana MAP, la varianza delestimador es de nuevo asintóticamente el inverso de la función deinformación (Mislevy y Bock, 1990), que en este caso queda como :

4,00

3,50

3,00

2,50

2,00

1,50

1,00

,50

,00

-,50

-1,00

-1,50

-2,00

-2,50

-3,00

-3,50

-4,00

I()

1,0

,8

,6

,4

,2

0,0

ITEST

I1

I2

I3

I4

I5


33/142


con lo que puede observarse que la información para un mismo nivelde rasgo es mayor en este método bayesiano que en el método demáxima verosimilitud (tanto mayor cuanto menor sea la dispersión dela distribución a priori de ).

)(1)(2

I J


34/142

Capítulo 3

Diseño del banco de ítems

3.1.- Componentes de un banco de ítems

Un banco de ítems se puede considerar como una base de datossobre los ítems que está formada por una parte sustantiva (enunciado,opción correcta, opciones incorrectas), cierta información

psicométrica (parámetros estimados de los ítems desde los desarrollosde la TCT o de la TRI) y cualquier otra que pueda ser relevante (v.g.contenido que mide cada ítem, tasas de exposición en aplicaciones

precedentes, distribución de respuestas en los distractores, etc.). Ningún algoritmo adaptativo resolverá los problemas derepresentación, tamaño o calidad psicométrica que pueda tener un

banco de ítems. Por tanto, todas las orientaciones que se establecen

para elaborar un buen banco (ver, por ejemplo, Barbero, 1999) son degeneral aplicación al caso en que el banco de ítems sea la basesustantiva fundamental de un TAI.

3.2.-Elaboración de ítems

a) Formato, número de opciones y especificaciones de contenido.

Como en cualquier test, los ítems del banco pueden incluirinformación verbal o gráfica, que puede ser presentada de forma


35/142


estática o dinámica mediante medios técnicos diversos (la propia pantalla, sistemas audio o vídeo, etc.).Cuando se pretende medir el rendimiento máximo (v.g.

conocimientos o rasgos intelectuales), lo más usual es utilizar unformato de respuesta de elección múltiple, aunque se están probandosistemas adaptativos para ítems de respuesta construida, como puedenser los que se desarrollan para evaluar el nivel de conocimientos enmatemáticas o en programación informática. Algunos trabajos queestudian el número óptimo de opciones que deben tener los ítems(Abad, Olea y Ponsoda, 2001) concluyen que tanto los indicadores

psicométricos clásicos como los derivados de la TRI se mantienen enniveles aceptables cuando se elaboran 3 buenas opciones derespuesta. Cuando el objetivo es la medición del rendimiento típico(v.g. rasgos de personalidad o actitudes) se establece un formato derespuesta de categorías ordenadas.

De cualquier forma, en uno u otro formato, todas lasconsideraciones técnicas sobre la construcción de ítems deben tenerse

en consideración en la elaboración del banco (ver, por ejemplo,Prieto y Delgado, 1996). Entre otras muchas cosas, yfundamentalmente cuando se quiere realizar una determinadaclasificación de los sujetos a partir de sus puntuaciones en el TAI(aprobado-suspenso, apto-no apto, admitido-excluido, etc.), resultaimportante el asesoramiento por parte de los especialistas en elcontenido que pretende medir la prueba. Por ejemplo, en países dondese aplican TAIs de conocimientos para objetivos de licenciatura, deacceso a determinado tipo de estudios o de certificación, sueleformarse un comité técnico, formado por miembros de la asociación

profesional, especialistas en el campo de interés y expertos enPsicometría, que se encargan de establecer los objetivos del test, loscriterios de rendimiento mínimo que definen el punto de corte, asícomo de realizar la construcción inicial y la revisión técnica del

banco de ítems. Estos especialistas son también los que indican a los psicómetras qué mínimos de contenidos (v.g. cierto número de ítems para cada una de las categorías diferentes especificadas) deben estar

incluidos en todas las aplicaciones del TAI, de cara a preservar lavalidez de contenido de las estimaciones que se realicen.


36/142

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 33

Para preservar el supuesto de independencia local, conviene quese cuide especialmente la redacción de ítems, de modo que un ítem no proporcione pistas para responder correctamente otro ítem. En el casode que varios ítems tengan evidentes relaciones sustantivas entre sí,conviene establecer ciertas restricciones en el algoritmo de selección

para que no se presenten simultáneamente a un mismo sujeto.

b) Tamaño del banco

El número de ítems que deben elaborarse tiene mucho que vercon otras consideraciones prácticas como, por ejemplo, con lacantidad de restricciones que se establecen en el algoritmo deselección de ítems, con el número previsible de aplicaciones del TAIen un futuro inmediato o con el propósito de diseñar bancos de ítemsdiferentes que se vayan rotando en las sucesivas aplicaciones.

Renom (1993) revisa varios trabajos donde se plantea el númerode ítems que debe tener un banco que se va a emplear en un TAI.

Algunos autores recomiendan un mínimo de 100 ítems, aunque lonormal es que tenga más de 500. Otros aconsejan que el banco tenga10 veces más ítems que los que se van a emplear como promedio enla aplicación del TAI. Muchos de los TAIs operativos disponen de

bancos con más de 1000 ítems (Wise y Kingsbury, 2000). El CAT-ASVAB, quizás el “buque insignia de los TAIs”, comenzó con laredacción de unos 4000 ítems (450 para cada una de las 9 áreas decontenido que incluye). El sistema CARAT (Computerized AdaptiveReporting and Testing), empleado en Portland para evaluar 5 áreasdiferentes de conocimientos en educación primaria y secundaria,dispone de un banco total de conocimientos matemáticos de 6.500ítems calibrados, de los que se van construyendo bancos parciales

para diferentes niveles educativos (varios para cada nivel) que se vanusando de forma rotatoria por razones de seguridad.

Cuando se establecen diferentes categorías de contenido,conviene que en cada una haya un número parecido de ítems (o en sucaso un número proporcional a las restricciones establecidas en el

algoritmo de selección) ya que, de lo contrario, los ítems que pertenecen a las categorías menos numerosas pueden sobrexponerseen las sucesivas aplicaciones del TAI. Adicionalmente al tamaño


37/142


requerido, algunos autores (Bergstrom y Lunz, 1999) aconsejan quela distribución de la dificultad de los ítems sea similar a la del rasgode la población de examinados.

3.3.- Calibración

Uno de los requerimientos que resultan más costosos en un TAI

tiene que ver con la necesaria calibración del banco de ítems a partirde los desarrollos de un modelo concreto de la TRI. Algunos estudiosempíricos (Hetter, Segall y Bloxon, 1994) concluyen que lacalibración realizada a partir de la aplicación en lápiz y papel

proporciona resultados comparables a la que se obtiene enaplicaciones informatizadas de los mismos ítems. Desde un punto devista operativo, este dato resulta importante dado que la aplicacióninformatizada siempre resulta más costosa a todos los niveles.

Para el proceso de calibración debe decidirse el tamaño mínimo

muestral recomendable, el modelo TRI más apropiado y si se va aestablecer un determinado diseño de anclaje y equiparación. Como encualquier otro test, deben comprobarse también el grado de ajuste delos ítems al modelo TRI seleccionado y otras propiedades

psicométricas adicionales.

a) Tamaño muestral

El tamaño de la muestra que se requiere para la calibración tieneque ver fundamentalmente con el número de ítems que tiene el banco(o cada uno de los bloques de ítems que se establezcan) y con elmodelo de TRI que se va a aplicar (los modelos con más parámetrosrequieren tamaños muestrales mayores). Una de las ventajas delmodelo de Rasch es que exige un tamaño muestral sensiblementeinferior a otros modelos (con 200 sujetos puede ser suficiente).Renom y Doval (1999) comentan que suele aceptarse como mínimoun tamaño muestral de 500 personas por cada bloque de ítems en que

se divida el banco en el diseño de anclaje (véase el subapartadosiguiente). Un tamaño insuficiente puede dar lugar a estimaciones delos parámetros de los ítems con alto nivel de imprecisión. En el caso


38/142


de los TAIs, por ejemplo, la sobrestimación de los parámetros dediscriminación de ciertos ítems puede dar lugar a medidas infladas de precisión. De todas formas, siempre pueden plantearse estudios desimulación para determinar los niveles de error y sesgo en laestimación de los parámetros que se obtienen con un banco concretoy ciertas condiciones muestrales particulares (tamaño, distribucióndel nivel de rasgo, etc.).

A veces, las condiciones reales llevan, por ejemplo, a calibrarmediante el modelo 3P un banco de 164 ítems de razonamientomatemático en una muestra de 200 sujetos (Zickar, Overton, Taylor yHarms, 1999), ya que el TAI correspondiente se aplicaba conobjetivos de selección de programadores informáticos en una empresade servicios financieros. Dada la escasez del tamaño muestral, estosautores procedieron mediante simulación a calibrar el banco bajo doscondiciones muestrales distintas (200 y 1000 sujetos simulados),comprobando que bajo ambas condiciones los niveles de precisión ysesgo que proporcionaba el TAI resultaban comparables.

Por poner otro ejemplo, los estudios de calibración del banco deítems del CAT-ASVAB, aplicando los desarrollos del modelo 3P, serealizaron a partir de las respuestas de 1500 sujetos por ítem.

b) Modelo de TRI

Aparentemente, el modelo 3P siempre sería preferible, en lamedida que es el que permite mayor flexibilidad para dar cuenta delos datos empíricos. Sin embargo, esto no siempre resulta así de claro

porque, entre otras cosas, la cantidad de parámetros que se tienen queestimar en este modelo (3*Nº de ítems) requiere tamaños muestralesmucho más grandes que, por ejemplo, el modelo 1P. De hecho,

bastantes de los TAIs operativos que más se usan (v.g. el CAT-GREo pruebas adaptativas para la certificación de la profesión deespecialistas médicos) se fundamentan en bancos de ítems calibradosmediante el modelo de Rasch. El sistema MATHCAT emplea elmodelo logístico de dos parámetros, ya que dispone de un

procedimiento de respuesta construida (teclear una soluciónnumérica) donde es mínima la probabilidad de acierto aleatorio.


39/142


Una vez aplicado el banco, algunos estudios preliminares puedenayudarnos a decidir sobre el modelo de TRI más apropiado. Porejemplo, obteniendo las tasas de acierto de los sujetos con bajo nivelde rasgo en los ítems más difíciles podemos tener información sobreel grado en que se han producido aciertos por azar (lo cuál podríaaconsejar la aplicación del modelo 3P). Estudiando la variabilidad delos índices clásicos de discriminación de los ítems, relacionados conlos parámetros a j, podemos obtener una información inicial sobre laviabilidad del modelo 1P. Suele ser frecuente en estas fases inicialesde análisis de ítems obtener los indicadores psicométricos clásicos y,

por ejemplo, eliminar los que obtienen correlaciones biseriales bajascon las puntuaciones directas en el total de la prueba. De cualquierforma, existen indicadores estadísticos de bondad de ajuste que debenaplicarse para tomar la decisión sobre los ítems a eliminar y sobre elmodelo a elegir.

c) Ajuste al modelo

Como ya dijimos, una de las principales ventajas de la TRI enrelación a la TCT es que puede contrastarse el grado de ajuste de losmodelos a los datos empíricos. En este sentido, las principalescomprobaciones que deben hacerse con el banco de ítems elaboradoinicialmente tienen que ver con: a) el grado de cumplimiento delsupuesto de unidimensionalidad, b) el grado de invarianza de los

parámetros (de los sujetos y de los ítems) estimados, y c) el grado enque el modelo predice los resultados empíricos observados.

Respecto al tema de la unidimensionalidad , Wise y Kingsbury(2000) recuerdan muy apropiadamente que un banco no tiene unadimensionalidad determinada, sino que esta es una cualidad de lasrespuestas emitidas por las muestras de sujetos que lo responden, y

por tanto puede variar de una muestra a otra. Por tanto, el grado deunidimensionalidad de un banco debe analizarse cuando se diseña por

primera vez, cuando se aplica a muestras diferentes de la inicial y,desde luego, cuando se añaden nuevos ítems. En el apartado 2.2

hemos visto algunos de los procedimientos más utilizados paraevaluar el grado de unidimensionalidad.


40/142


En cuanto a la invarianza de los parámetros, pueden realizarsedos comprobaciones distintas:

a) En relación a la invarianza de las estimaciones de , podemosobtener la correlación entre los niveles de rasgo que seestiman para toda la muestra de sujetos con dos submuestrasdistintas de ítems (v.g. los fáciles en el primer subtest y losdifíciles en el segundo). La correlación entre ambasestimaciones debería ser próxima a 1.

b) En cuanto a la invarianza de las estimaciones de los parámetros de los ítems, puede procederse a la calibracióndel banco en dos submuestras distintas (v.g. una formada porlos sujetos de menos nivel y la otra por los sujetos con máselevadas estimaciones de rasgo). Si aplicamos el modelo 1P,la correlación entre los valores b j estimados en ambassubmuestras debería ser próxima a 1.

En realidad, la invarianza de los parámetros es una propiedadderivada de un buen ajuste del modelo. Se han propuesto indicadoresestadísticos de bondad de ajuste para comprobar el grado en que cadaítem individualmente o el banco de ítems al completo se ajustan a unmodelo determinado. Uno de los procedimientos más comunes(Bock, 1972; descrito en Muñiz, 1997, pp. 73 y ss) consiste encomparar las CCI empíricas y teóricas, siguiendo este procedimiento:

a) Dividir el continuo de rasgo en “k” intervalos o categoríasdiferentes. b) Obtener la probabilidad teórica P( j) asociada al punto medio

del intervalo que predice el modelo correspondiente.c) Obtener la proporción empírica de aciertos - Pe( j)- de cada

una de las categorías.d) A partir de los datos anteriores, calcular el valor que asume el

estadístico:

2

1 )(1)(

)()(

k

j j j

je j j

P P

P P nQ


41/142


con distribución Chi-cuadrado con k-s grados de libertad,siendo s el número de parámetros del ítem según elcorrespondiente modelo TRI. Los valores de Q superiores alos valores críticos tabulares correspondientes indicarán undesajuste estadístico entre el modelo y los datos empíricos enel ítem. Si sumamos los n valores Q de un banco de ítems,obtendríamos un indicador global de ajuste con distribuciónChi-cuadrado con[(n-1)(k-s)] grados de libertad.

b) Diseño de anclaje y equiparación de parámetros

El elevado número de ítems que contienen los bancos hacemuchas veces inviable su aplicación completa a los mismos sujetos

para realizar la calibración. Una solución posible a este problemasería aplicar subconjuntos diferentes de ítems a muestras distintas desujetos, y proceder por separado a la calibración de esos tests. Ahora

bien, si no se ha fijado la escala de medida para los niveles de rasgo (su origen y su unidad de medida) los parámetros que se estimen paralos ítems no estarán expresados en la misma escala de medida. Pararesolver este inconveniente, suele establecerse un diseño de anclaje cuya versión más común consiste en dividir el banco en diversostests diferentes que tienen un conjunto de ítems en común(denominado como test de anclaje). Los diferentes tests seránaplicados a muestras diferentes de sujetos. Por ejemplo, si el bancoestá formado por 100 ítems pueden elaborarse 2 tests (X, aplicado enla muestra 1, e Y, aplicado en la muestra 2) de 60 ítems, cada uno con40 ítems diferentes y 20 que son comunes a ambos (test de anclaje -V-). Se trata de que el test de anclaje sea representativo del bancocompleto (v.g. en cuanto a dificultad prevista o en relación a lossubdominios que representan) y que suponga alrededor del 20% delnúmero de ítems que tienen los diferentes tests a equiparar (véase

Navas, 1996).Dado que los ítems que componen el test de anclaje V se han

aplicado a muestras diferentes, el proceso de equiparación de parámetros de los ítems más extendido consiste en seguir el procedimiento siguiente:


42/142


a) Por tratarse de los mismos ítems, las estimaciones dedificultad de los ítems de V habrán de estar relacionadaslinealmente. Por tanto, podremos expresar la dificultad de unítem en un grupo en función de la dificultad que hacorrespondido a ese mismo ítem en el otro grupo, mediante laecuación:

12 kbd b

donde b1 y b2 son las estimaciones de los parámetros dedificultad de los ítems que forman el test de anclaje Vobtenidas en el grupo 1 y 2, respectivamente.A partir de las dificultades de los ítems de V en los dosgrupos se obtienen las constantes k y d:

)1(

)2(

b

b

S

S k

siendo el numerador la desviación típica de los parámetros dedificultad de los ítems que forman V en el test Y (aplicado algrupo 2), y el denominador la correspondiente en el test X(aplicado al grupo 1).

21 bbk d donde b 1 y b 2 son, respectivamente, las medias de los

parámetros de dificultad de los ítems de anclaje obtenidas enlos tests X e Y.

b) Una vez transformadas las estimaciones de la dificultad de los

ítems de anclaje del grupo 1 a la métrica del grupo 2,

mediante la misma ecuación pueden transformarse las

estimaciones de la dificultad del resto de ítems (en nuestroejemplo, 40) aplicados al grupo 1, a la métrica establecida

como definitiva.


43/142


c) Si se han aplicado el modelo 2P o el modelo 3P, latransformación para las estimaciones de los parámetros dediscriminación es:

k

aa 12

Los parámetros de pseudoazar no necesitan transformación.

Aunque nuestro ejemplo se limita a establecer únicamente dos bloques de ítems, en situaciones operativas con bancos muy grandes(por ejemplo en el caso del banco inicial que soporta el CAT-ASVAB) se establecen hasta más de 40 bloques distintos de ítemscon tests de anclaje encadenados. El banco de matemáticas delsistema CARAT se dividió en 134 bloques.

Por otra parte, cuando un TAI tiene versiones iniciales en lápiz y papel, suelen establecerse diseños de anclaje para equiparar susestimaciones de rasgo; es decir, para expresar las estimaciones delTAI en la misma escala en que se expresaban las estimaciones en eltest convencional. En el caso del CAT-ASVAB, por ejemplo, se usóel método de equipercentiles basado en las puntuaciones directas, queera la escala del test de lápiz y papel de partida.

e) Software

Quizás el programa para la estimación de parámetros másempleado en la actualidad sea la versión para Windows de BILOG(Mislevy y Bock, 1990) que emplea el método de máximaverosimilitud marginal y los métodos bayesianos EAP y MAP paraestimar los parámetros de los 3 modelos logísticos. ASCAL yRASCAL (Assesment Systems Corporation, 1994) permiten realizar,respectivamente, una estimación pseudobayesiana según los modelos2P y 3P (ASCAL) y 1P (RASCAL), de tal forma que combina una

estimación de máxima verosimilitud conjunta con el procedimiento bayesiano MAP para la estimación de los niveles de rasgo, asumiendosu distribución normal en la población. MULTILOG (Thissen, 1991)


44/142


y PARSCALE (Muraki y Bock, 1996) realizan las estimaciones delos tres modelos logísticos y las de la mayoría de los modelos politómicos; el primero permite la aplicación de modelos politómicosnominales y ordinales, y realiza una estimación máximo verosímilmarginal para los parámetros de los ítems y permite la estimación

bayesiana para los parámetros de rasgo; el segundo realiza unaestimación de máxima verosimilitud marginal para los parámetros delos ítems con formato de respuesta ordenada. Existen programasespecíficos de estimación para el modelo de Rasch (v.g. WINSTEPS,FACETS,...) que proporcionan información más detallada sobre las

propiedades de los parámetros estimados.

3.4.- Propiedades psicométricas

Hemos indicado que, en principio, cuanto mayor sea el númerode ítems que incluye el banco mayor eficiencia tendremos en la

aplicación del TAI. Si el rango de los niveles de rasgo de la muestraes amplio, conviene disponer de un banco cuyos ítems seanheterogéneos en sus parámetros de dificultad (idealmente, ladistribución del número de ítems para cada valor de dificultad deberíaser uniforme) y tengan parámetros de discriminación elevados (conun número muy elevado de ítems para discriminaciones superiores a1). Por el contrario, si los objetivos de la aplicación son selectivos,conviene que existan muchos ítems de dificultad apropiada para el

nivel de rasgo donde se situará el punto de corte (no puede ocurrir, por ejemplo, que existan pocos ítems difíciles si se va a admitiraproximadamente al 2% de los candidatos que se presentan a un

proceso de selección). La representación gráfica de la función deinformación será ilustrativa de la precisión que tendrá el banco paradiferentes niveles de rasgo. Si, como suele ocurrir, la distribución delos parámetros de dificultad no es uniforme (dado que se dispone de

pocos ítems adecuados para los niveles extremos de rasgo), es muy probable que las estimaciones de dichos niveles extremos se realicen

con más imprecisión que la asociada a los niveles centrales.Una parte importante de la investigación que hemos desarrollado

sobre tests adaptativos y autoadaptados ha tenido su base sustantiva en


45/142


un banco de ítems de vocabulario inglés, cuyas propiedades sedescriben en Olea, Ponsoda, Revuelta y Belchí (1996). El banco inicialestaba formado por 250 ítems, cada uno de los cuales consta de lacorrespondiente palabra inglesa junto a 5 alternativas de respuesta,entre las que se encuentra su traducción correcta al castellano. Seintentó incluir palabras inglesas usualmente conocidas para diversosniveles de dominio del idioma y de categorías gramaticales variadas.

El banco se aplicó inicialmente, mediante soporte informático y deforma aleatoria, a una muestra de 425 personas1 de diferentes niveleseducativos (desde estudiantes de educación secundaria hasta doctores).Cada persona debe seleccionar mediante el teclado la alternativa queconsidera como correcta y confirmar su respuesta mediante la barraespaciadora. A partir de las respuestas de esta muestra se obtuvo paracada ítem, mediante los programas ITEMAN y ASCAL (AssessmentSystems Corporation, 1994): a) su índice de discriminación (correlación

biserial ítem-test), b) sus parámetros de discriminación (a), dificultad(b) y pseuodoazar (c) según el modelo 3P, y c) el grado de ajuste

(medida Chi-cuadrado) de los datos empíricos al modelo. Lavariabilidad de los índices de discriminación y la evidente posibilidadde acierto aleatorio nos hizo elegir este modelo. Se eliminaron 29 ítems

por no manifestar buenos indicadores (índices de discriminación bajos ovalores Chi-cuadrado muy elevados), con lo que el banco definitivoquedó constituido por 221 ítems, cuyas propiedades psicométricasfundamentales se detallan en las figuras 6, 7 y 8:

1 El tamaño muestral empleado en este trabajo no debe ser tomado como ejemplo delas necesidades muestrales que exige el modelo 3P.


46/142


Figura 6. Distribución de parámetros de discriminación

Figura 7. Distribución de parámetros de dificultad

Como puede observarse en la figura 6, la mayoría de los ítemstienen parámetros de discriminación aceptables (entre 0.8 y 1.5).

Parámetro de discriminación (a)

2.321.71.41.10.80.50.25

F r e c u e n c i a ( N )

40

30

20

10

0

Parámetro de dificultad (b)

3.22.41.60.80-0.8-1.6-2.4-3.2

F r e c u e n c i a ( N

30

20

10

0


47/142


Figura 8. Información según nivel de rasgo

Respecto a los parámetros de dificultad (ver figura 7), ladistribución de frecuencias resulta bastante uniforme, excepto paralos niveles de rasgo extremadamente altos. En la Figura 8 podemosver que la función de información no es simétrica respecto al nivel derasgo cero, con lo que el banco resulta más informativo para losniveles medios-altos que para los medios-bajos; podemos constatarademás que resulta muy informativo para los niveles centrales derasgo (aproximadamente entre –2 y 2). En relación al parámetro de

pseudoazar, la inmensa mayoría de los ítems obtuvieron un parámetroestimado entre 0.18 y 0.25, lo cuál resulta bastante coherente sirecordamos que el número de opciones de respuesta de cada ítem era5.

Para comprobar el grado de unidimensionalidad del banco, seobtuvo la matriz de correlaciones tetracóricas entre los 221 ítems, con el

programa PRELIS de la versión para Windows de SPSS. El primerautovalor de esta matriz representó el 25.0% de la varianza total, lo queresultó sustancialmente más elevado que la varianza explicada por el

segundo autovalor (5.7%).En relación a su validez como una medida del dominio del idiomainglés, se realizaron algunas comprobaciones adicionales. En primer

Niveles de rasgo

3.52.51.50.5-0.5-1.5-2.5 -3.5

I n f o r m a c i ó n

60

50

40

30

20

10

0


48/142


lugar, en una muestra de 62 personas, las estimaciones de su nivel devocabulario realizadas mediante el modelo 3P se correlacionaron con 3 puntuaciones del “Oxford Placement Test” (Allan, 1992): con el subtestde gramática (r=0.69), con el de “listening” (0.55) y con la puntuacióntotal (0.76). En segundo lugar, a partir de las respuestas de la muestra decalibración, se aplicó un análisis de varianza de un factor, donde lavariable independiente era el nivel educativo (1º, 2º, 3º y 4º desecundaria, estudiantes universitarios y doctores) y la dependiente, lasestimaciones del nivel de vocabulario. Prácticamente todas lascomparaciones de medias resultaron significativas, lo que indica lacapacidad del banco para discriminar los niveles de vocabularioobtenidos en los diferentes niveles académicos.

3.5.- Mantenimiento y renovación del banco deítems

Respecto al mantenimiento, los estudios sucesivos del banco pueden llevarnos a eliminar ítems con propiedades psicométricasinadecuadas (por ejemplo, ítems desajustados al modelo de TRIempleado, otros defectuosos en su redacción o algunos escasamentediscriminativos). El estudio de las tasas de exposición de los ítems(número de veces que se han presentado a diversos evaluandos)

puede hacer que los responsables de la aplicación decidan posponer la presentación de ítems que aparecen en un porcentaje elevado de las

aplicaciones del TAI.De cara a la renovación y ampliación del banco, en los TAIsoperativos suelen incorporarse progresivamente nuevos ítems, que nose usan inicialmente para estimar el nivel de rasgo de los evaluandos.La estimación de los parámetros de estos ítems nuevos se realizamediante un procedimiento denominado como calibración online,considerando como parámetros de los sujetos las estimacionesrealizadas en el TAI con los ítems antiguos y reduciendo así el

problema estadístico a la estimación de los parámetros de los nuevosítems. En el caso del CAT-ASVAB, los ítems experimentales que seincluyen en los TAIs operativos (uno sólo en cada aplicación) seincorporan al inicio del test, cuando para un sujeto se aplican ítems de


49/142


diferente dificultad debido a que las estimaciones de rasgo no son precisas en las primeras fases de la aplicación, es decir, cuando serealizan con pocos ítems. También mediante este procedimiento

pueden re-calibrarse los ítems originales a medida que se dispone demás respuestas a los mismos; Glas (2000) propone varios

procedimientos para estudiar si los datos iniciales y los nuevos pueden ser descritos mediante el mismo modelo de TRI, es decir, sien ambos conjuntos de datos se mantienen los valores de los

parámetros estimados.En el caso de TAIs que se aplican un número de veces muy

elevado, y por tanto con elevado riesgo de transmisión del contenidode los ítems de una aplicación a otra, es posible establecer múltiples

bancos de ítems que se van usando de forma rotatoria. Así se hace, por ejemplo, en el caso del CAT-GRE, que dispone de más de 70 bancos diferentes de ítems que se emplean de forma rotatoria en lassucesivas aplicaciones.


50/142

Capítulo 4

Algoritmos adaptativos

4.1.- Proceso de aplicación de un TAI

En la actualidad la mayoría de los TAIs siguen estrategias deselección de ítems denominadas como estrategias de ramificaciónvariable, lo que significa que se realiza una estimación del nivel derasgo tras la respuesta a cada uno de los ítems, a partir de la cual seseleccionará el siguiente ítem a presentar.

Calibrado el banco de ítems, la aplicación de un TAI requiere unalgoritmo que incluya: a) un procedimiento para determinar el primerítem a presentar, b) un método estadístico para estimar después decada respuesta un nivel de rasgo provisional y la precisión asociada adicha estimación, c) un algoritmo para la selección sucesiva de ítems,

y d) un criterio para finalizar la presentación de ítems. El núcleofundamental de un algoritmo adaptativo consiste en establecer laestrategia de selección progresiva de ítems que facilite una estimación

precisa del nivel de rasgo con la presentación de un número reducido deítems para cada evaluando. El proceso de aplicación de un TAI a unevaluando puede resumirse en el diagrama de flujo que muestra lafigura 9.

La sesión se inicia con una determinada estrategia de arranque, queconsiste en establecer de alguna forma el nivel de rasgo inicial que seasigna al evaluando y que determina, por tanto, cual será el primer ítema presentar. Después de que el evaluando responde al primer ítem, serealiza, mediante procedimientos estadísticos bayesianos o máximo-


51/142


verosímiles, una primera estimación (por supuesto, muy imprecisa) desu nivel de rasgo. También se emplean procedimientos derivados de laTRI para seleccionar el segundo ítem a presentar al evaluando,considerando que sea apropiado para el primer nivel de rasgo

provisional estimado. Así pues, en cada paso del proceso, se procede ala selección y presentación sucesiva de ítems, considerando el patrón derespuestas (aciertos/fallos) que se dan a los ítems precedentes para laestimación del nivel de rasgo provisional (y la precisión asociada a estaestimación) en ese momento de la aplicación del TAI. Se requiereademás algún criterio para dar por terminada la secuencia de

presentación de ítems, que normalmente tiene que ver con laconsecución de cierto nivel de precisión o con el establecimiento de unadeterminada longitud del TAI. Veamos con cierto detalle algunas de las

posibilidades a considerar para cada uno de estos componentes orequerimientos.

4.2.- Procedimientos de arranqueExisten diversas formas de decidir cuál será el primer ítem que

se presentará a un evaluando. La elección entre una u otra dependeráfundamentalmente de si se dispone o no de información previa de losevaluandos en aplicaciones previas de la prueba o en otro tipo devariables relacionadas con el rasgo que mide el TAI (v.g. curso, edado nivel manifestado en otros tests). En el caso de que se disponga de

información previa en determinadas variables, pueden considerarsecomo predictoras del nivel de rasgo que interesa y realizarseestimaciones mediante regresión para decidir el primer nivel queasignaremos a cada evaluando. Por ejemplo, Schoonman (1989)utiliza la estimación en el subtest “Names” de una batería adaptativade aptitudes intelectuales (GATB) para estimar el nivel inicial en losotros tres subtests que componen la prueba (Computation, Words yArithmetic). En el sistema CARAT (Kingsbury y Houser, 1999), si nose sabe nada del rendimiento previo del alumno, se eligen al azar los

primeros ítems (entre los que tienen dificultad media para ese niveleducativo) para evitar que se repita la secuencia inicial en diferentesestudiantes; cuando se dispone de evaluación previa de los alumnos


52/142

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 49

en otros tests aplicados previamente, se realiza una estimaciónmediante regresión y el TAI comienza con un ítem ajustado endificultad al nivel de rasgo estimado en la regresión; otras veces seutiliza como información previa sus calificaciones en las asignaturasque se relacionan con los diversos tests o el rendimiento medio delnivel educativo actual del evaluando.

Figura 9. Diagrama de flujo de la aplicación de un TAI


53/142


Cuando en el proceso de evaluación, como ocurre en muchoscontextos reales, los responsables de la aplicación no tieneninformación relevante sobre el rendimiento previsible de losevaluandos, la estrategia de arranque puede establecerse:

a) Asignando un nivel de rasgo aleatorio entre un rango devalores cercano a la media (por ejemplo, un valorseleccionado al azar entre niveles de rasgo superiores a –0.4 einferiores a 0.4).

b) Aplicando un test corto inicial, heterogéneo en dificultad ycomún a todos los sujetos, para estimar el nivel de rasgoinicial a partir de datos empíricos.

c) Permitiendo al evaluando que elija el nivel inicial dedificultad del ítem (estrategia típica de los testsautoadaptados, que se comentarán más tarde).

d) Cuando se usan métodos bayesianos de estimación de losniveles de rasgo, puede establecerse como nivel inicial la

media de la distribución a priori.e) En algunos tests de certificación se inicia el TAI con un ítemcuya dificultad se encuentra próxima al nivel que delimitael punto de corte (Bergstrom y Lunz, 1999). Se establecetambién una restricción que consiste en presentar lossiguientes 9 ítems con una dificultad que no se separe en másde 0.10 logits del punto de corte establecido.

f) La versión adaptativa del GRE comienza con ítems fáciles,dado que sus responsables quieren que los estudiantesacierten los primeros ítems para incrementar su motivaciónen la ejecución del resto de ítems.

g) En la aplicación simulada de ciertos TAIs se elige al azar el primer ítem entre los 10 más informativos para = -1 (Yi,2002).

Algunos de estos métodos pueden tener incidencia en laestimación final del nivel de rasgo, fundamentalmente si el nivel

inicial asignado está lejos del nivel verdadero del evaluando. En estoscasos, con una persona en concreto, pueden producirse secuenciasiniciales de errores (o aciertos) que inciden en los niveles de rasgo


54/142

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 51

provisionales estimados tras responder a los primeros ítems de la prueba. Esto tendría incidencia en el nivel de rasgo definitivoestimado si se aplican pocos ítems (alrededor de 10 como criterio de

parada), mientras que se consigue recuperar el nivel de estimación alnivel paramétrico si el TAI finaliza después de aplicar unos 20 ítems(van der Linden y Pashley, 2000).

4.3.- Métodos de estimación del nivel de rasgoUna vez que el evaluando responde al primer ítem, se requiere

aplicar un método estadístico para estimar un primer nivel provisionalde rasgo. En tests convencionales, existen programas de ordenador

para estimar el nivel de rasgo, que se aplican después de obtener el patrón de respuesta a los ítems de cada evaluando. En el caso de unTAI se requiere la programación espe

Tests Adaptativos Informatizados

Documents

Transcript of Tests Adaptativos Informatizados