1.3_Cofré_Francisco_Estudio Metodológico de La Calidad Métrica de Los Ítems Del Test BAVEL Desde...

Más información en: [email protected] www.upla.cl/jovenesinvestigadores

Estudio metodológico de la calidad métrica de los ítems del

Test BAVEL desde la perspectiva de la Teoría Clásica de los

Test (TCT) y la Teoría de Respuesta al Ítem (TRI)

Autor: Francisco Sebastián Cofré Sepúlveda

Universidad de Playa Ancha de Ciencias de la Educación


Índice Antecedentes del estudio..................................................................................................... 6

1. Objetivo General ......................................................................................................... 7

1.1. Objetivos Específicos ............................................................................................. 7

2. Aproximación teórica ................................................................................................. 8

2.1. Importancia de la Teoría de los Test ............................................................. 10

2.2. Teoría Clásica de los Test (TCT) ..................................................................... 11

2.2.1. Supuestos ............................................................................................................ 12

2.2.2. Ventajas ............................................................................................................... 13

2.2.3. Limitaciones ........................................................................................................ 14

2.3. La Teoría de Respuesta al Ítem (TRI) .......................................................... 16

2.3.1. Ventajas de la TRI ............................................................................................ 18

2.3.2. Desventajas de la TRI ..................................................................................... 19

2.3.3. Modelos, parámetros y Curva Característica del Ítem ....................... 19

2.3.4. Parámetros .......................................................................................................... 20

2.3.5. Curva Característica del Ítem (CCI) .......................................................... 21

2.3.6. Modelos ................................................................................................................. 22

2.3.7. Modelo de Rasch o logístico de un parámetro ....................................... 22

2.3.8. Modelo de dos parámetros ............................................................................ 24

2.3.9. Modelo de tres parámetros ........................................................................... 25

2.3.10. Supuestos de la TRI ......................................................................................... 25

2.3.11. Ventajas y desventajas .................................................................................. 26

2.3.12. Software de análisis estadístico TRI .......................................................... 28

2.4. Ventajas de un modelo sobre otro ................................................................. 29

2.5. Síntesis comparada de ambas teorías .......................................................... 30


2.6. La Medición de Constructo y las propiedades métricas de las Teorías

30

2.6.1. Constructo ........................................................................................................... 31

2.7. Tipo de evaluación ................................................................................................ 32

2.8. Propiedades Psicométricas de un test .......................................................... 32

2.9. Confiabilidad ........................................................................................................... 33

2.10. Validez ....................................................................................................................... 37

2.11. Cálculos necesarios en la TCT .......................................................................... 39

2.12. Cálculo de Dificultad ............................................................................................ 40

2.13. Cálculo de Discriminación .................................................................................. 41

2.14. Cálculo de Confiabilidad ..................................................................................... 43

2.15. Cálculo de la Validez de un test ...................................................................... 45

2.16. ¿Cómo escoger ítems adecuados? ................................................................. 45

3. Metodología de Investigación .............................................................................. 47

3.1. Tipo de estudio y diseño .................................................................................... 47

3.2. Variables ................................................................................................................... 47

3.3. Definición conceptual .......................................................................................... 47

3.4. Definición operacional ......................................................................................... 48

3.5. Población .................................................................................................................. 49

3.6. Muestra ..................................................................................................................... 49

3.7. Instrumento Test BAVEL, Batería de Velocidad y Eficacia Lectora .... 50

RESULTADOS .............................................................................................................................. 52

4. Resultados a nivel Test ........................................................................................... 52

4.1. Confiabilidad ........................................................................................................... 52

4.2. Calidad Métrica del Test BAVEL desde la perspectiva de la Teoría

Clásica de los Test ................................................................................................................ 53

4.2.1. Dificultad de los ítems .................................................................................... 53


4.2.2. Discriminación de los ítems .......................................................................... 55

4.3. Calidad métrica del Test BAVEL desde la perspectiva de la Teoría de

Respuesta al Ítem ................................................................................................................ 57

4.3.1. Según modelo de dos parámetros ............................................................. 57

4.3.2. Interpretación de los parámetros a y b ................................................... 59

CONCLUSIONES ......................................................................................................................... 63

Bibliografía ......................................................................................................................................... 68


RESUMEN

La construcción y análisis de Test, se fundamenta en el importante uso

que se entrega a la información que de estos instrumentos se obtiene; por ello,

ponderar adecuadamente variables como Validez y Confiabilidad permiten tanto

a investigadores, docentes y profesionales de distintas áreas, tomar decisiones

más acertadas.

Según lo anterior, esta investigación corresponde a un estudio

metodológico que analizó comparativamente la Validez y Confiabilidad del Pre

Test BAVEL aplicado a alumnos de 4° básico de la Corporación Municipal de

Viña del Mar (CMVM) el año 2011, desde la perspectiva de la Teoría Clásica de

los Test (TCT) y la Teoría de Respuesta al Ítem (TRI).

La pregunta de investigación planteó como objetivo central responder:

¿qué teoría proporciona mejor calidad de información de un Test? Con esa

finalidad se estimó la calidad métrica del instrumento, calculando, desde la

perspectiva de la TCT, el Grado de Dificultad de los ítems; Discriminación de los

ítems; Confiabilidad del Test; Análisis factorial y el consecuente cálculo de

Validez. Para ello se utilizó el programa Excel 2010 y SPSS versión 18.

Para el caso de la TRI, a través del software Bilog MG 3 se estimaron los

cálculos de Grado de Dificultad por ítem, además de los parámetros Dificultad,

Discriminación, las curvas características de cada ítem se obtuvieron con

WinGen 3.

Analizados y comparados los resultados, no se aprecian notables

diferencias entre las teorías que permitan optar por una u otra, sino más bien

se establece un principio de convivencia y complementariedad.

Palabras clave: Teoría Clásica de los Test, Teoría de Respuesta al Ítem,

calidad Métrica, Dificultad, Discriminación.


Antecedentes del estudio

Un ámbito de la Evaluación está referido a la construcción de

instrumentos de evaluación, denominados genéricamente Test, que permiten

medir o evidenciar determinadas conductas o rasgos en los sujetos. La

Evaluación a través de la psicometría se ha encargado de teorizar, construir,

investigar y sistematizar el conocimiento relativo a la construcción y análisis de

test.

La investigación relativa a estas teorías ha desarrollado un avance

intelectual, el cual permite que profesores, científicos o psicólogos, puedan

tomar buenas decisiones a partir de los resultados que sus mediciones

entregan.

El problema de investigación se circunscribe a establecer un estudio

metodológico que aborde desde una perspectiva científica el comportamiento en

validez y fiabilidad de la Teoría Clásica de los Test y la Teoría de Respuesta al

Ítem. De esta forma se podrá contrastar los antecedentes teóricos que cada

una propone con los datos empíricos que proporcione la investigación.

La evaluación además se ve enfrentada a ciertos mitos, que desde la

práctica se han instalado como verdades incuestionables, como por ejemplo:

que la mejor prueba es aquélla que posee más ítems, pues de esa forma se

asegura cubrir todos los contenidos trabajados desde diferentes ámbitos. Este

supuesto, es un elemento que incide directamente en la falta de tiempo de los

profesores, pues se construyen instrumentos evaluativos bajo el supuesto que

la extensión implica calidad, sin embargo, en este caso lo único comprobado es

que genera un mayor gasto de tiempo, y ciertamente disminuye las

posibilidades tanto para profesores y estudiantes de conocer oportunamente el

resultado del proceso de enseñanza aprendizaje.

En tal sentido, resulta útil, práctico y hasta necesario plantear un trabajo

metodológico que evalúe el comportamiento de un test o instrumento desde su

calidad métrica. La utilidad teórica o académica de este estudio se relaciona con


evaluar el aporte que La Teoría Clásica de los Test y La Teoría de Respuesta al

Ítem ofrecen respecto a la información de un instrumento de evaluación, pues

el desarrollo investigativo no ha desechado a una o validado completamente a

la otra.

Según lo anterior, la Teoría Clásica de los Test y la Teoría de Respuesta

al Ítem entregan información relevante respecto a los instrumentos de

evaluación y sus respectivos ítems. Pero ¿Existe complementariedad entre la

Teoría Clásica de los test (TCT) y la Teoría de Respuesta al Ítem (TRI) al

momento de determinar la Calidad Métrica del test y de sus ítems?

1. Objetivo General

Determinar la calidad métrica del Test BAVEL desde las perspectivas

analíticas de la Teoría Clásica de los Test (TCT) y la Teoría de Respuesta al Ítem

(TRI), para explorar la calidad del Test y de sus ítems.

1.1. Objetivos Específicos

1. Establecer la calidad métrica del Test BAVEL según el análisis

psicométrico de la Teoría Clásica de los Test y la Teoría de Respuesta al

Ítem.

2. Establecer la calidad métrica de los ítems del Test BAVEL identificando los

parámetros de Dificultad, Discriminación y Curvas Características del

Ítem desde la perspectiva de la TRI.


2. Aproximación teórica

Si se parte del supuesto de que todo objeto es medible o mensurable, se

debe establecer además que cada objeto medido o evaluado necesitará de un

instrumento apropiado para tales fines. Según ello la medición de estatura será

establecida a través de un instrumento que registre centímetros y metros.

Ahora bien, la medición de otros atributos o constructos sociales, psicosociales,

psicológicos, no será precisada a través de instrumentos convencionales, sino

por el contrario, a través de test bien diseñados (Abad, Garrido, Olea, y

Ponsoda, 2006). Pero, es necesaria la delimitación conceptual de aquel objeto

medible, para determinar qué entendemos por aquello que deseamos observar

y en definitiva, evaluar.

Es imprescindible establecer cuál es el instrumento de evaluación o

medición adecuado para cada constructo o atributo. Según lo anterior, el

evaluador educacional, cual especialista métrico, es hábil en definir qué es lo

medible y a través determinado de un instrumento. El desarrollo de la

psicometría ha permitido un avance notable en la elaboración de test, pues

desde inicios del siglo XX los esfuerzos intelectuales han visto cómo cada

disciplina, junto con establecer su objeto de estudio, ha procurado proporcionar

instrumentos de medición cada vez más precisos.

La construcción de test y su estudio a través de la psicometría, ha tenido

un notable desarrollo teórico y práctico, por tanto nos enfrentamos al estudio

de instrumentos provenientes desde esta disciplina para determinar, por

ejemplo, hasta qué punto un grupo de alumnos poseen actitudes que les

permitan lograr una producción diferente a lo que ya existía, esto es, el uso de

la originalidad o pensamiento divergente. Los test, permiten la recolección de

información sobre la conducta o atributos de un determinado constructo. El

punto está en definir cómo será o cuáles serán las características de aquel test

o conjunto de ítems, para poder recoger los atributos que se intentan

evidenciar.


Si un test es el resultado de la planificación de evaluación expresada en

una tabla de especificaciones, la cual determina, a su vez, la naturaleza de cada

ítem que lo compone, es absolutamente necesario dirigir la atención al ítem. En

tal sentido, (Muñiz, Fidalgo, García-Cueto, Martínez, y Moreno, 2005) definen

ítem como cada uno de los elementos utilizados en esos instrumentos (test)

para obtener la respuesta de los sujetos que se desea estudiar.

Desde esta perspectiva, los test son herramientas que intentan explicar

de una forma simple situaciones de suyo complejas, la ciencia desde siempre ha

intentado descifrar o explicar a través de modelos qué es la realidad,

propendiendo a una explicación que en el mejor de los casos permite

adelantarse o predecir ciertos fenómenos. Para el caso de la Ciencias Sociales,

se ha tomado este desafío en distintos ámbitos, uno de ellos es la Psicometría.

Esta disciplina pretende establecer científicamente aquello que saben los

individuos a partir de la aplicación de test y su consecuente evaluación

estadística. Por tanto, el evaluador se encuentra frente a modelos que poseen

la pretensión de acercarse fielmente a la realidad.

Ante ello es pertinente aclarar un par de ideas.

En primer lugar, ¿qué es un modelo en estricto rigor? Se puede

caracterizar un modelo como “la representación de una sistema real” (Fishman,

1973, citado en Muñiz, et. al, 2005). A partir de esto se establece que cada

modelo es pretencioso en explicar o predecir las respuestas de las personas

ante un determinado test.

En segundo lugar, cada modelo hará una explicación a su modo, o sobre

la base de sus supuestos, del comportamiento de las personas en un

determinado test. Lo anterior parece una obviedad, sin embargo, es necesario

de explicitar. Se establece que tanto la TCT y la TRI, son modelos matemáticos

que pretenden, una explicar y la otra predecir las respuestas de los sujetos.

Pero, ¿en qué se diferencian? La Teoría Clásica de los Test, explica la

puntuación observada de un test como la suma de la puntuación verdadera más


el error de medida (Muñiz et al, 2005). Es importante señalar que en ambas

teorías responden a misma pregunta, a saber: ¿Cuál es el verdadero nivel de

habilidad de un examinado ante la aplicación de un test que mide un constructo

o rasgo? La Teoría de Respuesta al Ítem, haciendo eco de esta pregunta,

establece que su unidad básica de análisis es el ítem, no el Test completo como

en el caso de la TCT, e incorpora además elementos que permiten evaluar el

comportamiento de cada ítem, no sólo por el nivel de habilidad al responder,

sino también por las características psicométricas inherentes a cada uno.

Lo planteado anteriormente diferencia los modelos, pero no es tarea aún

determinar las ventajas y desventajas de cada modelo, pues ello será

desarrollado más adelante. Sin embargo, se establece como elemento crucial de

los siguientes apartados, y por consecuencia de los futuros análisis, que las

gravitantes diferencias entre cada planteamiento descansan en los supuestos

que subyacen a cada modelo.

2.1. Importancia de la Teoría de los Test

El desarrollo de estas teorías que permiten evaluar hasta qué punto un

test mide aquello que declara medir, quizás no justifican por sí solas su

existencia, pues en el ámbito de la evaluación, según sus diferentes utilidades,

suele interesar la calificación por si misma o el puntaje obtenido en un test,

pero pocas veces surge el cuestionamiento sobre qué es lo que realmente

representa aquel puntaje y cuáles son sus implicancias. La respuesta a estas

interrogantes estriba en que en el ámbito de la psicología, así como en la

mayoría de las Ciencias Sociales, los puntajes asignados a un test permiten la

toma de decisiones que afectan o desafectan la vida de las personas evaluadas,

por ello es necesario asegurar en la mayor medida posible que la inferencia

realizada por el especialista sea un correlato de la realidad medida o evaluada.

En otras palabras, las teorías estadísticas de los test van a permitir la

estimación de las propiedades psicométricas de los test para de ese modo

garantizar que las decisiones tomadas a partir de ellos son las adecuadas


(Muñiz, 2010). En tal sentido, estas teorías permiten conocer científicamente la

validez y confiabilidad del instrumento aplicado, esto es, sus propiedades

métricas; de esta forma el profesional trabaja sobre la comprobación y

determina la utilidad de un test en su conjunto o de cada ítem por separado.

En la construcción del test, es necesario señalar que en la actualidad

coexisten dos teorías de los test, la Teoría Clásica de los Test y la Teoría de

Respuesta al Ítem. La hipótesis fundamental de la Teoría Clásica de los Test

(TCT) es que la puntuación observada de una persona en un test es una función

de dos componentes: su puntaje verdadero (que es inobservable) y el error de

medición implícito en toda medición. Por su parte, la Teoría de Respuesta al

Ítem (TRI) presenta un supuesto diferente basado en el funcionamiento de los

ítems dentro de las pruebas, asumiendo que el coeficiente de confiabilidad es el

mismo para todas las personas a las que se aplica la prueba (Tornimbeni,

Pérez, y Olaz, 2008).

2.2. Teoría Clásica de los Test (TCT)

Estableciendo un punto de inicio histórico, es posible afirmar que esta

Teoría tiene sus inicios en los postulados de Charles Spearman, quien realizó

una serie de investigaciones que desembocan en el desarrollo del análisis

factorial. El autor, apoyándose en las evidencias de sus investigaciones plantea

su famosa teoría de los dos factores. Según esta teoría, “las puntuaciones de

los test pueden explicarse a través de dos factores: uno general, conocido como

el factor g, que es común a todas las variables medidas y uno específico, s, que

sería exclusivo a cada uno de esas variables” (Tornimbeni, Edgardo, y Olaz,

2008, p.31). Este planteamiento tuvo un notable desarrollo en el campo de los

test psicológicos, desde este punto de vista los aportes del autor son fundantes,

tanto es así que, además logra desarrollar la teoría de la confiabilidad, así como

también junto a Thorndike, el modelo estadístico de puntuaciones, el cual dará

paso posteriormente a la TCT.


Como afirma (Muñiz, 2001, citado en Tornimbeni, Edgardo, y Olaz,

2008), el modelo lineal de medición sobre el que se asienta la TCT, es sencillo,

robusto y parsimonioso, y satisface la mayor parte de las necesidades de los

profesionales de la medición psicológica, tanto en lo relativo a la confiabilidad

de las mediciones (estimación de error) como a la validez (inferencias hechas a

partir de los test).

Es necesario, por tanto, determinar cuáles son los fundamentos o

supuestos sobre los que esta teoría establece sus planteamientos.

2.2.1. Supuestos

La TCT parte de tres supuestos relacionados con el puntaje obtenido del

sujeto, a saber:

a) El primer supuesto se relaciona con dos conceptos: el puntaje

verdadero y el error de medición. Según ello, el puntaje obtenido será la

combinación de estos principios, es decir, una estimación del valor verdadero

del rasgo que se mide. Lo anterior significa una definición conceptual de la

puntuación verdadera de un sujeto en un test, estableciendo que su puntaje se

relacionaría como la media si se le aplicara infinitas veces el test (Muñiz, 2010).

Ciertamente, ésta es una definición teórica, pues no se aplicará un test infinitas

veces, sin embargo, si así fuera, aquella puntuación media sería en definitiva su

verdadera puntuación.

b) El segundo supuesto planteado por Spearman, señala que no

existe relación entre el valor de las puntuaciones verdaderas de las personas y

el tamaño de los errores que afectan a dichas puntuaciones. En otras palabras,

“que el valor de la puntuación verdadera de una persona no tiene nada que ver

con el error que afecta esa puntuación” (Muñiz, 2010, p. 61).

c) Un tercer supuesto establecido por el autor señala que los errores

de medida de las personas en un test no se relacionan con los posibles errores


cometidos en otro test. Esto es: “no hay ninguna razón para pensar que los

errores cometidos en una ocasión vayan a covariar sistemáticamente con los

cometidos en otra ocasión” (Muñiz, 2010, p. 61).

Cada supuesto establecido desde la teoría, requiere necesariamente su

contraste con la realidad, principio en el cual se fundamenta esta investigación.

En este punto es necesario establecer las siguientes conclusiones

respecto a esta teoría, (Murat, 1985, citado en Tornimbeni, Pérez, y Olaz,

2008).

1. La puntuación verdadera de un individuo es una puntuación

“límite”, un punto de un intervalo de la distribución de puntuaciones

observadas.

2. Cuanto más alta sea la confiabilidad de un test, menor será ese

intervalo, y la puntuación observada se ubicará más próxima a la

puntuación verdadera.

3. Como la desviación estándar no puede modificarse, deben

disminuirse los errores de medida.

2.2.2. Ventajas

• Es más fácil de utilizar: su análisis no requiere, necesariamente, el

uso de software especializado.

• Puede ser explicado con mayor sencillez a un público no

especializado, sus principios sustentantes permiten que cualquier lector

incipiente en la materia pueda comprender a qué se refiere un porcentaje

de sujetos que responden acertadamente un ítem.

• Requiere de una muestra relativamente pequeña y sus resultados

de estimación no se ven afectados. Cien sujetos suele ser un número


recomendado, no obstante lo anterior la literatura incluso señala cifras

menores.

• Sus principios son menos rígidos, lo que la sitúa como una

metodología flexible, que se adapta mejor ahí donde la TRI ofrece mayor

resistencia.

2.2.3. Limitaciones

Según lo expuesto hasta este punto, es posible advertir que esta teoría

presenta algunas limitaciones, entre las que se puede contar que no permite

entregar una diferencia entre las características del examinado de las propias

del Test. Por tanto, la dificultad del ítem será estimada a través de la cantidad

de examinados que respondan correctamente, por lo mismo la posibilidad de

establecer las mediciones métricas de validez y confiabilidad se tornan inciertas

o al menos dificultosas, pues ellas serán precisadas solamente en torno a la

escala de puntuación realizada para ese test en específico. Por lo tanto se

dificulta la comparación con examinados que puedan haber rendido otros test.

Además, si la finalidad de un test es determinar las habilidades de cada sujeto

medido, en el caso de la Teoría Clásica, no entrega información precisa de las

habilidades individuales, pues solo asume un valor medio de las varianzas.

La teoría clásica de los Test, plantea tres situaciones limitantes, lo

anterior se expresa de la siguiente forma:

En primer lugar, la literatura señala que “las puntuaciones no son

invariantes respecto del instrumento utilizado” (Muñiz, 2001, en Tornimbeni,

Edgardo, y Olaz, 2008, p. 213). En otras palabras, se afirma que las mediciones

pueden variar respecto al instrumento utilizado. Esto se refiere a que si son

utilizados tres instrumentos diferentes para medir un determinado constructo a

tres diferentes sujetos, los resultados no podrán ser comparables. A modo de

ejemplo: si un psicólogo evalúa la inteligencia a diferentes personas con

instrumentos distintos, no podrá determinar con certeza cuál de ellos es más

inteligente. Ello es así en tanto que cada test tiene su propia puntuación. En


otras palabras, cada test posee su propia escala. Para efectuar las necesarias

comparaciones hechas por los psicólogos será pertinente transformar las

puntuaciones a escalas similares, es decir, estandarizar los resultados.

Lamentablemente, si bien este proceder no es erróneo, igualmente descansa en

un supuesto frágil, pues no siempre se garantiza que las escalas de diferentes

test sean homologables en la práctica, pues se asume que “los grupos

normativos en los que se elaboraron los baremos de los distintos test son

equiparables, lo cual es difícil de garantizar en la práctica. Si eso falla la

comparación se viene abajo” (Muñiz, 2010). Afortunadamente, la Teoría de

Respuesta al Ítem, como será revisado más adelante, propone una solución

científica a esta dificultad.

En segundo lugar, existe una limitación referida a las propiedades

métricas asociadas, pues se da la ausencia de invarianza de las propiedades de

los test respecto de las personas utilizadas para estimarlas, esto es: “las

propiedades psicométricas importantes de los test, tales como la dificultad de

los ítems, o la fiabilidad del test, estaban en función del tipo de personas

utilizadas para calcularlas, lo cual resulta inadmisible desde el punto de vista de

una medición rigurosa” (Muñiz, 2010, p. 62).

Por ejemplo, se señala que existe una “dependencia circular” entre los

sujetos que rinden el test y sus resultados. Esto es, si quienes respondieron la

prueba son hábiles, los ítems de dicho instrumento serán considerados fáciles;

por el contrario, si los sujetos no son hábiles, se podría concluir que los mismos

ítems son difíciles. En síntesis, la dificultad del ítem depende de la distribución

de la habilidad de los sujetos con que se calcule (Chávez Álvarez y Antonio,

2008).

La habilidad de los sujetos que responden una prueba, inferida a partir

del puntaje observado, dependerá de la dificultad de los ítems que componen

dicho instrumento. Según lo anterior, un mismo sujeto tendrá diferentes

puntuaciones en tres versiones distintas de una prueba si éstas difieren en la

distribución de dificultad de los ítems que la componen.


En tercer lugar, en la Teoría Clásica el coeficiente de confiabilidad es

integral (para todo el test). Sin embargo, las investigaciones demuestran que la

calidad de precisión de un test para medir un determinado constructo depende

también del propio desempeño del individuo evaluado. En síntesis, “los test no

miden con la misma precisión a todos los individuos” (Tornimbeni, Edgardo, y

Olaz, 2008, p. 213).

De forma complementaria, es posible agregar que la TCT supone que el

error estándar de medida es igual a lo largo de toda la escala de habilidad. Sin

embargo, esto no es necesariamente correcto, pues una prueba puede ser más

precisa en algunos rangos de puntuación que en otros. Esto, en definitiva,

depende de la distribución de la dificultad de los reactivos de la prueba (Chávez

Álvarez y Antonio, 2008).

Todo lo anteriormente expuesto posibilita una crítica a la teoría y

cuestionar sus alcances técnicos. Sin embargo, y tal como se mencionó, ello es

una oportunidad para evaluar complementariedad entre teorías, pues no se

trata de invalidar un planteamiento a partir de loa postulados de otro, sino más

bien establecer desde la experiencia hasta qué punto ellos pueden ser

dialogantes y responder a inquietudes desde su sinergia. En tal sentido, los

avances planteados por la Teoría de Respuesta al Ítem se constituyen como una

potente herramienta que, mediada por un correcto y dirigido uso, posee el

potencial para responder aquello que la clásica teoría no alcanza a hacer.

2.3. La Teoría de Respuesta al Ítem (TRI)

Tal como ha sido anunciado, la Teoría de Respuesta la Ítem ha permitido

responder aquellas interrogantes planteadas por la Teoría Clásica, no obstante

ello el costo agregado asumido ha sido el desarrollo de un modelo

analíticamente más complejo y en tal sentido, para ciertos autores, ha sido

justamente ello lo que se ha transformado en un obstáculo para el desarrollo

masivo de sus planteamientos.


Entender las bases conceptuales de este modelo implica, en parte,

conocer su historia, para desde ahí sentar sus postulados evidenciados desde el

contexto en que fueron desarrollados. Retrospectivamente puede ser situado a

Thurstone como el primero en presentar los atisbos de esta teoría, pues ya en

el año 1925 en los denominados Test de Binet, al plantear diferentes curvas

que grafican la edad de los sujetos y su capacidad de entregar respuestas

acertadas (Muñiz y Hambleton, 1992). Al situar con más precisión las bases

conceptuales de la teoría, es necesario remontarse a los trabajos de Lord, pues

allí es posible encontrar los principios genuinos de la teoría que más tarde serán

desarrollados. “La nueva teoría formulada marcará un nuevo rumbo en las

investigaciones psicométricas, si bien, como el propio Lord indica, las

conclusiones obtenidas no contradicen en general los grandes logros de la

Teoría Clásica” (Muñiz y Hambleton, 1992, p. 46).

Es en 1960 cuando el danés George Rash desarrolla estos principios y da

un paso más adelante al exponer el modelo lógico de un parámetro. Hasta

ahora, es necesario mencionar, los desarrollos son a nivel teórico y matemático,

pues no es posible plantear aún el uso de estos planteamientos a nivel de

usuario.

No es hasta en 1971 en que los autores Bock, R.D. y Wood, R en una

recopilación denominada Test theory Annual Review of Psychology, incluyen,

resumen y explican los avances teóricos desarrollados a la fecha en este

ámbito, especial atención requiere un apartado a la por ese entonces

denominada Teoría de Rasgo Latente. A partir de esta época las aportaciones

teóricas y empíricas se multiplicarán, generando un corpus intelectual cada vez

más consistente y fecundo que se presentará con principios propios, a saber,

los siguientes (DEMRE, 2005):


a) Intenta establecer para cada ítem la probabilidad de ser contestado

correctamente.

b) Ahora bien, dicha probabilidad a su vez depende de: la habilidad propia del

examinado y las características propias de las preguntas como dificultad,

discriminación y la probabilidad del azar en la respuesta del sujeto.

c) Entrega información sobre el nivel de precisión que aporta el ítem sobre su

capacidad de medir un constructo determinado, esto es, información del

ítem.

En resumen, mientras mayor es la información que proporciona una

pregunta en un determinado nivel de habilidad, mejor es el grado de precisión

con que se estima ese nivel de habilidad. Esto permite construir pruebas más

ajustadas al propósito que se persigue.

2.3.1. Ventajas de la TRI

Complementariamente a lo anterior, (Chávez Álvarez y Antonio, 2008)

establecen las siguientes ventajas de la TRI:

En primer lugar, invarianza de grupo: la estimación de los parámetros del

ítem, por ejemplo dificultad y discriminación, son independientes del grupo

particular de sujetos utilizados para su cálculo.

En segundo lugar, invarianza del ítem: la estimación de la habilidad de

los sujetos que rinden un determinado test, es independiente del conjunto de

ítems que se utilicen para su cálculo. Esto resuelve el problema de la

“dependencia circular” descrito para el caso de la TCT, pues en este caso ni la

estimación de los parámetros de los ítems (Dificultad y Discriminación)

dependen de la habilidad de los sujetos, ni dicha habilidad depende de los ítems

que se utilicen.


En tercer lugar, la TRI posibilita la estimación del error asociado a cada

nivel de habilidad, en lugar de estimar un error estándar para todo el rango, lo

cual ocurre en la TRI.

2.3.2. Desventajas de la TRI

En primer lugar es relativamente más compleja que la TCT, lo cual hace

más difícil de explicar a las audiencias. Requiere de software especial para su

análisis y calificación.

En segundo lugar, requiere de un número mayor de sujetos que rinden el

test para su calibración. Si bien en el modelo de Rasch las muestras necesarias

son similares a la TCT, cuando se aplican modelos de dos parámetros la

literatura especializada recomienda muestras sobre los 500 sujetos para

obtener estimaciones aceptables.

En tercer lugar, su funcionamiento adecuado depende del cumplimiento

de sus supuestos. No es una técnica adecuada para todos los casos y

exámenes, a pesar de ser adaptable a muchos casos.

2.3.3. Modelos, parámetros y Curva Característica del Ítem

Tal como se estableció en las definiciones conceptuales, un modelo es

una representación matemática de la realidad. Ahora bien, en el caso de la TRI

se pueden identificar distintos modelos, los cuales han de ser conocidos y

descritos a fin de poder cumplir fielmente los supuestos y principios de la

Teoría.

En ese sentido, ha de entenderse la CCI como la representación

matemática de distintos modelos en relación a la probabilidad que existe de

responder correctamente al ítem. Corolario de lo anterior es, por tanto, la

existencia de distintos modelos según las distintas curvas.


2.3.4. Parámetros

Con la intención de conocer en detalle el comportamiento de los

diferentes modelos y por consiguiente la Curva Característica del Ítem (CCI),

resulta necesario describir y caracterizar los distintos parámetros que se

asocian a estos conceptos. Según lo anterior, se puede distinguir lo siguiente:

a) El parámetro θ.

En el caso de la TCT la puntuación verdadera se refería a una estimación

a partir de las respuestas a un test, para el caso de la TRI, el parámetro θ,

siendo para este caso la denotación del constructo que mide un test y al no ser

éste algo directamente observable se le denomina rasgo latente; pudiendo ser

un constructo de personalidad, una aptitud o conocimientos en ciencias (Muñiz,

2005).

b) El parámetro b

Este parámetro representa la dificultad en la TRI, el cual es analogable al

índice de dificultad en la TCT. Se encuentra medido en la misma escala que el

parámetro θ. Su interpretación se entiende de la siguiente forma cuanto mayor

sea el valor de b, más difícil será el ítem, ya que mayor será el nivel de

habilidad necesario para tener una probabilidad de acertarlo de 0.5 (Muñiz,

2005).

c) El parámetro α

Este parámetro representa la discriminación del ítem y por tanto es el

símil en la TRI al índice de discriminación en la TCT. Como podrá entenderse, el

parámetro entrega una medición que permite escalar, esto es, diferenciar entre

los examinados con un nivel alto y bajo en la habilidad. Su interpretación se

entiende de la forma que sigue: “cuanto mayor sea el valor de α, mayor será el

poder discriminativo del ítem” (Muñiz, 2005).


d) Parámetro c

Este parámetro se refiere a las posibilidades que tienen de acertar un

ítem las personas con un nivel de habilidad baja en el rasgo o constructo

medido. Su equivalente en la TCT es justamente la probabilidad de acertar el

ítem al azar. En este caso se supone que el sujeto evaluado responde casi al

azar, por tanto se denomina técnicamente parámetro de pseudo-azar (Muñiz,

2005).

2.3.5. Curva Característica del Ítem (CCI)

La denominada Curva Característica del Ítem es una forma de

modelación matemática que permite graficar el comportamiento de la Teoría.

Para los modelos de la TRI esta curva ayuda a estimar de forma independiente

el nivel que posee la habilidad de una persona evaluada (parámetro θ) y las

propiedades psicométricas de los ítems (parámetros a, b y c) figura 1.

Figura 1. Curva Característica del Ítem

Nota: (Chávez Álvarez y Antonio, 2008, p.61)

El gráfico anterior permite mostrar el comportamiento de la “Curva

Característica del Ítem”, pues tal como se observa en ella confluyen tres

aspectos relevantes a esta teoría, a saber: los parámetros a, b y c. En donde

“a” es el índice de discriminación del ítem, “b” la dificultad del ítem y “c” la

probabilidad de acertar el ítem por azar. En tal sentido y a diferencia del


modelo clásico aparece un nuevo parámetro relacionado con el azar, el cual es

determinante para estimar la calidad de un determinado test al momento de

medir un constructo. Ciertamente, dependiendo del valor que asuma cada

parámetro se establecerán a su vez diferentes curvas. Ahora bien, dichos

valores estarán determinados por los cálculos obtenidos al aplicar un test, los

cuales serán el producto de un análisis estadístico que está mediado por la

existencia de software idóneos, los que han sido de gran utilidad en el

desarrollo de la Teoría de Respuesta al Ítem.

2.3.6. Modelos

La TRI en tanto propuesta teórica, presenta distintos modelos, los cuales

dependerán del comportamiento de sus parámetros. En tal sentido y a fin de

una conceptualización conducente a determinar cuál es más oportuno utilizar,

se describirán sus componentes y alcances. Es necesario clasificar, a su vez, los

modelos según sean éstos dicotómicos (son aquéllos donde la respuesta

esperada a un ítem consta de dos posibilidades) o politómicos (son aquéllos en

que se puede responder a cada afirmación en tres o más alternativas de

respuesta). En definitiva se concluye que bajo el nombre genérico de la TRI se

presentan diferentes modelos que, aunque se diferencian en algunos rasgos,

tienen en común una serie de aspectos básicos, especialmente el de ser

modelos estructurales que establecen una relación matemática formalizada

entre la respuesta a un ítem concreto y el nivel de habilidad de una persona

(LLECE, 2010).

2.3.7. Modelo de Rasch o logístico de un parámetro

Este modelo está compuesto por ítems dicotómicos, y se sustenta en “la

probabilidad de acertar una pregunta (o, en el caso de ítems actitudinales, dar

la respuesta que implica presencia del constructo medido) depende solamente

del poder discriminador de los ítems (que es constante para todos ellos) y de la

dificultad o localización de cada afirmación en el continuo actitudinal” (Asún y

Zúñiga, 2008). A su vez, por poder discriminador se debe entender como la


capacidad que posee un ítem de discriminar respecto a la habilidad que poseen

diferentes sujetos que se enfrentan a la medición de un constructo. En otras

palabras, la capacidad de separar individuos sobre la base de sus habilidades o

niveles respecto al constructo medido. Este modelo parte del supuesto de que

todos los ítems poseen el mismo poder discriminador, lo cual si bien parece

falso, permite que los análisis sean simplificados. Por su parte, la dificultad es el

nivel de actitud o habilidad que debe tener el sujeto para responder el ítem, o la

probabilidad que posee de dar una respuesta que represente la presencia de la

actitud medida. Se puede establecer, por tanto que “el modelo considera que la

respuesta a un ítem sólo depende de la interacción entre la habilidad del sujeto

y la dificultad del ítem” (LLECE, 2010).

A continuación se presenta la fórmula de cálculo para este modelo y sus

características asociadas. (Chávez Álvarez y Antonio, 2008, p. 63)

Según lo anterior, el parámetro bi se define como la dificultad del ítem i,

indicando la posición de la CCI en la escala de habilidad y se define como el

punto en la escala donde la probabilidad de respuesta correcta es igual a 0.5.

La dificultad de un ítem define un punto en la escala de habilidad donde

la posibilidad de acertar es 0,5 y a su vez la posibilidad de errar es también de

0.5. Este umbral permite dividir la escala en dos partes, los sujetos con nivel de

habilidad menor a la dificultad del ítem tienen una probabilidad de éxito menor


a 0,5 y, por lo tanto, menor a la probabilidad de fracaso. Lo mismo opera a la

inversa, esto es, los sujetos con un nivel de habilidad mayor a la dificultad del

ítem, tendrán menos probabilidades de responder el ítem de forma incorrecta.

Como ya ha sido mencionado, el modelo de Rasch asume que la

discriminación es la misma para todos los ítems, y que solamente la dificultad

influye en los resultados de los sujetos que rinden un test.

2.3.8. Modelo de dos parámetros

Este surge como un complemento del anterior, y se estructura sobre la

base de generar un modelo que sea menos restrictivo en sus supuestos que el

de Rasch. En este caso el aporte viene dado por el teórico Lord, quien estima

un modelo que se diferencia del anterior en tanto permite ítems con mayor

poder discriminador. En 1952, Frederic Lord propuso un modelo de Respuesta al

Ítem en el que las ICCs -(Curvas características del Ítem)- tomaban la forma de

una ojiva normal de dos parámetros. En este modelo se tienen en cuenta los

parámetros de dificultad (b) y discriminación (a) (LLECE, 2010).

Este modelo suma a la dificultad, estudiada en el modelo anterior, la

discriminación. (Chávez Álvarez y Antonio, 2008, p. 66)


Para este caso, el parámetro ai refiere a la discriminación del ítem,

diferenciando los sujetos que responden bien de aquellos que no lo hacen.

Su modelación en la CCI indica que cuanto mayor sea el valor de

discriminación ai, mayor será la inclinación de la curva, mientras que si el valor

es menor, la curva será más plana.

2.3.9. Modelo de tres parámetros

Como su nombre lo indica, este modelo incluye la presencia de tres

parámetros, por tanto, toma los avances de los anteriores modelos y suma otro

parámetro, por tanto ahora se expresa directamente con los valores a, b y c.

Este modelo fue desarrollado por Allan Birnbaum.

Una de las características de los ítems de selección múltiple es la

posibilidad implícita de que sean contestados por azar. De esta situación se

hace cargo el modelo de tres parámetros, pues a la dificultad y discriminación,

agrega este factor azaroso. (Chávez Álvarez y Antonio, 2008, p. 70)

2.3.10. Supuestos de la TRI

Cada una de las limitaciones derivadas desde el enfoque clásico, serán

desafiadas desde los planteamientos de la Teoría de Respuesta al Ítem. Ésta

parte de una evaluación de cada ítem, no del test en su conjunto, por tanto

cada ítem es analizado según la posibilidad que tiene de estimar la habilidad

que tiene el sujeto para responderlo y, por tanto, la calidad métrica del test en

relación al constructo que se está midiendo.

El supuesto central de la TRI, se resume en que existe una relación

funcional entre los valores de la variable que miden los ítems y la probabilidad

de acertar estos, denominando a dicha función Curva Característica del Ítem

(Muñiz, 2010, p.64). Esto será desarrollado en el apartado siguiente.


En segundo lugar se asume como supuesto en la mayoría de los modelos

de TRI que los ítems constituyen una sola dimensión, es decir, son

unidimensionales, lo cual es de vital importancia a la hora de realizar los

análisis.

Finalmente, se asume el principio de independencia local, esto es, que los

ítems han de ser independientes unos de otros. El desarrollo de estos

supuestos, será revisado a continuación (DEMRE, 2005):

• Unidimensionalidad: la puntuación de una persona en el Test

depende exclusivamente de una dimensión o factor: su nivel en la habilidad

medida.

Independencia local: Indica que los modelos asumen que las Respuestas

de las personas a un ítem son independientes de las respuestas a los

otros ítems.

Experiencias educacionales similares en los alumnos que Rinden las

pruebas.

Que la prueba no haya sido apurada, es decir, que se asigne el Tiempo

necesario para que todos alcancen a abordar todos los ítems.

Que no haya efectos de contexto no controlados.

En síntesis, es de suma importancia que en la TRI, el modelo sea capaz

de predecir con exactitud el posible comportamiento de los sujetos ante cada

pregunta.

2.3.11. Ventajas y desventajas

La identificación de las ventajas y desventajas de un modelo, es por un

lado la posibilidad de conocer sus alcances, pero también permite de

abrir nuevos campos investigativos.


Ventajas asociadas a la Teoría de Respuesta al Ítem (DEMRE, 2005):

Se establece como principal ventajas sobre la TCT, la invarianza de

los puntajes del test y de las características de las preguntas.

La posibilidad de construir curvas de información para cada ítem, lo

cual permite optimizar la selección de preguntas para evaluar un

determinado constructo.

A través de un análisis diferencial, proporciona métodos alternativos

para la detección de sesgos en las preguntas.

Proporciona métodos alternativos para realizar procesos de equanting,

el cual permite comparar dos test.

No obstante las ventajas antes mencionadas, éstas se relativizan

cuando no se cumplen los supuestos. Además de ello, para

determinados constructos o disciplinas, esta teoría no alcanza a medir

lo necesario.

En relación a las desventajas propuestas, es conveniente desarrollar este

ámbito señalando algunos ejemplos en los cuales no se cumplen los supuestos

de la teoría, a saber:

Se ha comprobado que hay teorías que son claramente

multidimensionales; ejemplo de ello son:

-Pruebas de Ciencias, (Hamilton et al 1997 y Nussbaum et al 1997,

(DEMRE, 2005)).

-Pruebas en el área de Ciencias Sociales.

La medición de la comprensión lectora a partir de un texto viola el

supuesto de independencia local (Kolen y Brennan 1995, (DEMRE,

2005)).


La medición en gran escala implica que los alumnos medidos han sido

sometidos a diferentes experiencias educativas, lo que transgrede el

supuesto de experiencias educacionales similares, lo que a su vez,

atenta contra el supuesto de invarianza de las preguntas.

2.3.12. Software de análisis estadístico TRI

Las propiedades y supuestos intrínsecos de la TRI, requieren el uso de

software específicos, los cuales permiten la obtención de datos e información

relevante. La elección de un programa respecto de otro se relaciona

principalmente con variables como el tipo de estudio realizado, es decir, cuáles

son las preguntas de investigación y por ende cuáles son los cálculos

requeridos; además de lo anterior también son relevantes las características

propias del instrumento de evaluación, a saber, tipo de ítems dicotómicos o

politómicos.

Según lo anterior, se encuentra disponible software como Bilog-MG de

Zimowski para el caso de ítems dicotómicos (Barbero Garcia, 1999). Respecto a

este programa se establecen una serie de bondades relacionadas con los

distintos requerimientos de los usuarios. Se comporta relativamente bien para

el análisis de modelos de dos y tres parámetros. Respecto a un análisis del

funcionamiento del software (López Pina J. A., 1996) señala que, del estudio

realizado en una muestra pequeña y bajo el análisis de dos parámetros, BILOG

permite obtener estimaciones exactas de los parámetros de los ítems y de la

habilidad aun cuando el tamaño muestral sea bajo y la longitud del test sea

breve. No obstante lo anterior, y como podría suponerse, las estimaciones de

los parámetros de discriminación y dificultad serán sustancialmente mejores en

tanto aumente la muestra y tamaño del test.


2.4. Ventajas de un modelo sobre otro

Hasta ahora el discurso teórico se ha centrado en la descripción por

separado de cada modelo, estableciendo sus principios, supuestos, alcances,

bondades, así como también las ventajas y desventajas de cada uno. No

obstante ello, se requiere dar un paso más adelante y establecer si es necesaria

la comparación, desde la teoría, de ambos modelos. En otras palabras, justificar

la razón por la cual se habla de modelos y no de un modelo ¿Qué es lo que

posee cada uno?, ¿Es posible una complementariedad? O simplemente ya es

hora de definir cuál posee ventajas sobre otro. Esto último es de vital

importancia, pues en la medida en que la teoría establece principios a favor de

un modelo sobre otro, aquello permite volcarse a la realidad y comprobar vía

experiencia la consistencia de dichos planteamientos.

En relación a lo anterior, es posible señalar las siguientes ventajas que

ofrece la TRI frente a la TCT (Muñiz, et al. 2005).

a) La TRI garantiza que si se cumplen los supuestos del modelo, es

decir, el modelo seleccionado es apropiado y se calibra correctamente, entonces

se obtendrá el mismo valor de los parámetros de los ítems con independencia

de la muestra para su calibración.

b) La TRI garantiza que la estimación de la capacidad de los

examinados (θ) no depende del test utilizado para su evaluación. Lo anterior,

no es asegurado en el caso de la TCT.

c) La TRI permite estimar la precisión con que cada ítem y cada test

mide los diferentes niveles de habilidad. Dicho de otra forma, la TRI no asume

como si lo hace la TCT, el supuesto de igualdad de errores de medida.

d) Lo anteriormente expuesto permite construir desde la TRI

instrumentos de evaluación personalizados y eficientes. Cumpliendo un principio


de parsimonia, esto es, que el test estime con mayor precisión aquello que

mide empleando un número mínimo de ítems.

2.5. Síntesis comparada de ambas teorías

Según (DEMRE, 2005), ambas teorías se sintetizan de la forma que

sigue:

a) Se establece que los supuestos de la TCT son más bien débiles, al

ser éstos generales, y a su vez la fuerza está en su generalidad, pues se

pueden aplicar a situaciones muy variadas.

b) Por su parte, los supuestos de la TRI son más fuertes, al ser más

restrictivos; por tanto se sacrifica generalidad para ganar precisión predictiva.

c) Por tanto, científicamente se plantea la disyuntiva de opción entre

la generalidad y la precisión, siendo la TCT quien aporta con sus planteamientos

propendiendo a la generalidad en tanto la TRI contribuye a la precisión. La

respuesta respecto a qué modelo optar parece, hasta ahora, no ser excluyente,

sino más bien complementaria. En tal sentido, queda planteada la necesidad de

que ambas teorías dialoguen en beneficio de los usuarios, lo importante ahora

es demostrar esta idea en el comportamiento empírico y comparado de la TCT y

la TRI.

2.6. La Medición de Constructo y las propiedades métricas de las

Teorías

Hasta ahora se han establecido las definiciones conceptuales de cada

teoría, sin embargo es tarea pendiente determinar y caracterizar qué es lo que

se medirá y de qué forma. Para ello es necesario señalar cómo se define la

medición de atributos en psicología, conocido esto como atributo o constructo,

pero además caracterizar las propiedades métricas a través de los cuales serán

medidos los instrumentos trabajados.


2.6.1. Constructo

Un constructo es un concepto que tiene el significado agregado de haber

sido inventado o adoptado para un propósito especial, de forma deliberada y

consciente (Kerlinger y Lee, 2002, p.36). En ese sentido, el constructo es un

concepto formulado para ser usado en la ciencia. Su intención es ser definido de

tal forma para ser observado y medido.

Hasta este punto las referencias a estos conceptos han sido parciales y

no se han desarrollado ampliamente sus alcances y significado. Es posible

definir constructo como una característica no observable de una población,

siendo ejemplos de ello la ansiedad, la habilidad lectora, la inteligencia, etc. En

tal sentido, es posible señalar que el constructo es la verbalización de un

abstracto para facilitar su comprensión, y su utilidad se entiende en tanto

ayuda a explicar diferentes comportamientos entre las personas. En otras

palabras: ¿Cómo determinar que un sujeto es más ansioso que otro

empíricamente? La psicología de la mano de la psicometría ha desarrollado toda

una teoría orientada a establecer conceptualmente respuestas a estas

interrogantes.

Por tanto es posible afirmar que los constructos pueden abordar

diferentes comportamientos humanos, por lo mismo su explicación y alcance es

de vital importancia para los propósitos del presente trabajo. En la medida que

se conocen las características del constructo, así como también sus

limitaciones, será posible orientar más aún las teorías empleadas para medirlos.

En otras palabras, no solamente se habla de la TCT o la TRI y su hipotética

complementariedad en relación a su utilidad práctica contribuyendo al diseño

óptimo de test por parte de los docentes, sino que se establece un piso previo,

esto es, delimitar cómo se sabe y qué sabe del fenómeno evaluado.


2.7. Tipo de evaluación

Según (Elosua, 2003), existen distintos usos relacionados con los test.

Cada uso está determinado por la intencionalidad y naturaleza con el cual fue

confeccionado el instrumento. Según lo anterior, en el contexto de la

interpretación de los resultados de un test ya no basta justificar cada puntaje,

sino que es menester además delimitar los fundamentos teóricos de un

contexto interno, con relación al propósito o interpretación propuesta. Como

consecuencia de lo anterior, es necesario especificar las condiciones de la

situación de medida en relación a la relevancia y utilidad de las puntuaciones

para los fines propuestos.

Según la clasificación propuesta por la autora y para el caso específico de

esta investigación, BAVEL es una evaluación colectiva cuyo propósito es la

evaluación de politicas o intervenciones educativas, pues es un instrumento o

procedimiento de obervación que permite medir y evaluar la Eficacia Lectora en

el marco de las herramientas curriculares (Marco Curricular de OF/CMO y

Programas de Estudio).

2.8. Propiedades Psicométricas de un test

La psicometría como disciplina se ocupa del estudio de los test y para

evaluar instrumentos que miden determinadas conductas de las personas,

atributos o constructos, posee dos variables que legitiman su campo

investigativo, a saber: validez y fiabilidad. En este apartado se entrega una

aproximación conceptual para situar estos dos términos, señalar sus

características y hasta despejar supuestos errados en torno a ellos.

El primer supuesto errado en torno a las características psicométricas se

refiere a creer que la validez y fiabilidad se refieren justamente a los test, en

circunstancias que corresponden a las interpretaciones, inferencias o usos que

se hacen de las medidas que los test entregan. En segundo lugar, se estima

muchas veces que la validez y fiabilidad poseen las características de estar o no


estar, sin embargo es necesario aclarar que éstas se presentan en diferentes

grados (Prieto y Delgado, 2010).

2.9. Confiabilidad

En la física, para determinar que un instrumento de medida, una regla, es

buena, basta tan solo aplicarla varias veces y evaluar si esta mide lo mismo en

las indefinidas veces que se aplica. Ahora bien, en psicología aplicar esta

analogía es posible, pero deben tenerse en cuenta algunos elementos. Si bien la

psicología no dispone de instrumentos como la regla física para comprobar sus

mediciones, igualmente recurre a la repetición, partiendo del supuesto que en

indefinidas mediciones con un mismo instrumento se puede llegar a más o

menos la misma puntuación. El grado en que la repetición de la medida ofrece

un mismo valor de atributo medido se conoce como fiabilidad.

Lo anterior se entiende de la siguiente forma: el evaluador podrá

determinar que el test es fiable si al repetir su aplicación o al aplicar una

medición paralela para medir el atributo. Este punto resulta necesario para el

trabajo que se desarrolla, pues la idea de test paralelos es de gran uso para

determinar la fiabilidad bajo los principios de la TCT. Volviendo a los

planteamientos de la hipótesis, se puede determinar que si se evalúa la

fiabilidad de los instrumentos ocupados según los principios teóricos que

sustentan este trabajo, se podrá determinar comparativamente el

comportamiento de cada teoría.

Conceptualmente, la fiabilidad se define como el grado de error que

afecta a las mediciones hechas con los test, siendo el indicador más frecuente

para expresar aquel grado de error el coeficiente de fiabilidad (Muñiz, et. al

2005). En otras palabras se puede entender este concepto como la consistencia

o estabilidad que tienen las medidas cuando un instrumento se repite, es decir,

test y retest. Ejemplificando desde la experiencia, este concepto asume que si

ocupamos un instrumento para estimar el valor de un objeto, balanza para

pesar fruta, y si las distintas mediciones realizadas en similares condiciones


varían, entonces se considera que aquellas mediciones son inestables,

inconsistentes y por tanto, poco fiables (Prieto y Delgado, 2010). Será de esta

forma el coeficiente de fiabilidad el indicador que señale a través de una

puntuación estas posibles inconsistencias o falta de fiabilidad.

Consecuentemente a lo anterior, surge la pregunta respecto a cómo

calcular este coeficiente. Una primera aproximación se refiere al ejemplo antes

entregado, es decir, Test-retest, pero además encontramos el análisis de

consistencia interna y Test paralelos. Para (Muñiz, et. al 2005), las tres

metodologías son válidas dependiendo del contexto aquel que sea más

pertinente utilizar.

Se ha establecido que la fiabilidad, también denominada confiabilidad, se

entiende como la consistencia entre dos conjuntos de puntuaciones

independientes. Ahora bien, existen diferentes métodos para su verificación,

para lo cual se debe tener presente lo siguiente. El instrumento aplicado a una

muestra determinada debe estar en concordancia con el diseño de investigación

propuesto, pero además los datos resultantes de la mencionada aplicación

deben ser analizados mediante procedimientos apropiados para así obtener

estadísticas que sean capaces de comprobar la confiabilidad del test

(Tornimbeni, Edgardo, y Olaz, 2008).

Es necesario consignar que el coeficiente de fiabilidad no es una

propiedad intrínseca del test, sino que su valor está determinado por diversos

factores, entre los que cabe destacar (Muñiz, et. al 2005):

a) La longitud del test: Entendiéndose como el número de ítems que posee

un test, se establece que al aumentar la cantidad de ítems, la fiabilidad

del test también tiende a aumentar.

b) La variabilidad de la muestra: Para este caso, se estima que en la medida

que aumenta la muestra la fiabilidad también tiende a aumentar.


c) El nivel del sujeto en la variable medida. Ciertamente una de las

propiedades que se espera de un test es su capacidad de escalar a los

sujetos medidos, en tal sentido se parte del supuesto de que cada sujeto

se presenta con diferentes niveles y por tanto algunos tendrán

puntuaciones bajas, otros medias y otros altas. La experiencia muestra

que los test no miden con igual precisión a todos los sujetos de una

muestra, la solución clásica a ello es el coeficiente de fiabilidad

adecuando este a cada rango (alto, medio y bajo).

La fiabilidad en torno a un test es un tema que cruza el cuestionamiento

de cualquier profesional que construye un instrumento de medición, sin

embargo, como se ha expuesto hasta ahora son múltiples los factores que

influyen en que un instrumento mida correctamente aquello que pretende

medir.

Junto a lo anterior, es necesario mencionar la existencia de creencias en

torno a cómo deber ser un “buen test”, la creencia mayormente instalada hace

referencia a que una buena prueba es aquella extensa, pues de esta forma el

instrumento abarca más y mejor los contenidos, sin embargo en este punto

muchas veces el argumento cae en una falacia que mezcla y confunde

extensión con calidad. Al suponer que la calidad del test está supeditada

solamente a su extensión, se cae en un error de construcción, pues como se

puede suponer, aparte de las consideraciones técnicas propias a la selección de

ítems, un test extenso por lo general provoca la fatiga de los sujetos y por lo

mismo la condición ambiental se transforma en un fuerte enemigo de la

fiabilidad.

Lo expuesto hace referencia a la estimación de la fiabilidad desde el

punto de vista de la discriminación entre los sujetos, sin embargo es necesaria

para este estudio una conceptualización de fiabilidad que propenda a una

evaluación del grado en el que los sujetos dominan un campo educativo o

profesional, esto es, Test Referidos a Criterio (TRC). Sin embargo, lo señalado

hasta acá respecto a la fiabilidad y su mencionado coeficiente, no es


homologable a este tipo de test que relevan al sujeto respecto del constructo

medido, pues la puntuaciones ya no se expresan en torno al grupo, sino que

hacen referencia al grado en el que el sujeto domina el campo o criterio a

evaluar (Muñiz, et. al 2005).

En tal sentido, se establece que los TRC se tratan de tests utilizados

fundamentalmente en el ámbito educativo y en la evaluación en contextos

laborales. Su objetivo es determinar si las personas dominan un criterio

concreto o campo de conocimiento, por tanto no pretenden tanto discriminar

entre las personas, como la mayoría de los tests psicológicos, sino evaluar en

qué grado conocen un campo de conocimiento denominado criterio, de ahí su

nombre (Muñiz, 2010). Estos test de rendimiento en un dominio específico de

conocimiento son pertinentes en Lenguaje o Matemática por ejemplo, acá

interesa fundamentalmente comprobar la confiabilidad de las clasificaciones

establecidas mediante su utilización respecto a la maestría de dominio de los

individuos que están aprendiendo un dominio (expertos v/s no expertos),

(Tornimbeni, Edgardo, y Olaz, 2008).

Por último es necesario consignar que respecto a la fiabilidad, también se

puede hacer esta estimación desde la TRI. Hasta ahora, se ha descrito un

procedimiento que se refiere al test completo. Sin embargo, desde la Teoría de

Respuesta al Ítem en vez de ofrecer una estimación global de la fiabilidad

mediante un coeficiente de fiabilidad, se puede establecer una Función de

información para cada uno de los ítems (Muñiz, et. al 2005). En efecto, esta

función indica la precisión con la que el ítem está midiendo a cada nivel la

variable evaluada, ahora bien la suma de las funciones individuales proporciona

la información del global del instrumento. El avance de este enfoque respecto al

clásico se refiere a que ahora la estimación de fiabilidad, antes medida por el

coeficiente de fiabilidad desde la TCT, permite precisa información desagregada

del test, el cual puede ser fiable para sujetos con puntuaciones altas, pero poco

fiable para quienes obtienen puntuaciones bajas.


2.10. Validez

Si asumimos que la psicometría es una derivación de la psicología y en

tanto campo de estudio se dedica a la construcción de test, para un evaluador

resulta completamente lícito preguntarse, hasta qué punto las inferencias

realizadas a partir de la aplicación y análisis de un test son válidos. Esta

interrogante que surge desde el campo disciplinar y más específicamente

epistemológico, es respondida desde el concepto de validez. La psicometría ha

desarrollado un corpus teórico tendiente a optimizar las inferencias realizadas a

partir de los resultados obtenidos por un determinado test; siendo uno de los

objetivos de la evaluación la toma de decisiones, es necesario que éstas sean

válidas y confiables.

La delimitación del concepto está de la mano con el desarrollo que el

mismo ha tenido, por lo tanto, y al igual que el desarrollo científico en otras

áreas, lo que hoy se conoce es el fruto de un devenir teórico y conceptual. La

definición más clásica proviene de (Anastasi 1998) “validez es lo que la prueba

mide y qué tan bien lo hace”. Lo cual sitúa el concepto desde su raíz primigenia,

no obstante ello el desarrollo continúa y por lo mismo se multiplican las

acepciones y nomenclaturas.

Desde un punto de vista conceptual, la validez es un aspecto esencial de

la medición psicológica y se relaciona con la investigación del significado teórico

de las puntuaciones obtenidas por medio de un test (Oliden, 2003).

Desde un punto de vista conceptual y clásico, la validez, entendida como

las definiciones antes presentadas, se establece que los datos analizados para

la validación de un test se estima a partir de (Muñiz, et. al 2005):

a) Validez de contenido: Se refiere a la necesidad de comprobar que los

ítems que componen el test representan adecuadamente el constructo

evaluado, por tanto, si existen errores en esta etapa, el resto queda

automáticamente invalidado.


Queda explícitamente claro que la validez de contenido es fundamental,

para asegurar que el test mide o representa necesariamente aquel universo que

declara estar midiendo. Según (Martínez Arias, 1995), la validación de

contenido debe realizarse a partir de los siguientes pasos:

Definición del dominio de conocimiento o comportamiento a medir.

Identificación de expertos en ese dominio.

Juicio de expertos acerca del grado en que el contenido del test es

relevante y representativo del dominio.

Procedimiento estadístico para resumir los datos de la fase precedente.

b) Validez predictiva: Se refiere a la comprobación de que el test predice

un criterio externo. Se estima a través del coeficiente de validez, el cual

se obtiene mediante el cálculo de la correlación entre el test y el criterio.

c) Validez de constructo: se refiere a la aportación de datos que

garanticen que el constructo evaluado tiene consistencia como tal y no

resulta espurio. Generalmente su cálculo está dado por el análisis

factorial.

Ciertamente la validez de constructo entrega información relevante y

objetiva para determinar certeramente a partir de los datos que la

medición es consistente. En tal sentido (Abad, Garrido, Olea, y Ponsoda,

2006) señalan:

a) Formular hipótesis relevantes (extraídas de deducciones teóricas o del

sentido común) en las que aparezca el constructo que pretendemos

evaluar con el test. En definitiva, una hipótesis de trabajo consiste en

poner en relación dos o más variables. Pues bien, una de esas variables

ha de ser el constructo que pretendemos medir con el test.

b) Efectuar en la práctica mediciones oportunas de las variables o

constructos involucrados en las hipótesis. La medición del constructo de


interés se realizará con la prueba diseñada a tal efecto, que es la que

pretendemos validar.

c) Determinar si se verifican o no las hipótesis planteadas. En el caso que

así sea, queda confirmado mediante una investigación que el test mide el

constructo de interés ya que, de lo contrario, no habría razones lógicas

para que se cumplieran las hipótesis formuladas. Si las hipótesis no se

confirman no significa en principio que el test no es válido, ya que puede

ser debido a que las hipótesis no estaban planteadas de manera

adecuada, lo cual exigiría una revisión de la teoría subyacente.

2.11. Cálculos necesarios en la TCT

Para que un test cumpla con el objetivo de medir lo que su constructor

determinó que midiera, es necesario que sus componentes básicos, sus ítems,

estén calibrados de forma correcta. En otras palabras, es necesario que exista

una armonía entre los ítems que componen un test, pues de esta forma se

asegurará que las estimaciones o inferencias realizadas a partir de su análisis

sean más acertadas.

El análisis de ítems puede ser entendido como el conjunto de técnicas

matemáticas y estadísticas, que permiten verificar la calidad y hasta pertinencia

de las preguntas o ítems de una prueba o test. Desde el punto de vista de la

utilidad, se puede establecer que este tipo de análisis es útil en tanto permite

inferir las características técnicas de una pregunta, establecer si cumple con las

necesidades que de ella espera y, en definitiva, decidir si corresponde o no su

inclusión en una prueba o test.

Al momento de plantear un análisis de ítems, es necesario considerar que

el producto a evaluar corresponde a los resultados o respuestas de los sujetos a

los cuales se aplicó la prueba o test. Pero, ¿qué información se recoge de estas


respuestas? Para cumplir con este objetivo desde la Teoría Clásica de los Test,

se han definido algunos indicadores que colaboran en este propósito, a saber:

a) Dificultad.

b) Discriminación.

c) Fiabilidad.

d) Validez.

A continuación se definen las características esenciales de cada indicador

y su cálculo respectivo.

2.12. Cálculo de Dificultad

La Dificultad es entendida como qué tan fácil o qué difícil resulta un ítem

para el conjunto de sujetos que rinde la prueba. Por lo general esto se calcula a

partir de la cantidad de sujetos que responden acertadamente al ítem. Según

(García Cueto, 2005), La dificultad de un ítem se refiere a determinar qué tan

fácil o difícil es éste, un ítem es difícil o fácil.

La dificultad se mide a través del grado de dificultad, entendido como el

porcentaje de sujetos que responden correctamente a un ítem. Este índice

registra valores desde cero cuando ningún sujeto contesta correctamente el

ítem, hasta 100 cuando todos los sujetos responden correctamente. Su

interpretación por momentos tiende a confundir, pues valores altos indican un

grado de dificultad menor, en otras palabras, más sujetos contestan

correctamente el ítem.

El índice de dificultad sirve para cuantificar el grado de dificultad de cada

ítem ID (Abad, Garrido, Olea, y Ponsoda, 2006) y se define como el cociente

entre el número total de sujetos que han acertado el ítem A y el número total

de sujetos que lo han intentado resolver N, omitiendo de este último dato todos

aquellos sujetos que no contestaron el ítem.


ID ₌ A

N

La conceptualización clásica ha definido a este indicador como dificultad,

no obstante lo anterior su interpretación puede conducir a errores en cuanto a

su interpretación, es por eso que existen autores, entre ellos (Caro y Trujillo,

2009) quienes también hablan de facilidad definiéndolo como el porcentaje de

estudiantes que abordó una pregunta y la respondió bien. A propósito de lo

anterior, los autores proponen una escala para evaluar esta característica:

Tabla 1. Interpretación Nivel de Dificultad de los ítems y del Test

Categorías Interpretación

Menos de 21,0% Muy Difícil

21,0% a 40,9% Difícil

41,0% a 60,9% Apropiada

61,0% a 80,9% Fácil

81,0% o más Muy Fácil

Nota. Fuente: (Caro y Trujillo, 2009, p.9)

2.13. Cálculo de Discriminación

La discriminación se entiende como hasta qué punto el ítem permite

diferenciar entre aquellos que saben o no saben.

La estimación de la discriminación de un ítem se puede realizar a través

de diferentes formas. Una de ellas se relaciona con tomar como referencia la

puntuación del sujeto la habilidad que se obtiene del total de la prueba. En ese

sentido un ítem discrimina de manera eficaz si lo responden más sujetos con

puntuaciones altas que sujetos con puntuaciones bajas. Por el contrario, aquel


ítem en el cual existan más respuestas correctas de sujetos que poseen bajas

puntuaciones, será considerado con baja discriminación.

En este caso se optó por aquella basada en determinar la discriminación

con la referencia a un criterio definido previamente, esto es, si existe una

definición en la cual se conoce la habilidad de los sujetos, se estima que el

reactivo discrimina si aquellos que lo contestan más son aquellos de cierta

categoría definida previamente.

Específicamente, el método se relaciona con en el cálculo del índice de

discriminación basado en grupos extremos. Así, siguiendo las recomendaciones

de Kelly (en Muñiz y otros, 2005), el total de la muestra es dividida en dos

grupos extremos correspondientes al 27 % superior y el 27 % inferior.

Según (Caro y Trujillo, 2009) se considera que un ítem discrimina bien

cuando lo contestan correctamente los que obtienen puntajes totales altos en la

prueba y no lo contestan correctamente los que obtuvieron puntajes totales

bajos en la prueba.

La apelación a la capacidad del ítem de diferenciar o discriminar entre

quienes saben y quienes no, se evidencia a través del índice de discriminación

dado por la diferencia del porcentaje de respuestas correctas entre un grupo de

alto y otro de bajo rendimiento. Esto queda definido según (Crocker y Algina,

1986), citados en (Chávez Álvarez y Antonio, 2008) así:

ID = Ps – Pi

ID = Índice de Discriminación.

Ps = Proporción de respuestas correctas en la prueba, de los sujetos del

grupo superior (número de respuestas correctas en el grupo superior

entre el número de sujetos que conforman este grupo)

Pi = Proporción de respuestas correctas en la prueba, de los sujetos del

grupo inferior (número de respuestas correctas en el grupo inferior entre

el número de sujetos que conforman este grupo)


Son diversos los procedimientos para medir esta característica. Según

(Caro y Trujillo, 2009) el más simple consiste en correlacionar los puntajes del

ítem con los puntajes totales de la prueba. Para grupos mayores a 100

estudiantes se puede emplear la tabla 2:

Tabla 2. Categorías e interpretación Índice de Discriminación


Menos de 0,19 Deficiente (descartar ítem o revisar muy bien)

0,20 a 0,29 Regular (se debe mejorar ítem)

0,30 a 0,39 Razonablemente bueno

0,40 o superior Alta discriminación


Para determinar la Discriminación de la prueba completa, una forma es

empleando el promedio de las discriminaciones de los ítems.

2.14. Cálculo de Confiabilidad

Determinar la fiabilidad puede ser considerado uno de los objetivos más

importantes de la Psicometría. Si una prueba es fiable, ello en función de su

consistencia, entonces la aplicación repetida de la misma prueba o versiones

paralelas de ella, debería dar un resultado similar. Por esto, interesa en este

momento conceptualizar el cálculo.

Un método para calcular el grado de fiabilidad de una prueba es el

coeficiente alfa de Cronbach, desarrollado por el autor en 1951 es una

extensión del KR 21 y que es su equivalente cuando los ítems son dicotómicos

(Chávez Álvarez y Antonio, 2008).


Donde:

= Coeficiente alfa de Cronbach

k = Número de reactivos en la prueba

α2i = Varianza del puntaje en el reactivo i

α2X = Varianza del puntaje total

Su interpretación señala que se espera que la fiabilidad de la prueba sea

siempre igual o superior en la práctica a la que estima este indicador.

Generalmente la Confiabilidad de un test puede entenderse de tres

maneras diferentes, (Abad, Garrido, Olea, y Ponsoda, 2006), a saber:

a) Según la estabilidad temporal de las medidas que proporciona.

b) Según el grado en que diferentes partes de un test miden un rasgo

de manera consistente.

c) Enfatizando el grado de equivalencia entre dos formas paralelas.

Para el primer caso se establece el siguiente supuesto, si se aplica un test

a un grupo de personas y transcurrido un tiempo se aplica el mismo test al

mismo grupo, se debe suponer que, si el test es confiable, se obtenga una

correlación de Pearson elevada entre ambas mediciones. Conceptualmente esta

correlación de denomina coeficiente de fiabilidad test-retest, e indica mayor

estabilidad de la prueba en tanto el resultado de la correlación sea más cercano

a 1.

Para el caso del presente estudio, se medirá la Confiabilidad del Pre Test

BAVEL a través del cálculo de la consistencia interna del instrumento estimando

el valor del Alfa de Cronbach.


(Caro y Trujillo, 2009) señalan que una escala para interpretar esta

característica es la siguiente:

Tabla 3 Valores e interpretación del Nivel de Confiabilidad del Test


Menos de 0,51 No Aceptable

0,51 – 0,60 Nivel Pobre

0,61 – 0,70 Débil

0,71 – 0,80 Aceptable

0,81 – 0,90 Buena

0,91 o más Excelente


2.15. Cálculo de la Validez de un test

Para el caso de la TCT la validez que interesa determinar se relaciona con

la validez de constructo, y específicamente es necesario identificar si el

conjunto de ítems que componen la BAVEL permiten evaluar el constructo

Velocidad Comprensiva.

Según el requerimiento anterior, es imprescindible un análisis factorial

exploratorio que permita identificar qué dimensiones y a través de qué ítems se

está evaluando el constructo mediante el Test aplicado.

2.16. ¿Cómo escoger ítems adecuados?

Estudiar la capacidad discriminativa de un test es estudiar su capacidad

de predecir un determinado criterio. Saber cuál ítem utilizar y porqué, cuál no

utilizar y porqué, son preguntas a las que se debería enfrentar un evaluador al

momento de construir un instrumento, ciertamente esta vital información no


puede quedar al arbitrio de las circunstancias. No son pocas las ocasiones en

que un docente se ve enfrentado a la disyuntiva del tiempo, y tendrá que

elaborar pruebas para medir el aprendizaje de sus alumnos; para ello escogerá

aquellas preguntas que según su criterio y experiencia son las mejores, pues la

escasez de tiempo lo lleva a construir la prueba que le demande el menor

tiempo de corrección; sin embargo queda la incógnita respecto a la idoneidad

de lo seleccionado.

La discriminación entrega valiosa información al respecto, y a su vez las

teorías desarrolladas, a saber, la TCT y la TRI, desde sus enfoques pretenden

contribuir a dicha labor. Optimizar los tiempos, escogiendo buenos ítems, pero

su vez entregando la información sobre el resultado de los aprendizajes de los

estudiantes, se convierte en un potente aliado del proceso de enseñanza y

aprendizaje, pues permite evaluar oportunamente y además tomar las

decisiones a tiempo.

Por su parte el análisis de validez permite establecer en qué medida cada

uno de los ítems refleja un atributo externo. En este caso la comparación se

hace con las puntuaciones de un atributo externo. Para el caso la comparación

puede ser otro test o cualquier otro puntaje, en definitiva la validez de un ítem

implica detectar su calidad predictiva con respecto a un criterio externo.

Lo importante es señalar que ambos mecanismos son oportunos para

seleccionar buenos ítems, sean estos a partir de su homogeneidad, esto es,

consistencia interna y por tanto hablamos de un alto grado de fiabilidad, o

desde el punto de vista de su capacidad predictiva de un criterio externo.


3. Metodología de Investigación

3.1. Tipo de estudio y diseño

Estudio descriptivo y metodológico que analiza comparativamente la

calidad métrica del Test BAVEL desde la perspectiva de la Teoría Clásica de los

Test y la Teoría de Respuesta al Ítem.

3.2. Variables

Las variables del estudio serán definidas desde el ámbito conceptual y

operacional, es decir, en primer lugar se conceptualiza su definición desde lo

teórico y en segundo lugar son definidas desde su utilización práctica

especificando cómo serán medidas u observadas.

3.3. Definición conceptual

a) Dificultad: se entiende como que tan fácil o difícil resulta un ítem para el

conjunto de sujetos que rinde la prueba. Por lo general esto se calcula a

partir de la cantidad de sujetos que responden acertadamente al ítem.

Según (García Cueto, 2005), la dificultad de un ítem se refiere a

determinar qué tan fácil o difícil es éste, un ítem es difícil o fácil.

b) Discriminación: Según (Caro y Trujillo, 2009) se considera que un ítem

discrimina bien cuando lo contestan correctamente los que obtienen

puntajes totales altos en la prueba y no lo contestan correctamente los

que obtuvieron puntajes totales bajos en la prueba.

c) Curva característica del ítem: Indica para cualquier ítem la probabilidad

que tienen las personas que se enfrentan a él de acertarlo (es decir,

responder correctamente) (Hambleton y Rogers, 1991 en Tornimbeni,

Edgardo, y Olaz, 2008, p. 228).


d) Confiabilidad: se define como el grado de error que afecta a las

mediciones hechas con los test (Muñiz, et. al 2005).

e) Validez: es un aspecto esencial de la medición psicológica y se relaciona

con la investigación del significado teórico de las puntuaciones obtenidas

por medio de un test (Oliden, 2003).

3.4. Definición operacional

a) Dificultad. El índice de dificultad sirve para cuantificar el grado de

dificultad de cada ítem ID (Abad, Garrido, Olea, y Ponsoda, 2006) y

se define, en el caso de la TCT, como el cociente entre el número

total de sujetos que han acertado el ítem A y el número total de

sujetos que lo han intentado resolver N, omitiendo de este último

dato todos aquellos sujetos que no contestaron el ítem. Su expresión

matematica es la siguiente:

ID ₌ A

N

Este índice en la TRI se calcula a través de la estimación del

parámetro a y obtenido mediante el software Bilog MG 3.

b) Discriminación. Expresada a través del Índice de Discriminación de

cada ítem. Para el caso de la TCT se obtiene mediante Excel,

específicamente el método se relaciona con en el cálculo del índice de

discriminación basado en grupos extremos. Así, siguiendo las

recomendaciones de Kelly (en Muñiz y otros, 2005), el total de la

muestra es dividida en dos grupos extremos correspondientes al 27 %

superior y el 27 % inferior.

Este índice en la TRI se calcula a través de la estimación del

parámetro b y obtenido mediante el software Bilog MG 3 y WinGen 3.


c) Curva característica del ítem. Este indicador es relaciona solo con

modelos analizados desde la perspectiva de la TRI. La representación

gráfica se obtiene a través del software Bilog MG 3.

d) Confiabilidad. Este indicador se obtiene a través del cálculo del Alfa de

Cronbach, para el caso del presente estudio se utilizará el software

Spss versión 18.

e) Validez. Específicamente interesa el cálculo de Validez de constructo,

para ello se analizarán los puntajes de los alumnos mediante un

análisis factorial a través del software Spss versión 18.

3.5. Población

Alumnos de la Corporación Municipal de Viña del Mar (CMVM) de cuarto

año básico en el subsector de Lenguaje y Comunicación.

3.6. Muestra

Intencionada a Alumnos de Cuarto año básico de la comuna de Viña del

Mar, de la quinta región de Valparaíso, de escuelas de dependencia municipal.

El número de casos analizados equivale a 560 alumnos del total de

alumnos que rindieron el Test. Este número se obtuvo posterior a la depuración

de la base de datos, excluyendo todos aquellos casos que carecían de

respuestas por parte de los alumnos.


3.7. Instrumento Test BAVEL, Batería de Velocidad y Eficacia

Lectora

La investigación se centra en la revisión y comparación del

comportamiento psicométrico de la BAVEL en términos del análisis de la calidad

métrica del instrumento, lo anterior evaluado desde un punto de vista

metodológico y comparativo, pues los análisis serán realizados desde la Teoría

Clásica de los Test y la Teoría de Respuesta al Ítem.

BAVEL es un instrumento o procedimiento de observación que cuenta con

19 ítems, de los cuales 6 corresponde a selección múltiple y 13 a desarrollo

cerrado y abierto. La Batería a través de su formato compuesto por textos e

ítems asociados, permite evaluar tres dominios de lectura, a saber, Velocidad

Lectora Oral, Calidad Lectora o Fluidez Lectora y Compresión Lectora.

El constructo Eficacia Lectora está enmarcado en las herramientas

curriculares (Marco Curricular de OF/CMO y Programas de Estudio), Mapas de

Progreso de Aprendizajes y Aprendizajes clave e indicadores de desempeño

mínimo de la comprensión lectora.

BAVEL permite a docentes y directivos tener una perspectiva sintética y

focalizada de los aspectos mínimos de la compresión lectora esperados para

cada nivel (Muñoz y Saavedra, 2011). En ese sentido, la batería es una

importante fuente de información al servicio de distintas audiencias. En el

marco de lo anterior, este instrumento de evaluación puede ser definido como

una evaluación Educativa, de tipo diagnóstico colectivo y que tiene por objetivo

la evaluación de Programas Educativos y Evaluación de politicas o

intervenciones educativas (Elosua, 2003).


El instrumento de evaluación cuenta con un manual que permite

homogeneizar el proceso y de esta forma disminuir la variabilidad de las

puntuaciones por factores contextuales inherentes a la aplicación. En ese

sentido, es necesario precisar lo siguiente:

a) Para medir y evaluar la Velocidad Lectora y Calidad Lectora se aplican

los mismos textos y protocolos desde 1° a 8° Básico. En el caso de la

medición y evaluación de la Comprensión Lectora se administra una

forma focalizada, con la incorporación gradual de textos diseñados

según grado de dificultad y nivel educativo.

b) Las instrucciones de administración de la Batería son explicitadas

según cada nivel de dominio de la lectura.


RESULTADOS

Los resultados son presentados en función de los objetivos de

investigación definidos.

4. Resultados a nivel Test

4.1. Confiabilidad

La estimación de la confiabilidad del instrumento se realizó a través del

cálculo del Alfa de Cronbach, valor que corresponde a 0,692, tal como se indica

en la siguiente tabla.

Tabla 4 Estadísticos de fiabilidad

Alfa de Cronbach N° de elementos

,692 19

La confiabilidad es medida a través de un valor total para todo el

instrumento, en este sentido el Alfa de Cronbach con un valor de 0,692,

permite establecer una confiabilidad adecuada, y por lo tanto la posibilidad de

obtener resultados confiables si se vuelve a aplicar este instrumento tal como

está.

Si bien el valor recomendable es sobre 0,70, para el caso de este estudio

se considera que el Alfa de Crombach obtenido permite realizar estimaciones

respecto a la consistencia interna del Test BAVEL.


4.2. Calidad Métrica del Test BAVEL desde la perspectiva de la

Teoría Clásica de los Test

4.2.1. Dificultad de los ítems

La dificultad del ítem está mediada por la cantidad de personas que lo

contesten correctamente. Así la determinación de “fácil” o “difícil”, dependerá

del número de sujetos que lo acierten o fallen.

El indicador Índice de Dificultad permite determinar la dificultad del

ítem, siendo en este caso la Dificultad una proporción obtenida entre las

personas que intentaron responder el ítem y aquellas que efectivamente lo

respondieron correctamente.

Desde el punto de vista de las puntuaciones, para aquellos ítems

dicotómicos el acierto es 1, mientras que para aquellos ítems politómicos que

utilizan rúbrica, el acierto corresponde a quien responde y es calificado con el

puntaje máximo del ítem.


Tabla 5. Categorización del Grado de Dificultad de los ítems

Ítem N n f GD (%) Dificultad

19.Argumentación 560 4 65 11,6 Muy difícil

8.Extraen Información explícita 560 2 81 14,5 Muy difícil

9.Extraen Información explícita 560 3 83 14,8 Muy difícil

14.Extraen Información explícita 560 2 95 17 Muy difícil

10.Argumentación 560 4 119 21,3 Difícil

2.Extraen Información explícita 560 2 166 29,6 Difícil

15.Extraen Información explícita 560 2 205 36,6 Difícil

18.Incremento de Vocabulario 560 2 240 42,9 Apropiada

1.Identificar tipo de texto 560 1 249 44,5 Apropiada

13.Identificar tipo de texto 560 2 251 44,8 Apropiada

4.Inferencia 560 2 279 49,8 Apropiada

5.Inferencia 560 3 296 52,9 Apropiada

7.Extraen Información explícita 560 2 339 60,5 Apropiada

17.Incremento de Vocabulario 560 2 348 62,1 Fácil

6.Incremento de Vocabulario 560 2 350 62,5 Fácil

11.Parafraseo 560 2 363 64,8 Fácil

12.Identifica idea global del texto 560 2 369 65,9 Fácil

16.Extraen Información explícita 560 2 440 78,6 Fácil

3.Extraen Información explícita 560 1 482 86,1 Muy fácil

Total Test 560 42 254 45,3 Apropiada

Nota. Ítem = tipo de reactivo ordenado según grado de dificultad; N = total de alumnos que respondieron el

Test BAVEL; n = puntaje total posible de cada ítem; f = número de estudiantes que acertaron el ítem; GD

(%) Grado de dificultad del ítem expresado en porcentaje.


4.2.2. Discriminación de los ítems

La discriminación, entendida como la capacidad del ítem para diferenciar

entre quienes saben y no saben, presentada en la tabla 13, fue construida con

la información del anexo 2.


Tabla 6. Índice de Discriminación de ítems del Test BAVEL e interpretación

Ítem Índice de Discriminación Interpretación

3.Extraen Información explícita 0,14 Deficiente

1.Identificar tipo de texto 0,17 Deficiente

2.Extraen Información explícita 0,19 Deficiente

19.Argumentación 0,19 Deficiente

8.Extraen Información explícita 0,21 Regular

14.Extraen Información explícita 0,25 Regular

13.Identificar tipo de texto 0,26 Regular

6.Incremento de Vocabulario 0,4 Alta discriminación

9.Extraen Información explícita 0,42 Alta discriminación

10.Argumentación 0,42 Alta discriminación


12.Identifica idea global del texto 0,43 Alta discriminación




4.Inferencia 0,52 Alta discriminación

11.Parafraseo 0,52 Alta discriminación


5.Inferencia 0,63 Alta discriminación

Nota. Ítem = reactivos ordenados índice de Discriminación y su interpretación.


4.3. Calidad métrica del Test BAVEL desde la perspectiva de la

Teoría de Respuesta al Ítem

4.3.1. Según modelo de dos parámetros

Al igual que el caso de la TCT, la TRI exige muestras mínimas al

momento de estimar los distintos parámetros, a saber:

Tabla7. Cantidad de casos necesarios según modelo de análisis

Modelo Número de sujetos

requeridos

Teoría Clásica de los test Alrededor de 100

Teoría de respuesta al ítem Rasch 100

2 parámetros 250 – 500

3 parámetros Más de 1000

Nota: (Chávez Álvarez y Antonio, 2008, p. 27)


Tabla8. Resultados desde la perspectiva TRI, según modelo de 2 parámetros

Ítem muestra RC GD LOGIT CPBA CB

P15.Extraen Información explícita 560,0 490,0 87,5 -1,95 0,380 0,610




P10.Argumentación 560,0 422,0 75,4 -1,12 0,359 0,491

P12.Identifica idea global del texto 560,0 369,0 65,9 -0,66 0,212 0,274


P11.Parafraseo 560,0 363,0 64,8 -0,61 0,295 0,380


P6.Incremento de Vocabulario 560,0 350,0 62,5 -0,51 0,205 0,262

P17.Incremento de Vocabulario 560,0 348,0 62,1 0,50 0,293 0,373


P19.Argumentación 560,0 333,0 59,5 -0,38 0,262 0,332

P5.Inferencia 560,0 296,0 52,9 -0,11 0,321 0,403

P4.Inferencia 560,0 281,0 50,2 -0,01 0,273 0,342

P13.Identificar tipo de texto 560,0 251,0 44,8 0,21 0,169 0,213

P1.Identificar tipo de texto 560,0 249,0 44,5 0,22 0,034 0,043

P18.Incremento de Vocabulario 560,0 240,0 42,9 0,29 0,284 0,357

P14.Extraen Información explícita 560,0 205,0 36,6 0,55 0,224 0,287

Nota. Ítem = reactivos del Test BAVEL ordenados según Grado de Dificultad; Muestra = alumnos

que rinden el Test BAVEL; RC = Respuestas Correctas a cada reactivo; GD = Grado de Dificultad;

CPBA = Correlación punto Biserial ajustada; CB = Correlación Biserial.


4.3.2. Interpretación de los parámetros a y b

Desde la perspectiva de la Teoría de Respuesta al Ítem, pueden ser

estimados 1, 2 o 3 parámetros. El más común y conocido es el Modelo de un

parámetro o de Rasch, siendo consecuentemente los otros de 2 y 3 parámetros.

El primer parámetro, a, hace referencia a la capacidad discriminativa del ítem;

el segundo, b, está relacionado con la Dificultad del ítem y finalmente el

parámetro c representa la capacidad de responder el ítem al azar.

a) Parámetro a discriminación

Según (Abad, Garrido, Olea, y Ponsoda, 2006, p. 134), “el parámetro "a"

indica la mayor o menor inclinación o pendiente de la CCI cuando θ=b.

Normalmente los valores de "a" oscilan entre 0,3 y 2,5, y se suelen considerar

ítems "discriminativos" los que tienen valores "a" mayores de uno”. Según lo

anterior y gracias a los aportes de (Tornimbeni, Edgardo, y Olaz, 2008, p. 231),

se elabora la siguiente tabla de referencia.

Tabla9. Interpretación parámetro a

Valores Interpretación

1,34 o más Alta discriminación

1,33 a 0,65 Moderada discriminación

0,64 a 0,3 Escasa discriminación

0,29 o menos Deficiente

Nota. Elaboración propia.

Según lo anterior se presenta la tabla 17 y posteriormente se entrega un

comentario al respecto.


Tabla 10. Categorización parámetro a

Ítem Valor a Interpretación

P15.Extraen Información explícita 1,613 Alta discriminación

P16.Extraen Información explícita 1,287 Moderada discriminación


P10.Argumentación 1,154 Moderada discriminación

P5.Inferencia 0,954 Moderada discriminación

P11.Parafraseo 0,884 Moderada discriminación

P18.Incremento de Vocabulario 0,875 Moderada discriminación

P17.Incremento de Vocabulario 0,835 Moderada discriminación

P4.Inferencia 0,783 Moderada discriminación

P19.Argumentación 0,775 Moderada discriminación





P12.Identifica idea global del texto 0,635 Baja discriminación

P6.Incremento de Vocabulario 0,584 Baja discriminación

P7.Extraen Información explícita 0,571 Baja discriminación

P13.Identificar tipo de texto 0,531 Baja discriminación

P1.Identificar tipo de texto 0,272 Deficiente


b) Parámetro b dificultad

Tabla 11. Valores referenciales y clasificación Parámetro b

Valores Interpretación

-1,5 a -3,0 Muy Fácil

0 a -1,5 Fácil

0 a 1,5 Difícil

1,5 a 3,0 Muy Difícil

Nota. Elaboración propia.


Tabla 12. Valores referenciales e interpretación del Parámetro b

Ítem Valor b Interpretación

P2.Extraen Información explícita -3,030 Muy Fácil

P3.Extraen Información explícita -2,796 Muy Fácil

P15.Extraen Información explícita -1,703 Fácil


P10.Argumentación -1,213 Fácil

P12.Identifica idea global del texto -1,131 Fácil

P6.Incremento de Vocabulario -0,942 Fácil



P11.Parafraseo -0,804 Fácil

P17.Incremento de Vocabulario -0,682 Fácil


P19.Argumentación -0,558 Fácil

P5.Inferencia -0,140 Fácil

P4.Inferencia -0,008 Fácil

P18.Incremento de Vocabulario 0,387 Difícil

P13.Identificar tipo de texto 0,420 Difícil

P1.Identificar tipo de texto 0,833 Difícil

P14.Extraen Información explícita 0,912 Difícil


CONCLUSIONES

En el siguiente apartado se entregan las conclusiones que se extraen del

presente estudio, organizado por objetivos específicos y pregunta de

investigación. Junto a lo anterior, serán expuestas las limitaciones e

implicancias del proceso desarrollado.

Determinar la calidad métrica del Test BAVEL, implicó un análisis

psicométrico desde la perspectiva de la Teoría Clásica de los Test y la Teoría de

Respuesta al Ítem y el consecuente análisis comparado de resultados.

El análisis comparado de la calidad métrica del Test, permite concluir

que, según la información disponible, la Teoría Clásica de los Test posibilita la

obtención de resultados con mayor facilidad, los cuales son concordantes entre

sí y además tienen mayor relación con los niveles taxonómicos de cada uno de

los ítems que componen el Test BAVEL. Por su parte, la Teoría de Respuesta al

Ítem, entrega también información relativa a la calidad métrica de los ítems del

Test, sin embargo la obtención de esta información está regulada por una serie

de supuestos, a saber, unidimensionalidad e independencia local, cada uno de

difícil cumplimiento, lo cual en definitiva influye directamente en los resultados

obtenidos.

La Teoría Clásica de los Test, es un modelo lineal cuyo foco de análisis es

el Test, sin embargo, el análisis de calidad métrica definido para este estudio

permitió observar y analizar el comportamiento de cada ítem en relación al

Test. Determinar el Índice de Discriminación y Grado de Dificultad para cada

ítem, desde las perspectivas metodológicas utilizadas, permitió una mirada más

precisa y contextualizada de cada ítem. En tal sentido, se ofrece un modelo

metodológico de análisis que permite determinar, con altos grados de precisión,


información relevante al momento de tomar decisiones respecto a los ítems de

cualquier test.

Los supuestos que subyacen a la Teoría Clásica de los Test son débiles y

fáciles de cumplir, por lo tanto no son en ningún caso un impedimento al

momento de analizar y tomar decisiones respecto al test o sus respectivos

ítems. Sin embargo, este modelo carece de la invariabilidad de los estadísticos,

pues éstos dependen de la muestra.

Según lo antes expuesto, es posible señalar que a pesar de que esta

perspectiva carece de relaciones explícitas y evidenciables entre sus ítems y el

rasgo que se está midiendo, igualmente la información que ofrece permite

evaluar con gran nivel de detalles los principales indicadores de calidad métrica

de un test, a saber, Grado de Dificultad y Discriminación.

La Teoría de Respuesta al Ítem, permite también un análisis de calidad

métrica a partir de la estimación de los parámetros a, b y c, a saber,

Discriminación, Dificultad y Azar. Para efectos del presente estudio, la cantidad

de datos analizados solo recomendó la estimación de los dos primeros.

El comportamiento de estos parámetros está mediado, como se dijo, por

supuestos fuertes y difíciles de cumplir. En la perspectiva de un estudio

metodológico, no se realizaron pruebas que permitieran determinar con certeza

el cumplimiento de estos supuestos, pues en todo momento interesó analizar la

misma cantidad de ítems desde ambas perspectivas, puesto que un análisis de

Dimensionalidad o Independencia Local podría provocar la pérdida de ítems.


No obstante lo anterior, tal como fue consignado en el apartado

metodológico de este estudio, a causa de los requerimientos del Software de

análisis, los datos de respuesta politómicos de los alumnos fueron recodificados

y traspasados a resultados dicotómicos. Tal como era de suponer, esto afectó

notablemente la riqueza original de los datos, por lo tanto la estimación de los

parámetros de Discriminación y Dificultad perdió consistencia. Esto pudo

reflejarse en el análisis comparado de Calidad Métrica, en donde para un mismo

ítem fue posible apreciar estimaciones radicalmente opuestas en algunos casos,

lo cual impedía consensuar criterios respecto a una recomendación para el ítem.

Sin embargo, desde otra perspectiva la TRI ofrece información de la cual

la TCT está limitada, a saber, la Función Característica del Ítem (FCI) que

permite conocer la relación entre el ítem y el rasgo que se está evaluando. Para

efectos de esta investigación, la definición de indicadores de calidad métrica no

contempló la FCI, pero sí se obtuvo la Curva Característica del Ítem (CCI), esta

función gráfica es un importante insumo de información que permite

complementar lo obtenido a través de los indicadores de Dificultad y

Discriminación. En tal sentido, es un hallazgo metodológico importante destacar

que la CCI permite relacionar los parámetros de calidad métrica tradicionales

con la habilidad de cada sujeto respecto al rasgo evaluado.

El análisis factorial aplicado al Test BAVEL permitió evaluar la Validez de

Constructo del Instrumento. Para este caso se utilizó una metodología

exploratoria que no estableció categorías o habilidades a priori, sino por el

contrario la exploración de componentes posibilitó determinar qué ítems los

tributaban. Según esta metodología, se estableció que el Test a través de sus

19 ítems mide seis dimensiones del constructo Eficacia Lectora, sin embargo el

instrumento mayoritariamente evalúa habilidades taxonómicas de orden

inferior, pues son éstas las que agrupan la mayor cantidad de reactivos.


Al respecto se sugiere revisar la Tabla de Especificaciones de BAVEL en

compañía de las tablas de Dificultad y Discriminación de cada ítem, pues de

esta manera se podrán tomar decisiones fundadas y contextualizadas respecto

a la inclusión o no de los reactivos.

En relación a la pregunta de investigación, la información obtenida y

analizada lleva a señalar que tanto la Teoría Clásica de los Test y la Teoría de

Respuesta al Ítem permiten una comprensión de la Calidad Métrica desde

perspectivas complementarias. Esta complementariedad deberá ser entendida

como específica y vinculante, esto es, por un lado la TRI ofrece la posibilidad de

analizar a los sujetos desde la probabilidad de respuesta en relación a su

habilidad, pero además esta información se vincula con los parámetros de

Dificultad y Discriminación, los cuales pueden ser obtenidos desde ambos

enfoques.

Las implicancias de la investigación se materializan en un estudio

constituido como un importante insumo metodológico para analizar la calidad

métrica de los ítems de un test, ello con la finalidad de tomar decisiones más

acertadas respecto a su uso, exclusión y/o modificación.

Junto a lo anterior, la investigación ofrece un potencial investigativo

futuro, pues hasta este punto se pudo establecer el tipo de complementariedad

entre ambas perspectivas de análisis. No obstante lo anterior, es menester

plantear estudios que evalúen metodológicamente el comportamiento de un

mismo grupo de ítems desde los diferentes modelos TRI. Es de vital importancia

contar con información certera respecto al comportamiento y calidad de

información que entregan para un mismo test los diferentes modelos, sean

éstos de Rash, dos o tres parámetros.


En la línea de lo anterior, es interesante evaluar la calidad de información

que entrega la TRI respecto a la Validez y la Confiabilidad de un Test, así como

también evaluar a través de un estudio correlacional hasta qué punto las

puntuaciones obtenidas en un modelo clásico o de respuesta al ítem, están

vinculadas.

Finalmente respecto a las limitaciones, es posible afirmar que para el

caso de la TCT la abundancia de información permite que su contraparte en

este estudio sea fuertemente opacada. En este sentido, el poco desarrollo

intelectual en nuestro país en particular y en nuestra lengua en general,

dificulta en parte un estudio de este tipo. Junto a lo anterior, la escasa cantidad

de software libre que permitan estimación de parámetros TRI, dificultan desde

el punto de vista económico realizar estas investigaciones, lo cual en definitiva

lleva a tomar decisiones como la dicotomización de resultados, con las ya

mencionadas consecuencias.


Bibliografía

ABAD, F., GARRIDO, J., OLEA, J., y PONSODA, V. (2006). Introducción a la

Psicometría: Teoría Clásica de los Test y Teoría de Respuesta al Ítem.

Madrid: UAM.

ANASTASI, A., y URBINA, S. (1998). Test Psicológicos. Mexico: Pretince Hall

Latinoamerica.

ASÚN, R., y ZUÑIGA, C. (2008). Ventajas de los Modelos Politómicos de Teoría de

Respuesta al Ítem en la Medición de Actitudes Sociales. El Análisis de un

Caso. PSYKHE, Vol.17, Nº 2, 103-115.

ATTORRESI, H., LOZZIA, G., PABLO, F., GALIBERT, M., y AGUERRI, M. E.

(2009). Teoría de Respuesta al Ítem. Conceptos básicos y aplicaciones para

la medición de constructos psicoloógicos. Revista argentina de clínica

psicológica, 179-188.

BARBERO GARCIA, M. I. (1999). Desarrollos recientes de los modelos

psicométricos de la Teoría de Respuesta a los Ítems. Psicothema, 195-210.

CARLINO, F. (1991). La evaluación Educacional. Historia, problemas y propuestas.

Buenos Aires: AIQUE.

CARO, A., y TRUJILLO, H. (2009). Evaluación del Rendimiento. Valparaíso:

Univerdad de Valparaíso.

CENEVAL. (2009). Boletin CENEVAL. México DF: CENEVAL.

CHÁVEZ ÁLVAREZ, C., y ANTONIO, S. H. (2008). Procedimientos básicos para el

análisis de reactivos. CENEVAL, 29-34.


DEMRE, (2005). Teoría Clásica de Medición TC y Teoría de Respuesta al ÍTEM

TRI. Santiago: Universidad de Chile.

ELOSUA, P. (2003). Sobre la Validez de los Test. Psicothema, 315-321.

ESCALANTE, E., y ALBERTO, C. (2002). Análisis y tratamiento de datos en spss.

Valparaíso: Ed. Univ. Playa Ancha.

GARCÍA CUETO, E. (2005). Análisis de los ítems: Enfoque clásico. Madrid: La

Muralla.

GONZÁLEZ, M. C., ROLDÁN, C., ARRÁEZ, D., GUTIÉRREZ, N., SEGURA, A., y

FERNÁNDEZ, A. (2010). Eficiencia Lectora: Comparación alumnos

universitarios de ciencias técnicas, ciencias experimentales yletras, y

alumnos de EE.UU. (Ciencias y letras). I Jornadas sobre Innovación Docente

y Adaptación al EEES en las Titulaciones Técnicas (págs. 137-140).

Granada: Godel Impresores Digitales S.L.

HOUSE, E. (1994). Evaluación, etica y poder. Madrid: Morata.

KERLINGER, F., y LEE, H. (2002). Investigación del comportamiento: métodos de

investigación en Ciencias Sociales. México: McGraw Hill Interamericana.

LLECE. (2010). Compendio de los manuales del SERCE. Santiago: INTERSON

S.A.

LÓPEZ PINA, J. (2005). Ítems politómicos v/s ítems dictócomicos: Un estudio

metodológico. Anales de Psicología, 399-344.

LÓPEZ PINA, J. A. (1996). Estimación de parámetros en la TRI: Una evaluación de

BILOG en muestras pequeñas. Psicothema, 173-185.

LÓPEZ-CUADRADO, J., PÉREZ, T., y ARMENDARIZ, A. J. (2005). Evaluación

mediante Tests: ¿Por qué no usar el ordenador? Revista Iberoamericana de

Educación .


MANZI, J., y SAN MARTÍN, E. (2003). La necesaria complementariedad entre

teoría clásica de la medición (TCM) y teoría de respuesta al ítem (TRI):

aspectos conceptuales y aplicaciones. Estudios Públicos, 145-183.

MARCHANT, T., RECART, I., CUADRADO, B., y SANHUEZA, J (2004). Pruebas

de Dominio Lector FUNDAR para alumnos de enseñanza básica. Santiago:

Ediciones Universidad Católica de Chile.

MARTÍNEZ ARIAS, R. (1995). Psicometría: Teoría de los Tests Psicológicos y

Educativos. Madrid: Sintesis.

MARTÍNEZ, R. (1996). Psicometría: Teoría de los Tests Psicológicos y Educativos.

Madrid: Sintesis.

MUÑOZ, M., y SAAVEDRA, S. (2011). Batería de Velocidad y Eficacia Lectora.

Viña del Mar.

MUÑIZ, J. (1992). Medio siglo de Teoria de Respuesta a los Ítems. Anuario de

Psicología, 41-66.

MUÑIZ, J. (1998). La medición de lo Psicológico. Psicothema, 1-21.

MUÑIZ, J. (2001). Teoría Clásica de los Test. Madrid: Pirámide.

MUÑIZ, J. (2010). Las Teorías de los Test: Teoría clásica y Teoría de Respuesta al

Ítem. Papeles del Psicólogo (31), 57-66.

MUÑIZ, J., y HAMBLETON, R. K. (1992). Medio siglo de Teoría de Respuesta a los

Ítems. Anuario de Psicología, 41-66.

MUÑIZ, J., FERNÁNDEZ-HERMIDA, J., FONSECA-PEDRERO, E., CAMPILLO-

ÁLVAREZ, A., y PEÑA-SUÁREZ, E. (2011). Evaluación de tests editados.

Papeles del psicológo, 113-128.


MUÑIZ, J., FIDALGO, Á., GARCÍA-CUETO, E., MARTÍNEZ, R., y MORENO, R.

(2005). Análisis de los Ítems. Madrid: La Muralla.

MURAT, F. (1985). Evaluación del comportamiento humano. Córdova: Universidad

Nacional de Córdova.

OLIDEN, P. (2003). Sobre la Validez de los Test. Psicothema, 315-321.

PARDO, C. (2001). Revista Colombiana de Psicología. ACTA, Bogotá.

PARDO, C. (2008). Hablemos de Validez. Bogota : ICFES Instituto Colombiano

para el Fomento de Educación Superior.

PRIETO, G., y DELGADO, A. R. (2010). Fiabilidad y validez. Papeles del Psicólogo,

Vol. 31(1), pp. 67-74.

REVUELTA, J., ABAD, F., y PONSODA, V. (2006). Modelos polítomicos de

Respuesta al Ítem. Madrid: La Muralla.

RODRÍGUEZ-JIMENEZ, O., ROSERO-BURBANO, R. B., y DUARTE, L. (2011).

Producción de Conocimiento en Psicometría en Instituciones de Educación

Superior de Bogotá y Chía. Revista colombiana de Psicología, 9-25.

RUIZ. (2003). Metodología de la Investigación Cualitativa. Bilbao : Universidad de

Deusto.

STUFFLEBEAM, L., y SHINKFIELD, A. (1987). Evaluación Sistemática. Guía

Teórica y Práctica. Buenos Aires: Paidos Ibérica.

TORNIMBENI, S., EDGARDO, P., y OLAZ, F. (2008). Introducción a la Psicometría.

Buenos Aires: Paidós.

1.3_Cofré_Francisco_Estudio Metodológico de La Calidad Métrica de Los Ítems Del Test BAVEL Desde...

Documents

Transcript of 1.3_Cofré_Francisco_Estudio Metodológico de La Calidad Métrica de Los Ítems Del Test BAVEL Desde...