5. Estimaciones empíricas de confiabilidad. Estimaciones empíricas de la confiabilidad M ÉTODOS...

5. Estimaciones empíricas de

confiabilidad

Estimaciones empíricas de la confiabilidad

MÉTODOS PARA ESTIMAR LA CONFIABILIDAD1. CONFIABILIDAD DE FORMAS ALTERNAS2. CONFIABILIDAD TEST-RETEST3. CONFIABILIDAD DE CONSISTENCIA INTERNA

FACTORES QUE AFECTAN LA CONFIABILIDAD1º CONSISTENCIA ENTRE LAS PARTES DEL

INSTRUMENTO2º LONGITUD DEL INSTRUMENTO3º HETEROGENEIDAD DE LA MUESTRA

CONFIABILIDAD DE LOS PUNTAJES DE DIFERENCIAS

Estimación empírica de la confiabilidad

Puntajes verdaderos = xv = pv

Puntajes observados = xo = poError = xe = e

Confiabilidad = Rxx = Cfb


La Cfd se define como: la proporción de la

varianza de los po que es atribuible a la

varianza de los pv.

Rxx = s2v /s2o

La Cfd de los instrumentos se cuantifica a partir de

los po.


Los métodos dependen de los supuestos

teóricos sobre los participantes y los

procedimientosSi los supuestos no se cumplen

Las estimaciones no serán exactas

No hay un método que proporcione estimaciones

completamente exactas bajo todas las

condiciones.


Hay por lo menos tres métodos para estimar la

Cfd:

1. Confiabilidad de formas alternas

2. Confiabilidad un instrumento

3. Confiabilidad de consistencia interna

MÉTODOS PARA ESTIMAR LA CONFIABILIDAD:1. CONFIABILIDAD DE FORMAS ALTERNAS2 . C O N F I A B I L I D A D T E S T- R E T E S T3 . C O N F I A B I L I D A D D E C O N S I S T E N C I A I N T E R N A

FACTORES QUE AFECTAN LA CONFIABILIDAD1 º C O N S I S T E N C I A E N T R E L A S PA RT E S D E L

I N S T R U M E N T O2 º L O N G I T U D D E L I N S T R U M E N T O3 º H E T E R O G E N E I D A D D E L A M U E S T R A


Estimaciones empíricas de confiabilidad



Formas alternas = paralelas.

Los puntajes se obtienen dedos formas diferentes de un instrumento.

Forma 1 Forma 2


El instrumento es confiable en la medida en que:

son consistentes con

Sólo si las dos formas de la prueba son paralelas.

las diferencias en los po de la forma 1

las diferencias en

los po de la forma 2.

Son paralelos si:a) Están midiendo el mismo grupo de pv.b) Tienen la misma cantidad de varianza

de e.Por tanto, tendrán igual:

media y desviación estándar.

La correlación entre las dos pruebas paralelas es exactamente igual a la Cfd.

r12= Rxx


Problema 1:Nunca es posible estar seguros de que dos formas del instrumento son verdaderamente paralelas

(que los pv medidos por la forma 1sean iguales a los pv de la forma 2).

Formas diferentes incluyen contenido diferente (ligeramente diferente constructo psicológico;ej., autoestima).

Por tanto, si las formas no son paralelas,la correlación no estima la Cfd.


Problema 2

Existe un efecto potencial de acarreo o contaminación (por memoria, actitudes, estado anímico) debido a la aplicación repetida de la prueba.

Los pe de la forma 1 se correlacionan con los pe de la forma 2.

No se cumple el supuesto básico de la teoría clásica de los test:“el error que afecta a cualquier prueba es aleatorio.”


Si dos formas de un instrumento se responden

simultáneamente,

algo del error que

afecta las respuestas de la forma 1

podría

afectar las respuestas de la forma 2.

Por tanto, las dos formas no sería paralelas.


Forma 1 Forma 2

Part. Xo1 = Xv1 + e1 Xo2 = Xv2 + e2

1 14 = 15 + -1 13 = 15 + -2

2 17 = 14 + +3 17 = 14 + +3

3 11 = 13 + -2 12 = 13 + -1

4 10 = 12 + -2 11 = 12 + -1

5 14 = 11 + +3 14 = 11 + +3

6 9 = 10 + -1 8 = 10 + -2

MediaS2

12.57.58

12.52.92

04.67

12.57.58

12.52.92

04.67

Ejemplo. Problema de acarreo


En el ejemplo, se han cumplido los supuestos:

Xo1= Xv + Xe

Los pv son completamente idénticos en las dos formas.

Los puntajes de error suman cero.

Los pv no están correlacionados con los pe.

Las se2 son iguales para las dos formas.


Cfd para la forma 1Rxx = 2.92 /7.58 = .38

Cfd para la forma 2Rxx = 2.92 /7.58 = .38

Correlación entre po de las formas 1 y 2ro1o2 = .96

Cfd muy alta, inexacta

Cfd real


Correlación entre los errores de las formas 1 y 2re1e2 = .93

Viola el supuesto de que el e es aleatorio (por efectos de acarreo)

MÉTODOS PARA ESTIMAR LA CONFIABILIDAD:1 . C O N F I A B I L I D A D D E F O R M A S A LT E R N A S

2. CONFIABILIDAD TEST-RETEST3 . C O N F I A B I L I D A D D E C O N S I ST E N C I A I N T E R N A

FACTORES QUE AFECTAN LA CONFIABILIDAD1 º C O N SI S T E N C I A E N T R E L A S PA RT E S D E L

I N ST R U M E N T O2 º L O N G I T U D D E L I N S T R U M E N T O3 º H E T E R O G E N E I D A D D E L A M U E ST R A



2. Confiabilidad test-retest


Es útil para medir constructos psicológicos estables (ej., inteligencia, extraversión).

Se le conoce como “coeficiente de estabilidad”

Evita algunos problemas de las formas alternas.

Tiempo 1 Tiempo 2

1er. supuesto:la se

2 del 1er. instrumento

es igual ala se

2 del 2º instrumento.

2º supuesto: los pv de los participantes son estables

a lo largo de las dos aplicaciones.(Los pv no cambian).

Por tanto, las dos ocasiones de aplicación producen puntajes que son igualmente confiables.

Entonces, la r entre la 1a. prueba y la 2ª prueba= Rxx


Problemas:1er. supuesto (igualdad de se

2 )

El error de medición está muy afectado por elementos temporales de la situación (ruido, distracciones, etc.)Podrían enmascarar las diferencias en los pv de los Ss.

Por tanto, habrá que controlar las muchas variables extrañas para que las situaciones sean idénticas y se pueda tener confianza en que las respuestas son afectadas por el error en el mismo grado.


Problemas2o. supuesto (estabilidad de los pv)test-retest depende muchísimo de este supuesto.Pero es bastante posible que haya cambios porque:1) Algunos constructos son menos estables

que otros(estado –fluctuaciones de día a día– vs.

rasgo).Los cambios en los po de una aplicación a la otra representarán el error de medición, que se reflejará en el tamaño del Rxx test-retest.


2) Longitud del intervalo test-retest.Periodos más largos mayor cambio

psicológico.Por tanto: Riesgo de confundir los cambios en los pv con el error de medición.

Periodos cortos efectos de acarreo

Para medidas de rasgo: periodo de 2 a 8 semanas.


3) Periodo de la vida de la persona en el que ocurre el intervalo.

En la infancia, cambian conocimientos, habilidades…Por tanto, no se puede usar test-retest.

La r test-retest refleja sólo :el grado en que error de medición afecta los puntajes.

rtt error de medición Rxx


MÉTODOS PARA ESTIMAR LA CONFIABILIDAD:1 . C O N F I A B I L I D A D D E F O R M A S A LT E R N A S2 . C O N F I A B I L I D A D T E S T- R E T E S T

3. CONFIABILIDAD DE CONSISTENCIA INTERNA

FACTORES QUE AFECTAN LA CONFIABILIDAD1 º C O N S I S T E N C I A E N T R E L A S PA RT E S D E L

I N S T R U M E N T O2 º L O N G I T U D D E L I N S T R U M E N T O3 º H E T E R O G E N E I D A D D E L A M U E S T R A





Útil alternativa práctica.

Requiere que los respondientes completen sólo un instrumento en un sola ocasión.

Es el método más usado para obtener la Cfb.

Tres aproximaciones para estimar Cfb:

a) División por mitadesb) Puntajes alfa “crudos”c) Puntajes alfa “estandarizados”


a) División por mitadesSe deriva desde dentro del instrumento

mismo.Pasos:1º Crear dos sub-instrumentos (v.gr.,

pares y nones) y obtener su puntaje compuesto.


2º Calcular la r entre los dos subinstrumentos (rmm).Refleja el grado en que las dos partes de la prueba son consistentes entre sí.

Representa la Cfb de sólo la “mitad” del instrumento.

3º Aplica la fórmula de Spearman y Brown:

Rxx = 2rmm /1 + rmm


División por mitadesPremisa:

Si los reactivos de un instrumento son

similares unos a otros, entonces al

dividirlo en dos partes de una manera

apropiada (generalmente, al azar) se

producirán dos subtests paralelos.


División por mitadesProblemas:Si no se cumple con el supuesto de los test

paralelos (igualdad de pv y de se2), se

obtiene una estimación inexacta.Diferentes maneras de dividir (y hay

muchas), generan diferentes estimaciones de Cfb. Es más grave con instrumentos largos.

No hay una que produzca estimaciones más exactas.

Por tanto, se emplea poco.


Más problemas Diferenciar pruebas de poder y pruebas de velocidad.

Pruebas de poder: preguntas con diferentes niveles de dificultad.Puntaje: número de respuestas correctas.

Pruebas de velocidad: Preguntas de igual grado de dificultad con tiempo limitado para responder.Puntaje: número de reactivos respondidos correctamente en el tiempo permitido.

En pruebas de velocidad de respuesta, con el método de mitades, la Cfb casi siempre es cercana a 1.Por tanto, se usan otros métodos.


b) Coeficiente alfaAproximaciones “a nivel de reactivo”.

Concibe cada reactivo como un subtest.

Se utilizan las asociaciones entre los reactivos para estimar la Cfb del instrumento completo.


Creada por Charles Spearman y W. Brown


Desarrollado por Lee Cronbach


Consistencia interna: estima la Cfb de los instrumentos de reactivos múltiples.

Idea básica:Las diferentes “partes” (reactivos o grupos de reactivos) pueden ser tratados como formas diferentes de un instrumento.

Factores que afectan la Cfb:

1) Consistencia entre las partes.Si las partes están fuertemente correlacionadas entre sí, es probable que el instrumento sea confiable.

Si

se podría concluir que los po son consistentes con los pv.

2) Longitud del instrumentoUn instrumento largo podría ser más confiable que uno

corto.


las diferencias observadas en una parte (un reactivo)

con las observadas en las otras partes (otros reactivos)

son consistentes

Coeficiente α “bruto” de Cronbach1er. paso

Se calcula la varianza de los puntajes del instrumento completo (S2

x )

Se calcula la covarianza entre cada par de reactivos (grado de asociación entre dos reactivos).

ciiSe obtiene una matriz de covarianzas.


Si la covarianza = 0 Inconsistencia.

Entonces:

o los reactivos no miden el mismo constructo,

o al menos uno está profundamente afectado por el error de medición (ej., su fraseo es ambiguo).


Las diferencias entre las respuestasal reactivo 1

son inconsistentes con las diferencias entre

sus respuestas al reactivo 2.

Se suman las covarianzas inter-reactivo

Σcii

Refleja el grado en el que son consistentes las respuestas a todos los

reactivos.


2º. Se calcula la estimación de confiabilidadα = Rxx estimada = (k / k – 1) (Σcii’ / S

2x )

o

k: Número de reactivos

Σcii: Sumatoria de las covarianzas entre los reactivos

S2x: Varianza de los puntajes


c) Coeficiente alfa “estandarizado”

Llamado también “fórmula generalizada Spearman Brown”

Todos los reactivos se estandarizan antes de sumarlos para crear el puntaje total de la prueba.

Proporciona una perspectiva más fuerte. Utiliza sólo correlaciones.


1er. pasoSe calculan r entre cada par de reactivos.


2º pasoSe calcula el promedio de las r (r inter-

reactivo): grado en el que las respuestas a todos los reactivos son consistentes entre sí.

3er. pasoSe calcula la estimación de la confiabilidad.

Fórmula Spearman y Brown.Rxx = [krii’ /1 + (k – 1) rii’


k = número de reactivos.

Los procedimientos de

alfa “brutos” y de alfa estandarizados

producen resultados similares.


Alfa bruto para reactivos binariosKuder-Richardson 20


Cada uno de los reactivos tienedos posibles respuestas

KR20

KR201er. paso

Se calculan la proporciones de los respondientes que contestaron cada reactivo en cada una de las dos opciones de respuesta (p y q).

Se calcula la varianza para cada reactivo (S2i = pq)

Se calcula la varianza total de la prueba (S2x)


KR20

2º paso

Se calcula la estimación de la Cfb:

α = Rxx estimada = (k / k – 1) (1 - Σpq / S2x)


Exactitud y uso de las estimaciones de Cfb por

consistencia interna

Es fácil de obtener y usar. Requiere poco esfuerzo: no

formas paralelas, no aplicaciones repetidas, no división

en mitades.

Los supuestos son más liberales: no se requiere el

supuesto de varianzas de error iguales.

Las estimaciones resultan más exactas.


KR20 y alfa

colocan un límite más bajo

sobre el tamaño de la confiabilidad estimada

de los puntajes de los instrumento

(subestiman la Cfb real

de los puntajes del instrumento).


MÉTODOS PARA ESTIMAR LA CONFIABILIDAD:1 . C O N F I A B I L I D A D D E F O R M A S A LT E R N A S2 . C O N F I A B I L I D A D T E S T- R E T E S T3 . C O N F I A B I L I D A D D E C O N S I S T E N C I A I N T E R N A

FACTORES QUE AFECTAN LA CONFIABILIDAD

1 º C O N S I S T E N C I A E N T R E L A S PA RT E S D E L I N S T R U M E N T O

2 º L O N G I T U D D E L I N S T R U M E N T O3 º H E T E R O G E N E I D A D D E L A M U E S T R A



Factores que afectan la confiabilidad


1er. factorConsistencia entre las partes de la prueba

Mayor consistencia interna produce mayor Cfb.

Ejemplo:Una Rxx = .63 pasaría a .73 si rii’ = .29 pasara a .40.

Recomendaciones: Reescribir algunos reactivos para hacerlos más claros. Reemplazar algunos reactivos por otros más relevantes al

constructo.


2º factorLongitud del instrumentoUn instrumento más largo

es más confiable que uno corto.

Al incrementar la longitud del instrumento,

la S2v aumentará en mayor grado que la S2

e ,

por tanto, incrementará la Cfb.

Rxx = sv2 / so

2

so2 = sv

2 + se2

Rxx = sv2 / sv

2 + se2


el se2 sólo

se duplicala sv

2 se cuadruplica

Si se duplicara la longitud del instrumento:

Rxx duplicado = 4(sv2 )/ 4(sv

2 ) + 2(se2)

Fórmula profética de Spearman-Brownpara estimar la Cfb

de un instrumento alargada o acortada:

Rxx revisado = nRxx original / 1 + (n – 1) Rxx original

n = factor por el que se revisa el instrumento.


Ej.La prueba tiene baja confiabilidad (.63).¿Cuánto tendría que alargarse para alcanzar una confiabilidad satisfactoria?

Rxx revisado = 3(.63) / 1 + (3 – 1) .63

Rxx revisado = .84


Rxx revisado = nRxx original / 1 + (n – 1) Rxx original

Si se triplicara el número de reactivos, se obtendría una confiabilidad de .84.

Fórmula profética con α estandarizado:

Rxx = krii’ /1 + (k – 1) rii’ k = número de reactivos.


Ej.Con 4 reactivos y rii’ = .29 → Rxx

= .63

Con 7 reactivos y rii’ = .29 → Rxx = .74

Pero:Un instrumento más largo es más confiable que uno corto

si y sólo silos reactivos adicionales son paralelos a los reactivos

originales.

Si no lo son, la rii se reduce,

y entonces la Cfb del instrumento alargadopodría ser menor

que la Cfb de la prueba original.

Restricciones prácticas para aumentar reactivos:Límite de tiempoFatiga


El beneficio de alargar un

instrumento es pequeño para

pruebas ya muy largas.

El tamaño del incremento en la Cfb

será una función negativa de la

longitud de la prueba original.


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Número de reactivos

Con

fiab

ilid

ad

est

imad

a

Asociación entre número de reactivos y confiabilidad (para un a prueba con una rii = .30)


3er factorHeterogeneidad de la muestra

A mayor variabilidad entre la gente

con respecto al atributo psicológico que se está

midiendo

(mayor heterogenidad de sus pv),

mayor el coeficiente de Cfb.


3er factorHeterogeneidad de la muestra

Rxx = sv2 / sv

2 + se2

Todo lo que incremente sv2 en relación con se

2

incrementará la Cfb.

Mientras más heterogéneos los pv, mayor sv2



1ª implicación:

La Cfb no es una característica de la propia

prueba, sino que depende de la muestra.

Un instrumento puede producir puntajes de

Cfb altos con una muestra (heterogénea) y

bajos con otra muestra (homogénea).


2ª implicación:

Pone de relieve la utilidad de los estudios de

generalización de la Cfb.

Ej.: El MMPI es más confiable para adultos

y para muestras clínicas.

MÉTODOS PARA ESTIMAR LA CONFIABILIDAD:1 . C O N F I A B I L I D A D D E F O R M A S A LT E R N A S2 . C O N F I A B I L I D A D T E ST- R E T E S T3 . C O N F I A B I L I D A D D E C O N S I ST E N C I A I N T E R N A

FACTORES QUE AFECTAN LA CONFIABILIDAD1 º C O N SI S T E N C I A E N T R E L A S PA RT E S D E L

I N ST R U M E N T O2 º L O N G I T U D D E L I N S T R U M E N T O3 º H E T E R O G E N E I D A D D E L A M U E ST R A



Confiabilidad de los puntajes de diferencias

Confiabilidad delos puntajes de diferencias

Interés en las diferencias entre dos puntajes.


Ej.: Estudiar el cambio en los puntajes de estudiantes.

¿Algunos niños cambiaron más que otros?

Variabilidad:Evaluar el grado en el que los niños varían en la cantidad del cambio.

Puntaje de diferencia = Puntaje inicial - Puntaje final

0 = no cambio

+ = cambio positivo

- = cambio negativo

Rd = .5 (Rxx + Ryy) - rxy / 1 - rxy

Rd : Confiabilidad de los puntajes de las diferencias

Rxx: Confiabilidad de la prueba 1

Ryy : Confiabilidad de la prueba 2


Cfb de los pd depende de:

a) La confiabilidad de los instrumentos usadaspara calcular los pd.

los instrumentos con Cfb altasproducirán pd con alta Cfb.


b) La correlación entre los puntajes obtenidos en las dos pruebas.Dos pruebas que están altamente correlacionados entre sí producirán pd con baja Cfb.Al aumentar la rxy disminuirá el tamaño de Rd.

Ej.:Con rxy = 0.00, Rd = .80 (instrumento independientes)Con rxy = 0.20, Rd = .70

Con rxy = 0.70, Rd = .33

Con rxy = 1.00, Rd = .00


La Cfb de los pd puede ser mucho más pequeña que la Cfb de los puntajes de los instrumentos que se utilizan para calcular los pd.

Los decrementos de Rd

son una función decreciente negativa de rxy

Ej.: Discapacidad = instrumento de – instrumento de logro en el aprendizaje inteligencia académico


Tipos de puntajes de diferencia:Puntajes de cambio:

De la misma prueba administrada en diferentes tiempos.

Puntajes de discrepancia:De diferentes pruebas.Deben estar en escalas métricas similares.Ej.: subinstrumentos del WISC (media = 10; ds = 3).Si no, estandarizar los puntajes (i.e., puntajes z)


Los pd tienen sentido si los puntajes de las dos pruebas han sido construidos para medir el mismo atributo psicológico.

(No: instrumento de inteligencia y instrumento de autoestima).

Otros pdPd intraindividual: De la misma personaPd interindividual: De diferentes personas


Conclusión:Los pd son muy problemáticos, porque tienden a ser menos confiables que los instrumentos utilizadas para calcularlos.

Los pd son confiables cuando existen diferencias individuales en el cambio verdadero.


5. Estimaciones empíricas de confiabilidad. Estimaciones empíricas de la confiabilidad M ÉTODOS...

Documents

Transcript of 5. Estimaciones empíricas de confiabilidad. Estimaciones empíricas de la confiabilidad M ÉTODOS...