tecb estad

24
International Journal of Clinical and Health Psychology ISSN: 1697-2600 [email protected] Asociación Española de Psicología Conductual España Fernández, Paula; Livacic-Rojas, Pablo; Vallejo, Guillermo Cómo elegir la mejor prueba estadística para analizar un diseño de medidas repetidas International Journal of Clinical and Health Psychology, vol. 7, núm. 1, enero, 2007, pp. 153-175 Asociación Española de Psicología Conductual Granada, España Disponible en: http://www.redalyc.org/articulo.oa?id=33770111 Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

description

est

Transcript of tecb estad

Page 1: tecb estad

International Journal of Clinical and Health

Psychology

ISSN: 1697-2600

[email protected]

Asociación Española de Psicología

Conductual

España

Fernández, Paula; Livacic-Rojas, Pablo; Vallejo, Guillermo

Cómo elegir la mejor prueba estadística para analizar un diseño de medidas repetidas

International Journal of Clinical and Health Psychology, vol. 7, núm. 1, enero, 2007, pp. 153-175

Asociación Española de Psicología Conductual

Granada, España

Disponible en: http://www.redalyc.org/articulo.oa?id=33770111

Cómo citar el artículo

Número completo

Más información del artículo

Página de la revista en redalyc.org

Sistema de Información Científica

Red de Revistas Científicas de América Latina, el Caribe, España y Portugal

Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Page 2: tecb estad

© International Journal of Clinical and Health Psychology ISSN 1697-26002007, Vol. 7, Nº 1, pp. 153-175

Cómo elegir la mejor prueba estadística paraanalizar un diseño de medidas repetidas1

Paula Fernández2 (Universidad de Oviedo, España),Pablo Livacic-Rojas (Universidad de Santiago de Chile, Chile) y

Guillermo Vallejo (Universidad de Oviedo, España)

(Recibido 30 de mayo 2005/ Received May 30, 2005)

(Aceptado 8 de abril 2006/ Accepted April 8, 2006)

RESUMEN. La potencia y robustez de los procedimientos estadísticos para analizarlos efectos en los diseños de medidas repetidas están en función de la satisfacción delos supuestos asociados al análisis, en especial, el supuesto de esfericidad y de homo-geneidad de las matrices de covarianza. Desafortunadamente, la violación de estossupuestos es habitual en los datos de las investigaciones aplicadas educativas y psico-lógicas. En este artículo teórico revisamos las competencias de varios estadísticos conrespecto al error de Tipo I y la potencia obtenidos por diferentes autores medianteestudios de simulación Monte Carlo. También realizamos una investigación MonteCarlo ad hoc para ejemplificar la cuantía del error de Tipo I en los efectos intra-sujetoen un diseño split-plot de medidas repetidas. Examinando todo lo anterior advertimosque diferentes métodos de análisis son apropiados en diferentes situaciones. Conclui-mos aportando recomendaciones para el análisis de estos diseños en función de laviolación o no de las asunciones subyacentes.

PALABRAS CLAVE. Medidas repetidas. Investigación aplicada. Procedimientos esta-dísticos. Violación de asunciones. Recomendaciones. Estudio teórico.

1 Este trabajo ha sido realizado con la ayuda concedida por el MEC-SEJ2005-01883.2 Correspondencia: Universidad de Oviedo. Departamento de Psicología. Plaza Feijóo, s/n. 33003 Oviedo

(España). E-Mail: [email protected]

Page 3: tecb estad

154 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

ABSTRACT. The power and robustness of the statistical procedures for the analysisof the repeated measures designs’ effects are sensitive to the not satisfaction of theanalysis assumptions, especially, the assumption of sphericity and homogeneity of thecovariance matrices. Unfortunately, the violation of these assumptions is habitual in thedata of the educational and psychological applied research. In this theoretical study weexamined the performance of the several statistics procedures with regard to the TypeI error and the power obtained for several authors through Monte Carlo methods. Aswell a Monte Carlo investigation was conduced ad hoc for exemplify the quantity ofthe Type I error in the within-subject effects in a split-plot repeated measures design.Examinee all previous we advise that different methods of analysis are appropriate indifferent situations and we conclude bringing recommendations for the analysis ofthese designs in order of the violation or not of the derivational assumptions.

KEYWORDS. Repeated measures. Applied research. Statistical procedures. Violationof assumptions. Recommendations. Theoretical study.

RESUMO. A potência e robustez dos procedimentos estatísticos para analisar os efeitosem planos de medidas repetidas estão em função da satisfação dos pressupostos associadosda análise, em especial, o pressuposto da esfericidade e da homogeneidade das matrizesde covariância. Infelizmente, a violação destes pressupostos é habitual nos dados dasinvestigações educativas e psicológicas aplicadas. Neste artigo teórico revemos a realizaçãode vários procedimentos estatisticos em relação ao erro de Tipo I e a potência obtidospor diferentes autores através de estudos de simulação Monte Carlo. Também realiza-mos uma investigação Monte Carlo ad hoc para exemplificar a quantidade do erro TipoI nos efeitos intra-sujeito num plano split-plot de medidas repetidas. Analisando tudoisto, advertimos que métodos de análise são apropriados em diferentes situações. Con-cluimos contribuindo com recomendações para a análise destes planos em função daviolação ou não das situações adjacentes.

PALAVRAS CHAVE. Medidas repetidas. Investigação aplicada. Procedimentosestatísticos. Violação de pressupostos. Recomendações. Estudo teórico.

Introducción

La popularidad e importancia de los diseños de investigación en los cuales seefectúan mediciones repetidas de cada uno de los sujetos se justifica por ser los únicosque permiten describir, pronosticar y explicar los procesos (biológicos, psicológicos,sociales, etc) que se producen como consecuencia del paso del tiempo. Este artículoviene motivado precisamente porque esta apreciación es tan poco original y aisladacomo sólidamente confirmada (Keselman, Algina y Kowalchuk, 2001). Así pues, aten-diendo al vigor que estos diseños ostentan, nuestra intención no es dirigirnos a losestudiosos del diseño y del método sino a los consumidores del mismo en la investi-gación aplicada.

El diseño es un modo de recogida de datos. Estos que aquí nos ocupan, en funciónde la naturaleza de la/s variable/s intra-sujeto (variables independientes-diferentes tra-

Page 4: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 155

Int J Clin Health Psychol, Vol. 7, Nº 1

tamientos-, variables independientes asignadas -tiempo, edad-), de la muestra (sea unoo varios grupos definidos por los niveles de la/s variable/s entre-sujetos -variablesindependientes o de clasificación-), de la regla de asignación (si los niveles de la/svariable/s intra y entre-sujetos han sido elegidos y asignados de modo aleatorio o no)y de la cantidad de variables dependientes, se despliegan en un amplio abanico dediseños particulares. No obstante, la estructura más habitualmente utilizada es aquellaque tiene un único factor intra-sujeto y un único factor entre-sujetos. Los sujetos (i =1,..., n

j, Σ n

j = N), clasificados en función de, o asignados aleatoriamente a los niveles

del factor entre-sujetos (j = 1,..., p) son observados y medidos en todos los niveles delfactor intra-sujeto (k = 1,..., q). Dos ejemplos son los que siguen:

Palmero, Breva, Diago, Díez y García (2002) realizan un experimento para explo-rar el papel que juegan los patrones emocionales Tipo A y Tipo B (variable entre-sujetos de clasificación) en la activación,variabilidad y recuperación cardiaca (variablesdependientes), en tres situaciones que representa la variable independiente intra-sujeto(habituación, tarea –presentación de estímulos estresantes– y recuperación).

Méndez, Orgiles y Espada (2004) llevan a cabo otro experimento para probar laeficiencia del programa de escenificaciones emotivas para el tratamiento de la fobia ala oscuridad. 45 niños fueron asignados aleatoriamente a dos condiciones experimen-tales -grupo de tratamiento mediante escenificaciones emotivas o grupo de control enlista de espera- (variable entre-sujetos independiente). Sendos grupos fueron observa-dos en cuatro momentos temporales –pretest, postest, seguimiento a los 3 meses yseguimiento a los 6 meses– (variable independiente intra-sujeto asignada).

Estos diseños tienen ventajas de considerable valor práctico, estadístico y sustan-tivo. A saber:

a) Valor práctico: suponen una alternativa a los diseños de grupos cuando sedispone de pocas unidades muestrales para realizar la investigación porquetodos los sujetos son observados en todas las condiciones experimentales.

b) Valor estadístico: una de las exigencias en los diseños trasversales es que losgrupos sean homogéneos. En principio, la homogeneidad quedaría garantizadaconfigurando los grupos al azar. Sin embargo, si la muestra es pequeña (eshabitual que cuanto menor sea el tamaño de la muestra se advierta una mayorvariabilidad) o aun siendo grande es demasiado heterogénea, la aleatorizaciónno va a resultar efectiva generándose entonces una gran varianza del error. Estacircunstancia supone una fuerte amenaza a la validez de la conclusión estadís-tica de la investigación. Por su parte, los diseños de medidas repetidas permiteneliminar mucha variabilidad del error experimental al servir cada sujeto comosu propio control; de ahí que sean más potentes que los diseños transversalescon el mismo número de mediciones.

c) Valor sustantivo: anteriormente hemos señalado que no siempre las respuestasde cada uno de los sujetos del estudio son obtenidas bajo condiciones experi-mentales, sino que cabe también la posibilidad de que se tomen registros enfunción de múltiples puntos temporales. Cuando los sujetos no reciben untratamiento diferente en cada punto del tiempo, estos diseños son los únicos

Page 5: tecb estad

156 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

que nos permiten obtener información concerniente a los patrones de cambioindividual.

Los datos así recogidos se analizan habitualmente utilizando el AVAR (AnálisisUnivariado de la Varianza) o el AMVAR (Análisis Multivariado de la Varianza). Ambasson alternativas acertadas si se satisfacen los supuestos del modelo elegido. En comúncomparten los siguientes: normalidad conjunta multivariada, independencia entre losvectores de observaciones de las diferentes unidades experimentales y homogeneidadde las matrices de covarianza o de dispersión (Σ). De modo particular, el modeloUnivariado (AVAR) también requiere que la estructura de la matriz Σ sea esférica. ¿Quées esfericidad? Existe esfericidad cuando las varianzas correspondientes a las diferen-cias entre las distintas ocasiones de medida son iguales o bien cuando tenemos varianzasiguales y covarianzas iguales. A las matrices que representan la primera condición selas llama Tipo H o de Huynh-Feldt (Huynh y Feldt, 1970). A las que representan lasegunda condición se las denomina Tipo S o de Simetría Combinada y son un casoparticular de las matrices Tipo H. A partir de los trabajos de Huynh (1978) y Mendoza(1980), el cumplimiento conjunto de los supuestos de homogeneidad de las matrices decovarianza y esfericidad de las mismas ha sido referido como esfericidad multimuestral.El valor de la esfericidad (ε) está comprendido entre 1/(q-1) y 1. Cuanto más se desvíede 1, más desviación de la esfericidad existe. Cuando existe esfericidad el valor de εes 1 y la matriz se dice que es esférica. El modelo Multivariado (AMVAR) no requiereeste supuesto, pero sí es imperativo para que se pueda calcular que el número de sujetosdentro de cada grupo sea mayor que el número de medidas repetidas. A pesar de lasventajas reseñadas anteriormente (ver también Davis, 2002; Finney, 1990) estos diseñosno están exentos de dificultades. En primer lugar, su estructura favorece la aparición deefectos residuales (distinto grado de correlación entre las medidas repetidas) y, porende, la violación del supuesto de esfericidad. En segundo lugar, en ciertos ambientesaplicados el tamaño de los grupos es muy dispar, lo que propicia que las matrices dedispersión sean heterogéneas y que los datos no se distribuyan normalmente (Micceri,1989; Sawilowsky y Blair, 1992; Wilcox, 2001). Por último, el investigador frecuente-mente no ejerce un control estricto sobre las circunstancias en las que se registran losdatos, lo que le ocasiona pérdida de sujetos y de ocasiones de medida. Así las cosas,la validez de la conclusión estadística (esto es, la posibilidad de cometer un mayor errorde Tipo I que el supuesto a priori -α- o de Tipo II -escasa potencia de prueba-) resultacomprometida en el AVAR y en el AMVAR en el primer y segundo caso respectivamen-te y para ambos en los restantes.

Para solventar estos problemas se han desarrollado técnicas alternativas de análi-sis, clásicas unas, de reciente desarrollo otras, pero todas ellas con un común denomi-nador, garantizar la robustez y la potencia en la prueba de las hipótesis de los efectosdel diseño. Como ninguna técnica de análisis es uniformemente mejor que el resto entodos los casos, conviene saber cual de ellas es más acertado utilizar en función de lascaracterísticas que una matriz de datos concreta tiene. Así pues, los objetivos de estetrabajo teórico (Montero y León, 2005) son:

– Exponer diferentes técnicas de análisis, qué problema tratan de acometer y conqué eficacia. Ser utilizadas con frecuencia y estar disponibles en los paquetes

Page 6: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 157

Int J Clin Health Psychol, Vol. 7, Nº 1

estadísticos estándar (SAS, SPSS) son los dos avales que justifican la decisiónde los estadísticos que exponemos. Para ello, además de apoyarnos en las inves-tigaciones realizadas sobre estas técnicas, y con la intención de ser pedagógicosen la exposición, hemos efectuado experimentos de simulación Monte Carlo adhoc (5000 replicaciones) con datos normalmente distribuidos ejemplificando encada uno de ellos el comportamiento con respecto al error de Tipo I de lasdiferentes técnicas en varias situaciones que se irán relatando.

– De otra parte, destilar conclusiones con ánimo de proporcionar a los investiga-dores de la psicología aplicada unas líneas básicas acerca de qué técnica deanálisis utilizar en una situación determinada, además de exhortar al esmerotanto en la planificación de la investigación como en la exposición de los resul-tados.

Características de las simulaciones efectuadasTodas las simulaciones se llevan a cabo para el modelo no aditivo (condición de

Ho verdadera para el tratamiento intra-sujeto y la interacción del tratamiento intra-sujeto con el tratamiento entre-sujetos), de un diseño de medidas repetidas factorialmixto -el mismo que subyacía en los dos ejemplos descritos anteriormente- con unavariable entre-sujetos de tres niveles y una variable intra-sujeto de cuatro niveles paraun nivel de significación α = 0,05. El tamaño total de la muestra (N) fue 30 salvo enalguna situación en que fue 60. La decisión de utilizar N = 30 fue porque para tresgrupos y cuatro medidas repetidas resulta un tamaño por grupo de 10 sujetos (teniendoel mismo número de sujetos por grupo) que es idóneo para que tanto el AVAR comoel AMVAR funcionen bien cuando la distribución de los datos satisface las asuncionesque sendos estadísticos requieren.

Las medidas empíricas de la probabilidad de cometer errores Tipo I se obtuvierontabulando el número de veces que cada estadístico excede el valor crítico (α) y divi-diendo por el número de replicaciones efectuadas. Se tomó como criterio de robustezα±3 errores estándar (ES). En nuestro caso α ± 3 ES constituye el intervalo (0,04-0,06).Así las cosas, el estadístico cuyo error de Tipo I sea inferior a 0,04 será consideradoconservador, si excede de 0,06 será liberal y si está dentro del intervalo tendrá uncomportamiento robusto.

Técnicas de análisis: pruebas univariadas

Vamos a suponer que tenemos que analizar los datos que han sido recogidos de lasinvestigaciones que en la introducción se pusieron de ejemplo. La ecuación linealunivariada que subyace al modelo mixto del AVAR con dos factores de efectos fijos (lavariable A intra-sujeto y la variable B entre-sujetos) y uno aleatorio (la variable πsujetos) es la que sigue:

ijkjkijkjikjijky εβπαβπβαµ ++++++= )()( )()( (1)

Page 7: tecb estad

158 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

donde, ijky representa la medida en k (nivel de la variable intra-sujeto) dentro del grupoj (nivel de la variable entre-sujetos) del sujeto i (uno de los sujetos del conjunto N);µ es la media general; jα es el efecto del jth nivel de la variable entre-sujetos; kβ es elefecto del kth nivel de la variable intra-sujeto; )( jiπ es el efecto del jth sujeto medidoen el jth nivel de la variable entre-sujetos; jk)(αβ es el efecto de la interacción entrela variable intra y entre-sujetos; )()( jkiβπ es el efecto de la interacción de la kthmedida con el ith sujeto dentro del jth nivel de la variable entre-sujetos y ijkε es elcomponente de error aleatorio.

Tres son las hipótesis nulas que podemos poner a prueba, las referidas a cada unade las fuentes de variación o efectos, esto es, la del tratamiento intra-sujeto (variableA), la del tratamiento ente-sujetos (variable B) y la de la interacción entre ambas(AxB).

Los estadísticos asociados con los efectos se distribuyen de acuerdo a la F ordi-naria (Scheffé, 1956) con los gl siguientes. Formalmente sería:

,1,1F/ / ])(qp)(N)(q;[~CMCMFASBBB

−−−= × α (2)

.1,11F~/ / ])(qp)(N)(q)(p;[CMCMFASBBABA

−−−−= ××× α

,,1F~/ / ]p)(N)(p;[CMCMFASAA

−−= α

donde ~ denota que la F empírica “se distribuye como” la F teórica.Si se cumplen los supuestos de normalidad conjunta multivariada, independencia

entre los vectores de observaciones de las diferentes unidades experimentales, homo-geneidad de las matrices de dispersión y esfericidad, el modelo univariado de la varianza(AVAR) es robusto para poner a prueba las respectivas hipótesis nulas sea o no eldiseño balanceado, es decir, los valores p (probabilidad asociada a los datos asumiendola Ho verdadera) constituyen un reflejo exacto de la probabilidad de rechazar las hipó-tesis nulas cuando de hecho son verdaderas, incluso es robusto frente a la ausencia denormalidad (Keselman, Lix y Keselman, 1996). También es uniformemente más poten-te que cualquier otro enfoque para detectar los efectos de los tratamientos.

Ahora bien, como anteriormente apuntamos, la falta de equilibrio de los gruposademás de ser frecuente generalmente va acompañada de una ausencia de‘homogeneidadentre las matrices de dispersión (Kazdin, 2001; Keselman et al., 1996; Kowalchuck,Lix y Keselman, 1996; Vallejo et al., 2002). En esta situación el AVAR abandona larobustez y las hipótesis nulas pueden ser falsamente rechazadas (comportamiento libe-ral) o falsamente retenidas (comportamiento conservador) en función del tipo de rela-ción existente entre el tamaño de los grupos y el tamaño de las matrices de dispersión.Cuando la relación es positiva (a mayor tamaño de grupo mayores varianzas) se vuelvemuy conservador. Cuando la relación es negativa (a mayor tamaño de grupo menoresson las varianzas) se vuelve sustancialmente liberal. En la Tabla 1 se muestra el com-portamiento del AVAR cuando se satisface el supuesto de esfericidad tanto bajo homo-geneidad de las matrices de dispersión como de heterogeneidad, y ambas para undiseño balanceado y no balanceado. Las matrices esféricas utilizadas en nuestra simu-lación son de simetría combinada (en este caso, pues, ε = 1). Nos resta añadir además

Page 8: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 159

Int J Clin Health Psychol, Vol. 7, Nº 1

de lo anteriormente comentado sobre ellas, que en estas matrices la correlación entrelas diferentes medidas intra-sujeto es constante, esto es, que las variables aleatorias delmodelo están igualmente correlacionadas para todos los pares de observaciones de cadasujeto.

TABLA 1. Error de Tipo I para los estadísticos: AVAR y AVAR con los grados delibertad corregidos mediante Greenhouse y Geisser (1959) y Huynt y Feldt (1976)

con la corrección de Lecoutre (1991). α = 0,05; N = 30.

Σ = Tipo S (ε =1) Σ 1= Σ 2= Σ 1 Σ 1≠ Σ 2≠ Σ 3

V.Entre

V.Intra

Interacción

AVAR

AVAR

AVAR

0,05081

0,05021

0,05031

0,05322

0,05112

0,05132

0,06701

0,05671

0,07001

0,02423

0,04813

0,01543

0,14884

0,06884

0,22714

Σ = Tipo NE (ε =0,50) Σ 1= Σ 2= Σ 1 Σ 1≠ Σ 2≠ Σ 3

V.Entre

V.Intra

Interacción

AVAR

AVAR

AVAR

0,04861

0,09761

0,11671

0,04972

0,10002

0,11802

0,06671

0,10991

0,12831

0,02423

0,09863

0,06023

0,15294

0,08664

0,24694

V.Entre

V.Intra

Interacción

G-G

G-G

G-G

0,04991

0,04891

0,04181

0,05182

0,05322

0,05532

0,06511

0,05191

0,06671

0,02613

0,05003

0,02593

0,14554

0,06314

0,15544

V.Entre

V.Intra

Interacción

H-F.L

H-F.L

H-F.L

0,04971

0,05411

0,05081

0,05152

0,05232

0,05762

0,06521

0,05481

0,06951

0,02713

0,05723

0,02623

0,14624

0,06424

0,15594

Nota. AVAR=Análisis Univariado de la Varianza estándar; G-G= AVAR con los gl corregidos medianteGreenhouse y Geisser (1959); H-F.L= AVAR con los gl corregidos mediante Huynt y Feldt (1976) con lacorrección de Lecoutre (1991). Tipo S= Matriz de Simetría Combinada; Tipo NE= Matriz No Estructurada;Σ

1= Σ

2= Σ

1=Matrices de dispersión homogéneas; Σ

1≠ Σ

2≠ Σ

3=Matrices de dispersión heterogéneas; 1= apa-

reamiento nulo en un diseño balanceado (10-10-10) –sujetos en cada uno de los tres grupos-; 2= apareamien-to nulo en un diseño no balanceado (6-10-14); 3= diseño no balanceado apareamiento positivo (6-10-14); 4=diseño no balanceado apareamiento negativo (14-10-6); bandas de robustez ±3 ES (0,04-0,06), en negrita semuestra el comportamiento no robusto sea conservador o liberal.

En la Tabla 1 podemos observar que cuando las matrices S son homogéneas elAVAR es robusto para las tres fuentes de variación sea el diseño o no balanceado. Sinembargo, advertimos que cuando las varianzas son heterogéneas las variables intra yentre-sujetos tienen un comportamiento liberal cuando el tamaño de los grupos es igual.Cuando el tamaño de los grupos es diferente y el apareamiento es negativo las tresfuentes de variación tienen un comportamiento liberal, siendo para la variable entre-sujetos y para la interacción extremadamente liberal. Si el apareamiento es positivo lavariable entre-sujetos y la interacción se manifiestan muy conservadoras.

Si se incumple el supuesto de esfericidad, con independencia de que el diseño estéo no equilibrado y las matrices de dispersión sean homogéneas o no, lo usual es quela hipótesis nula sea falsamente rechazada más veces de lo debido, incrementándose laliberalidad conforme las matrices de covarianza se desvían del patrón de esfericidadrequerido (Collier, Baker, Mandeville y Hayes, 1967) y también conforme incrementael grado de heterogeneidad, en mayor medida cuando el apareamiento es negativo. Lasmatrices que no satisfacen el criterio de esfericidad pueden obedecer a diferentes es-

Page 9: tecb estad

160 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

( )..2)1(

..)(ˆ

22

1

2

.

2

'11

22

σσσ

σσε

ppp

p

p

j jjj

p

j

n

i

jj

+−−=

∑∑∑ ===

−(4)

tructuras. La utilizada en nuestra simulación es No Estructurada (NE). Una matriz NEes una matriz simétrica donde tanto las varianzas como las covarianzas varían sinninguna estructura definida y la correlación entre las diferentes medidas intra-sujeto esarbitraria, careciendo por ello de esfericidad. En nuestra simulación el valor de ε =0,50.

En la Tabla 1 también se expone el comportamiento del AVAR cuando las matricesde dispersión no satisfacen el supuesto de esfericidad, tanto bajo homogeneidad comode heterogeneidad, y ambas para un diseño balanceado y no balanceado. En ella pode-mos observar que, con excepción del error de Tipo I para la variable entre-sujetoscuando las matrices son homogéneas, el resto se encuentran alteradas, su comporta-miento es muy liberal tanto para la variable intra-sujeto como para la interacción.

Terminamos de ver cómo la validez de la conclusión estadística del AVAR haresultado mermada cuando las matrices Σ son heterogéneas, y cómo todavía resulta másafectada cuando además hay ausencia de esfericidad. ¿Hay algún modo de corregiresto? La respuesta es sí. El investigador dispone de varias alternativas univariadas quedividimos en tres bloques: Estadísticos orientados a corregir los valores críticos de laF univariada, el enfoque del Modelo Lineal Mixto (MLM) y el modelo bootstrap-F.

Muchos han sido los ajustes que se han propuesto para corregir la liberalidad dela tradicional prueba F (Fernández, 1995; Quintana y Maxwell, 1994). Tres son los quepasamos a exponer: prueba de Greenhouse y Geisser (1959), prueba de Huynh y Feldt(1976) y el enfoque de la Aproximación General Mejorada (AGM) Huynh (1978).Todos estos procedimientos implican modificar los gl para la variable intra-sujeto ypara la interacción multiplicándolos por un valor ε (valor que, como ya señalamos,indica la desviación de la esfericidad de la matriz de dispersión Σ).

Pruebas univariadas que asumen la igualdad de las matrices de dispersión

–Prueba de Greenhouse y Geisser (1959).Basándose en la premisa de que el ajuste mediante el límite inferior de ε que es

1/(q-1) para un diseño con sólo una variable intra-sujeto propuesto inicialmente porGeisser y Greenhouse (1958) resulta en exceso conservador, estos autores sugierenmodificar los gl del numerador y denominador de las razones F para el tratamientointra-sujeto y la interacción utilizando el estimador muestral ε̂ del parámetro de esfericidadε desarrollado por Box (1954) del siguiente modo:

,ˆ1,ˆ1F/ / ])(qp)(N)(q;[CMCMFASBBB

εεα −−−≈= × (3)

.ˆ1,ˆ11F/ / ])(qp)(N)(q)(p;[CMCMFASBBABA

εεα −−−−≈= ×××

donde ≈ denota que la F empírica “se distribuye aproximadamente” como la F teóricay

Page 10: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 161

Int J Clin Health Psychol, Vol. 7, Nº 1

donde jjσ es la media de los elementos de la diagonal principal de la matriz de

dispersión Σ; ..σ es la media de todos los elementos de la matriz Σ; .j

σ es la media

de la fila j de Σ y 2

11 jj

p

j

n

iσ∑∑ == es la suma de cada uno de los elementos de la matriz

elevada al cuadrado.

– Prueba de Huynh y Feldt (1976).Cuando la violación de la esfericidad es ligera (ε ≥ 0,75) diversos autores han

observado que ε^ puede subestimar el verdadero valor de ε. Para solventar este compor-tamiento conservador Huynh y Feldt (1976) propusieron una nueva estimación delparámetro de esfericidad a partir del valor de ε ^ calculando los valores F como sigue

,~1,~1F/ / ])(qp)(n)(q;[CMCMFASBBB

εεα −−−≈= ×(5)

,~1,~11F/ / ])(qp)(N)(q)(p;[CMCMFASBBABA

εεα −−−−≈= ×××

donde el estimador del parámetro de esfericidad viene dado por

,ˆ11

2ˆ1~

])(qp[N)(q

)(qN

εε

ε−−−−

−−= (6)

donde p denota los niveles del factor entre grupos, q denota los niveles de la variable intra-

sujeto y ε̂ el estimador de Greenhouse y Geisser (1959).

Sin embargo, cuando el tamaño de los grupos es pequeño y el número de grupos

grande ε~ puede sobreestimar el verdadero valor de ε incluso puede llegar a excederla unidad. Así las cosas, Lecoutre (1991) propuso modificar el numerador de la Ecua-ción (6)

,ˆ11

2ˆ11~

])(qp[N)(q

)(q)p(N

L εε

ε−−−−

−−+−= (7)

La investigación empírica ha puesto de relieve que cuando la matriz de covarianzapromediada no es esférica las prueba de Greenhouse y Geisser y Huynh y Feldt mo-dificada por Lecoutre son estimadores robustos a la violación de la esfericidadmultimuestral siempre que las matrices sean homogéneas y el diseño balanceado. Sinembargo, ningún procedimiento basado en reducir los gl asociados con el estadístico Fdel tradicional AVAR resulta robusto cuando el diseño no disfruta de homogeneidad delas matrices de covarianza, estén los grupos equilibrados o no (Keselman et al., 2001).

También en la Tabla 1 se muestra el comportamiento del AVAR con los gl corre-gidos mediante los procedimientos de Geisser y Greenhouse y Huynh y Feldt modifi-cado por Lecoutre cuando las matrices Σ son homogéneas y heterogéneas y carecen deesfericidad. En ella observamos que ambos estadísticos se comportan de modo correcto

Page 11: tecb estad

162 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

cuando las matrices Σ son homogéneas sea el diseño balanceado o no. Cuando lasmatrices Σ son heterogéneas y el tamaño de los grupos es el mismo, tanto para lavariable entre-sujetos como para la interacción ambos estadísticos se alejan levementede la robustez. Cuando el tamaño de los grupos es diferente la estimación es conser-vadora si el apareamiento es positivo y muy liberal si el apareamiento es negativo. Encondiciones de heterogeneidad la variable intra-sujeto sólo se aleja de la robustezcuando el apareamiento es negativo, mostrándose levemente liberal.

Pruebas univariadas que no asumen la igualdad de las matrices de dispersión

– El enfoque de la Aproximación General Mejorada (AGM).Cuando además de ausencia de esfericidad existe heterogeneidad Huynh (1978)

recomendó modificar los parámetros de los valores críticos FB y F

AXB de la Ecuación

(2) en términos de las matrices de covarianza y del tamaño de los grupos como sigue:

]h,h á;FF ′≈ [bB

]h,'h' á;FF [cAxB

Si se cumple el supuesto de esfericidad las ecuaciones (2) y (8) son equivalentes.Finalmente, para conducirse con la heterogeneidad de covarianza a través de los

grupos, la razón FA

aproximada viene dada por ]h,h á;cF••′[ , donde los estimadores

del sesgo por la falta de homogeneidad y de los gl coinciden con los valores críticosde Box (1954). Los estimadores de c, b, h, h’, h’’, h’ y h· y la corrección debida aLecoutre los encontramos en Algina (1994), Algina y Oshima (1995) y Keselman yAlgina (1996).

Kesekman, Algina, Wilcox y Kowalchuck (2000) han desarrollado el procedimien-to AGM con estimadores robustos (con medias recortadas). Algina y Oshima (1995),Kesekman, Keselman y Lix (1995), Keselman, Algina, Kowalchuk y Wolfinger (1998),Kowalchuck, Keselman, Algina y Wolfinger (2004) y Livacic (2005) señalan que elestadístico AGM es robusto y potente tanto para el tratamiento como para la interacciónfrente a la violación de la esfericidad cuando las matrices Σ son heterogéneas inclusocuando los datos se asientan en distribuciones no normales, sólo es levemente liberalcuando el apareamiento entre Σ y n

j es negativo. En la Tabla 2 se muestra el compor-

tamiento del enfoque AGM en ausencia de esfericidad multimuestral y heteroscedasticidadde las matrices de dispersión. En ella podemos apreciar cómo el estadístico AGM esrobusto para las tres fuentes de variación cuando las varianzas son heterogéneas ytenemos el mismo tamaño de muestra en cada uno de los tres grupos de la variableentre-sujetos. También es robusta cuando el diseño es no balanceado pero el aparea-miento es positivo. Sólo es levemente liberal tanto para la variable intra-sujeto comopara la interacción cuando el apareamiento es negativo.

(8)

Page 12: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 163

Int J Clin Health Psychol, Vol. 7, Nº 1

TABLA 2. Error de Tipo I para los estadísticos: AGM, MLMy Bootstrap-F. α = 0,05; N = 30.

Σ = Tipo NE (ε=0,50) Σ1≠Σ2≠Σ3

V.Entre

V.Intra

Interacción

AGM

AGM

AGM

0,04981

0,05251

0,04981

0,05023

0,04963

0,04783

0,04914

0,06924

0,07014

V.Entre

V.Intra

Interacción

V.Entre

V.Intra

Interacción

V.Entre

V.Intra

Interacción

Proc Mixed AIC

Proc Mixed AIC

Proc Mixed AIC

Proc Mixed BIC

Proc Mixed BIC

Proc Mixed BIC

Proc Mixed MCI

Proc Mixed MCI

Proc Mixed MCI

0,05501

0,05101

0,05601

0,06001

0,05751

0,06901

0,05001

0,04751

0,04451

0,03953

0,03703

0,03303

0,02853

0,01703

0,02603

0,04553

0,05353

0,03553

0,07254

0,08034

0,10844

0,11404

0,14544

0,16244

0,05504

0,05304

0,06824

V.Entre

V.Intra

Interacción

Bootstrap-F

Bootstrap-F

Bootstrap-F

0,03641

0,04241

0,04171

0,04763

0,05143

0,04883

0,05904

0,06444

0,05964

Nota. AGM= Aproximación General Mejorada; Proc Mixed AIC= MLM mediante el procedimiento PROCMIXED del SAS utilizando el criterio de información de Akaike (1974) de selección de la matriz de disper-sión; Proc Mixed BIC= MLM mediante el procedimiento PROC MIXED del SAS utilizando el criterio deinformación de Schwarz (1978) de selección de la matriz de dispersión; Proc Mixed MCI= MLM medianteel procedimiento PROC MIXED del SAS utilizando la matriz Correctamente Identificada; Bootstrap-F=Procedimiento Bootstrap-F; Resto: ver Tabla 1.

– El Modelo Lineal Mixto (MLM). Análisis orientado a corregir los valores críticos dela F univariada y a modelar las matrices de dispersión.

El Modelo Lineal Mixto general para analizar medidas repetidas extiende el mo-delo clásico a situaciones donde los supuestos de independencia entre las puntuacionesde diferentes sujetos y homogeneidad de las matrices de dispersión no son requeridos.El MLM tiene muchas ventajas que le convierten en una estrategia sólida para realizarinferencias más exactas tanto de los parámetros del modelo -efectos de los tratamientose interacción- (Kowalchuck et al., 2004; Littel, 2002; Wolfinger, 1996) como de suserrores estándar (Núñez-Antón y Zimmerman, 2001), a saber: a) Con independencia deque el número de niveles de la variable intra-sujeto exceda o no el número de sujetos(esto es, sin importar el tamaño de la muestra), permite analizar los datos cuando setienen observaciones perdidas (datos incompletos), es decir, cuando para algunos suje-tos no se dispone de todos los registros -quizás porque no acudieron a la cita, quizáspor algún error del experimentador-. También permite que para cada sujeto se realicendiferentes número de registros (tal vez porque se ha logrado determinada meta, porejemplo, que hayan alcanzado una determinada destreza). También permite que losintervalos de tiempo entre cada aplicación de tratamiento sean específicos para cadasujeto. b) Permite encontrar cual es la estructura de la matriz Σ que mejor se ajuste alos datos antes de proceder al análisis, posibilitando modelar las variaciones intra y

Page 13: tecb estad

164 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

entre-sujetos tanto para datos completos como incompletos (Vallejo, Fernández y Secades,2004). El procedimiento PROC MIXED del SAS (SAS Institute, 2002) ofrece variasestructuras de covarianza para ajustar, entre ellas, de Simetría Combinada (S), de Huynh-Feldt (H), No Estructurada (NE) y Autorregresiva de primer orden (AR1) utilizando loscriterios de información de Akaike (1974) (AIC) y de Schwarz (1978) (BIC) (verKeselman et al., 1998; Littell, Milliken, Stroup y Wolfinger, 1998, pp. 101-102). Laelección del procedimiento de estimación para el análisis del MLM y los estadísticosde prueba están descritos en Littell et al. (1998, pp. 498-502). Ya hemos explicado quées una matriz de Tipo S, de Tipo H y NE. ¿Qué es una matriz autorregresiva? En estosdiseños que descansan en el registro sucesivo de conductas de cada uno de los sujetoses probable que la condición S ó H no se cumpla. Que la matriz sea NE es esperablecuando la variable independiente intra-sujeto son diferentes tratamientos que se admi-nistran de modo aleatorio para cada uno de los sujetos y se distancia su aplicación deun modo prudencial para evitar efectos residuales. Ahora bien, cuando la variable intra-sujeto es la edad o el tiempo es posible que haya efectos residuales y/o autocorrelaciónentre las puntuaciones (son muchos los investigadores que advierten que una muypequeña autocorrelación puede viciar completamente las pruebas de significación,incrementando el error de Tipo I o de Tipo II si es positiva o negativa, respectivamen-te). Es imperativo añadir que cuando la investigación implica además algún proceso deaprendizaje la maduración puede hacer mella haciéndose notar con la presencia añadidade heterogeneidad de las varianzas de los tratamientos. Lo que sucede es que siempreque existe autocorrelación hay ausencia de esfericidad y ninguno de los estadísticosanteriormente expuestos asume que la correlación entre las observaciones en distintospuntos del tiempo sea una función de la distancia temporal entre ellos. c) Permite quelas medidas repetidas sean de naturaleza categórica (Davis, 2002), incluso permite elmanejo de covariadas cuantitativas y categóricas cambiantes a lo largo del tiempo. Estoúltimo es de capital importancia, supongamos que en la investigación realizada porMéndez et al. (2004) la evolución y desaparición de la fobia dependa en parte de si lospadres trabajan o no a turnos y de lo que acerca de eso acontecía en el momento enque se realizasen los registros (dado que éstos fueron pieza fundamental en la aplica-ción de la terapia).

Sin embargo, también tiene puntos débiles, dos en concreto: De una parte, lasdificultades que en ocasiones tiene para identificar correctamente la estructura de lamatriz Σ subyacente dado que los criterios AIC y BIC no la seleccionan siemprecorrectamente (Keselman, Algina, Kowalchuck y Wolfinger, 1999a y 1999b; Livacic,2005; Vallejo, Fernández y Ato, 2003). De otra, que los estimadores de precisión einferencia se basan en su distribución asintótica -con muestras muy grandes ajusta bien-(Wolfinger, 1996), por lo que puede ocasionar serios problemas cuando se trabaja conmuestras reducidas (Vallejo et al., 2002). Cuando disponemos de pequeños tamaños demuestra, en lugar de utilizar la prueba F por defecto del MLM las soluciones desarro-lladas por Fai y Cornelius (S) (1996) y Kenward y Roger (KR) (1997) son recomen-dadas por muchos autores.

La investigación metodológica ha puesto de manifiesto que cuando se seleccionacorrectamente la matriz Σ el procedimiento MLM controla la tasa de error cuando

Page 14: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 165

Int J Clin Health Psychol, Vol. 7, Nº 1

existe heterogeneidad en las matrices sean los tamaños de los grupos igual o diferentesy sea como sea la relación entre las matrices y el tamaño (Livacic, 2005, Vallejo,Fernández y Velarde, 2001). Sin embargo, cuando la muestra es reducida muchos au-tores advierten que es deficiente (Keselman et al., 1999b; Keselman, Kowalchuck yBoik, 2000; Wright y Wolfinger, 1996). Anteriormente expusimos que en estos casoslos estimadores KR y S eran más apropiados. Pues bien, de la investigación se despren-de que el estimador MLM (KR) resulta potente y robusto en condiciones normales yno normales (Kowalchuck et al., 2004; Vallejo, Fernández, Herrero y Conejo, 2004)aunque si las condiciones son severamente sesgadas y el apareamiento es negativo, laestimación del efecto de la interacción se vuelve conservadora. El estimador MLM (S)tiene un buen comportamiento para la variable intra-sujeto pero no para la interacción(Keselman et al., 1999a; Livacic, 2005).

En la Tabla 2 también se muestra el comportamiento PROC MIXED en ausenciade esfericidad multimuestral cuando la matriz Σ se ajusta mediante los criterios debúsqueda AIC y BIC, y cuando la matriz se identifica correctamente (MCI). Se observacómo el método de búsqueda AIC es menos liberal y menos conservador que el métodode búsqueda BIC cuando el apareamiento es negativo y positivo, respectivamente.También su excelente comportamiento cuando la matriz es correctamente identificada.

– El enfoque bootstrap–F. Enfoque del Modelo Mixto de Scheffé con los valores críticosdeterminados empíricamente.

Se basa en derivar la distribución muestral empírica del estadístico de interésremuestreando repetidamente con reposición desde la muestra disponible. Vallejo, Cuesta,Fernández y Herrero (2006) describen cómo se aplica la metodología bootstrap paracontrastar las hipótesis de un diseño multigrupo de medidas repetidas p x q con cuatrooperaciones sumamente sencillas. A diferencia de lo que sucedía con los enfoquesanteriores, bajo este método los valores críticos derivados desde la teoría normal soninnecesarios. Berkuvits, Hancok y Nevitt (2000), Keselman et al. (2000) y Vallejo etal. (2002) señalan que, como esta técnica no requiere para su aplicación hipótesisrespecto de la forma de la distribución de la población, permite obtener estimadoresmás precisos cuando los datos provienen de distribuciones no normales y la matricesΣ son heterogéneas, sobre todo cuando tienen distinto tamaño. Keselman, Wilcox y Lix(en prensa) y Livacic (2005) señalan que tiene un excelente comportamiento con res-pecto al error de Tipo I para el tratamiento en condiciones normales y no normales, sinembargo resultaba conservador para la interacción en condiciones no normales. Lapotencia en cualquier situación no era muy elevada. En la Tabla 2 podemos ver suexcelente comportamiento cuando el apareamiento entre el tamaño y la forma de lamatriz es positivo. Sólo es levemente liberal su estimación para la variable intra-sujetoy cuando el apareamiento es negativo.

Técnicas de análisis: pruebas multivariadas

Como la ausencia de esfericidad es más la norma que la excepción cuando losdatos están recogidos secuencialmente, el investigador puede optar por alternativas de

Page 15: tecb estad

166 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

análisis multivariadas que no requieren averiguar cómo es la estructura de la matriz dedispersión subyacente. Todas ellas requieren el cumplimiento de los supuestos de nor-malidad conjunta multivariada, independencia entre los vectores de observaciones yque el tamaño de la muestra, para que se pueda calcular, sea suficientemente mayor queel número de medidas repetidas (N-p≥q-1).

Enfoque multivariado clásico:asume la igualdad de las matrices de dispersión

Como expusimos en la introducción, el análisis multivariado de la varianza (AMVAR)junto al análisis univariado de la varianza (AVAR) son las técnicas de análisis general-mente utilizadas por los investigadores para analizar los datos recogidos de un diseñode medidas repetidas. A priori sendos pueden elegirse con mucha lógica. Si el inves-tigador manipula la variable intra-sujeto para asignar sus niveles de modo aleatoriopara cada uno de los sujetos y lo hace de modo espaciado uno de otro para evitar losefectos de orden y residuales, puede esperar que la matriz Σ que subyace a sus datossea una de Tipo S o de Tipo H y aplicar el AVAR. Si así es, hará una elección correcta(siempre que se cumplan el resto de los supuestos que la técnica requiere). Sin embar-go, a menudo la variable intra-sujeto son observaciones registradas a lo largo deltiempo y la variable entre-sujetos consiste en la presencia o ausencia de tratamiento(grupo experimental y grupo de control, respectivamente) como en la investigaciónrealizada por Méndez et al. (2004) que nos sirvió de ejemplo. Es estas situaciones esesperable que las medidas de la variable dependiente estén intercorrelacionadas (y portanto no haya esfericidad). El investigador entonces necesita una técnica de análisis quesea más flexible con respecto a la forma de la matriz de varianzas-covarianzas. En estasituación elegir el análisis multivariado para analizar sus datos es acertado porquepermite a la matriz de dispersión tener cualquier estructura, siempre que se cumplaademás de los supuestos anteriormente descritos, que las matrices de dispersión seanhomogéneas.

Para una exposición sencilla de la formulación implicada en el análisis multivariadoremitimos al lector interesado a Arnau (1990), Vallejo (1991) y Timm (2002). Cuandolas varianzas son homogéneas (sean o no equilibrados los grupos), no existen observa-ciones perdidas y el tamaño de muestra no es excesivamente reducido, la literaturaempírica ha puesto de relieve que el enfoque multivariado mantiene la tasa de errorcontrolada al nivel nominal estipulado indistintamente de la forma de la matriz Σ. Estolo podemos observar en la Tabla 3. Sin embargo, también en la misma Tabla observa-mos que su comportamiento no es robusto cuando las varianzas son heterogéneas seael tamaño de los grupos igual o diferente, del siguiente modo: si el diseño es equili-brado, con independencia de la forma de la distribución, se vuelve sensiblemente libe-ral. Cuando el diseño está desequilibrado se comporta de una manera excesivamenteconservadora cuando la naturaleza de la relación entre el tamaño de los grupos y eltamaño de las matrices de dispersión es positiva y excesivamente liberal cuando larelación es negativa con independencia de la forma de la matriz Σ.

Page 16: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 167

Int J Clin Health Psychol, Vol. 7, Nº 1

TABLA 3. Error de Tipo I para los estadísticos:AMVAR, WJ, WJR y BF. α = 0,05.

Σ = Tipo NE (ε=0,50) Σ1=Σ2=Σ3

V.Entre

V.Intra

Interacción

AMVAR(N=30)

AMVAR(N=30)

AMVAR(N=30)

0,04861

0,05001

0,04151

0,04973

0,05283

0,04303

0,04924

0,05054

0,04854

Σ= Tipo NE (Σ=0,50) Σ1≠Σ2≠Σ3

V.Entre

V.Intra

Interacción

V.Entre

V.Intra

Interacción

V.Entre

V.Intra

Interacción

V.Entre

V.Intra

Interacción

V.Entre

V.Intra

Interacción

V.Entre

V.Intra

Interacción

AMVAR(N=30)

AMVAR(N=30)

AMVAR(N=30)

WJ(N=30)

WJ(N=30)

WJ(N=30)

WJ(N=60)

WJ(N=60)

WJ(N=60)

WJR(N=30)

WJR(N=30)

WJR(N=30)

WF(N=30)

WF(N=30)

WF(N=30)

WF(N=60)

WF(N=60)

WF(N=60)

0,06671

0,07451

0,08551

0,05471

0,05251

0,06671

0,05271

0,05051

0,04781

0,05051

0,03681

0,03601

0,05301

0,05021

0,04831

0,05301

0,05391

0,05171

0,02423

0,01283

0,01903

0,04793

0,04813

0,05813

0,04653

0,04953

0,04533

0,04783

0,03873

0,03423

0,04573

0,04753

0,04623

0,04573

0,04813

0,04803

0,15294

0,23054

0,25504

0,05294

0,06884

0,11864

0,04814

0,05394

0,06234

0,04884

0,04274

0,04634

0,05194

0,04104

0,04004

0,05194

0,05704

0,05474

Nota. AMVAR= Análisis Multivariado de la Varianza; WJ= procedimiento Welch-James; WJR= procedimien-to Welch-James con estimadores robustos; WF= procedimiento de Brown-Forsythe; N= 30 y N= 60, tamañostotales de la muestra; Cuando N= 60 el tamaño de los grupos es 1= apareamiento nulo en un diseñobalanceado (20-20-20) –sujetos en cada uno de los tres grupos-; 3= diseño no balanceado apareamientopositivo (12-20-28); 4= diseño no balanceado apareamiento negativo (28-20-12); Resto: ver Tabla 1.

En lo que se refiere a la falta de normalidad, a pesar de que este método de análisisexhibe un comportamiento ligeramente liberal cuando se analizan modelos aditivos (nohay interacción entre las variables intra y entre-sujetos) y ligeramente conservadorcuando se analizan modelos no-aditivos (sí hay interacción significativa), podemosdecir que es relativamente robusto al incumplimiento de dicho supuesto, en especial, sise dispone de un tamaño de muestra razonable (n

j(min)/(k-1)>3 ó 4). La falta de robustez

del AMVAR cuando no hay homogeneidad de las matrices de dispersión ha impulsadoel desarrollo de estadísticos robustos a la violación de esta asunción. De ellos se cuentaa continuación.

Page 17: tecb estad

168 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

Estadísticos robustos multivariados para la ausencia de homogeneidadde las matrices de dispersión

– Prueba multivariada de Welch-James (WJ) y prueba multivariada de Welch-Jamescon estimadores robustos (WJR).

La solución multivariada Welch-James (WJ) fue propuesta por Keselman, Carrierey Lix (1993) a partir del trabajo Johansen (1980). Más tarde, en el año 2000, estosmismos autores sugieren que la robustez del procedimiento WJ se puede incrementarsustancialmente reemplazando las usuales medias y matrices de covarianza con mediasrecortadas y matrices de covarianza winsorizadas cuando el tamaño de muestra seareducido y/o los datos hayan sido extraídos desde distribuciones sesgadas.

La literatura empírica (Algina y Keselman, 1997; Algina y Oshima, 1995; Keselmanet al., 1999a, 1999b; Keselman, et al., 1996; Kowalchuck et al., 2004) indica que laprueba WJ es robusta y potente tanto para el tratamiento como para la interacción y,por ende, provee valores válidos p frente a la violación de la esfericidad cuando lasmatrices Σ son heterogéneas, incluso cuando los datos se asientan en distribuciones nonormales, sólo es levemente liberal cuando el apareamiento entre Σ y n

j es negativo.

Livacic (2005) apunta esto último para la interacción bajo distribuciones leve o seve-ramente sesgadas. Vallejo et al. (2002) matiza que su mejor comportamiento lo alcanzacuando n

j(min)/(q-1) ≥ 6, es decir, necesita un tamaño de muestra elevado. Algina y

Keselman (1997) y Keselman et al. (1993) también aconsejan cómo debe ser el tamañode los grupos.

En la Tabla 3 se muestra el comportamiento de los dos enfoques, el enfoque WJy el enfoque WJR cuando se incumple el supuesto de esfericidad multimuestral (matrizNE, ε=0,50 y matrices de dispersión heterogéneas Σ

1≠ Σ

2≠Σ

3) y cuando sólo se incumple

el supuesto de esfericidad (matriz NE, ε=0,50 y matrices de dispersión homogéneas Σ1≠

Σ2≠Σ

3). Hemos considerado dos tamaños muestrales, moderado (N = 30) y grande (N

= 60) para el procedimiento WJ y sólo el primero para el procedimiento WJR. Esto nosda una idea de la tendencia en su comportamiento en función del tamaño de la muestra.Podemos observar cómo cuando el tamaño de la muestra es moderado el procedimientoWJ es ligeramente liberal para la interacción cuando sólo el supuesto de esfericidad esviolado, y muy liberal cuando a la ausencia de esfericidad se le suma la heterogeneidadde las matrices de dispersión y el apareamiento es negativo. Para las variables intra yentre-sujetos es robusto. Podemos advertir cómo un incremento en el tamaño de lamuestra mejora sensiblemente el resultado anterior. El procedimiento WJR con unmoderado tamaño de la muestra subsana el exceso de error de Tipo I para la interaccióncuando el apareamiento es negativo, sin embargo, se muestra conservador para el tra-tamiento intra-sujeto y para la interacción en las otras dos situaciones.

– Prueba multivariada de Brown-Forsythe (BF).La versión multivariada del enfoque de Brown-Forsythe fue propuesta por Vallejo

y Ato (en prensa) a partir de lo trabajo de Vallejo, Fidalgo y Fernández (2001) y Vallejoy Livacic-Rojas (2005). La investigación empírica concluye que el procedimiento BFcontrola la tasa de error cuando existe heterogeneidad en las matrices Σ sea el tamaño

Page 18: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 169

Int J Clin Health Psychol, Vol. 7, Nº 1

de los grupos igual o diferente y sea la relación que sea entre las matrices y el tamaño,además de que no exige un gran tamaño muestral (Livacic, 2005; Vallejo et al., 2001;Vallejo y Livacic-Rojas, 2005).

En la Tabla 3 también se muestra el comportamiento del procedimiento BF en lasmismas condiciones que los estadísticos WJ y WJR anteriormente expuestos. Podemosobservar su buen comportamiento cuando el tamaño de la muestra es moderado exceptopara la interacción cuando el apareamiento es negativo, que se vuelve conservador. Unincremento del tamaño de la muestra la convierte en una prueba estadística excelentepara poner a prueba las hipótesis de todas las fuentes de variación.

Discusión y conclusiones

Mediante la experimentación con simulación las técnicas estadísticas dirimen susdiferencias y muestran sus competencias. Este testigo anteriormente expuesto es el queahora recogemos para abordar el segundo objetivo que nos planteamos. Partiendo deque los fines sin los medios adecuados son frustrantes, y los medios sin los fines sontan improductivos como inútiles, hemos de tener conciencia de que una investigaciónsiempre se debe diseñar para que pueda hacer frente a las circunstancias más desfavo-rables y de que la ausencia de precauciones metodológicas y estadísticas ha conducidoa soluciones equivocadas a los problemas reales (Keselman, Othoman, Wilcox y Fradette,2004; Ramos-Álvarez, Valdés-Conroy y Catena, 2006; Wilcox, 2003). Así pues, exten-demos las siguientes recomendaciones:

– Dado que un error en la premisa aparecerá siempre en la conclusión, en primerlugar se debe realizar una correcta planificación de la investigación atendiendoa la validez en todos sus aspectos. Debemos procurar que la validez interna yde constructo sean exquisitas, lo mismo que la fiabilidad en las variables deregistro. Algunos puntos al amparo de la validez de la conclusión estadística sonlos que a continuación se citan.

– Se ha de cuidar el tamaño de la muestra: ha sido ampliamente demostrada labaja potencia de todos los estadísticos con grupos menores de 30 sujetos. Trasun análisis exhaustivo de los resultados de investigación Keselman et al. (1993)aconsejan para garantizar la potencia que n

j(min) debe ser 2 ó 3 y 3 ó 4 veces

mayor que (q-1) para poner a prueba el tratamiento y la interacción respectiva-mente bajo distribución normal. Estos dígitos deben ser mayores (3 ó 4 y 5 ó6) si la distribución es no normal. Blanca Mena (2004), Keselman et al. (1993),Keselman et al. (1996), Keselman et al. (2001) y Vallejo et al. (2002) entreotros, también han exhortado esta advertencia.

– Se debe mimar la arquitectura de la muestra: cuidar que no exista pérdida deunidades experimentales (sujetos), de ocasiones de medida o de registro de lasmismas durante el desarrollo de la investigación, además de hacerlo en interva-los regulares, todo ello con ánimo de que el diseño esté convenientementeequilibrado (ver Vallece y Green, 2002).

– Es necesario y en este orden, tener en cuenta el número de grupos y las carac-

Page 19: tecb estad

170 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

terísticas de los datos en ellos recogidos. La elección de la prueba estadística sedebe basar en ese examen. Aconsejamos proceder del siguiente modo. Si sólotenemos un grupo, se debe atender a los puntos 1 y 2. Si tenemos más de unoprimero tomaremos el pulso a la heterogeneidad de matrices de covarianza(debemos sospechar que exista si el diseño es no balanceado). Si los grupos sonhomogéneos atenderemos a los puntos 1 y 2, si no lo son, sólo contemplaremosel punto 3. Los puntos 1, 2 y 3 son los que siguen:(1) Si se cumplen todos los supuestos (independencia, normalidad, homogenei-

dad y esfericidad), sea el diseño o no balanceado, y el tamaño de muestra(N) es suficientemente mayor que el número de medidas repetidas (q): AVARo AMVAR. Si N es reducido con respecto a q: AVAR.

(2) Si se cumplen todos los supuestos del modelo excepto el de esfericidad, seael diseño o no balanceado: si N es suficientemente mayor que q: estadísticode Huynh-Feldt con la corrección de Lecoutre si ε<0,75 y estadístico deGreenhouse y Geisser si ε≥0,75. AMVAR en cualquier caso. Si N es redu-cida con respecto a q, uno de los dos primeros en función del valor de ε.

(3) Si no se cumple el supuesto de homocedasticidad de las matrices de covarianza,exista o no esfericidad y sea o no el diseño balanceado: si el tamaño de lamuestra es suficientemente grande: BF, AGM o WJ. Si el tamaño de lamuestra es reducido, BF o AGM, mejor el primero porque no impone nin-guna restricción sobre la forma de la matriz de dispersión.

– Implementación de los estadísticos: AVAR, AMVAR, estadístico de Huynh-Feldtcon la corrección de Lecoutre y estadístico de Greenhouse y Geisser (SAS,SPSS); MLG (PROC MIXED, SAS); AGM (Programa en SAS/IML de Algina,1997); WJ (Programa en SAS/IML de Lix y Keselman, 1995; Keselman et al.,2001); BF (Programa en SAS/IML de Vallejo, Moris y Conejo, 2006).

– Siempre que se aplique un estadístico que no sea de naturaleza multivariada esimperativo examinar y seleccionar adecuadamente la estructura de la matriz decovarianza que subyace a los datos. Sólo esto otorgará una base racional pararealizar inferencias exactas y eficientes de los parámetros del modelo y con elloobtener pruebas más potentes de los efectos (Vallejo et al., 2002). No aconse-jamos el MLM aplicando los usuales criterios de búsqueda semiautomática dela matriz Σ cuando no existen datos perdidos. Sin embargo, enfatizamos suutilidad cuando hay pérdida de observaciones, covariadas dependientes del tiempo,etc.

– Al exponer los resultados es necesario informar qué prueba estadística se hautilizado y los gl a ella asociados (Keselman et al., 2001), además de sustituirlos habituales asteriscos que se adjuntan al resultado empírico por el valor dep.

Blanca Mena (2004), Keselman et al. (1993), Keselman et al. (2001), Keselmanet al. (2000) y Kowalchuck, Keselman y Algina (2003) han hecho otras recomendacio-nes.

Los puntos anteriores van orientados a garantizar tanto la potencia como la robus-tez para el tratamiento y para la interacción (no hacemos referencia a los contrastes de

Page 20: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 171

Int J Clin Health Psychol, Vol. 7, Nº 1

medias) de los diseños de medidas repetidas, pero sólo en aquellas situaciones dondela escala de medida es continua, se efectúa un solo registro en cada ocasión, no haydatos discordantes, ni pérdida de ocasiones de medida para algún sujeto, ni covariadascambiantes con el tiempo, y el diseño está convenientemente equilibrado. Todo eso queaquí no se ha contemplado nos hace conscientes de que la realidad admite una enormecomplejidad, no obstante, nos debe tranquilizar que su estudio esté en plena ebullición.

Es verdad que el texto que se escribe nunca es el fiel precipitado de la intencióninicial, sino el punto de encuentro entre el propósito y el resultado. Que es difícil aunarprofundidad con claridad, rigor con estilo y análisis con síntesis. Sin embargo, espera-mos con éste corregir la miopía que surte de exclusivamente utilizar el AVAR o elAMVAR en el análisis de los datos de los diseños de medidas repetidas.

ReferenciasAkaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on

Automatic Control, AC-19, 716-723.Algina, J. (1994). Some alternative approximate tests for a split-plot design. Multivariate Behavioral

Research, 29, 365-384.Algina, J. (1997). Generalization of improved general approximation tests to split-plot designs

with multiple between-subjects factors and/or multiple within-subjects factors. BritishJournal of Mathematical and Statistical Psychology, 50, 243-252.

Algina, J. y Keselman, H.J. (1997). Testing repeated measures hypotheses when covariances areheterogeneous: Revisiting the robustness of the Welch-James test. Multivariate BehavioralResearch, 32, 255-274.

Algina, J. y Oshima, T.C. (1995). An improved general approximation test for the main effect ina split-plot design. British Journal of Mathematical and Statistical Psychology, 48, 149-160.

Arnau, J. (1990). Diseños experimentales multivariables. Madrid: Alianza.Berkovits, I., Hancock, G. y Nevitt, J. (2000). Bootstrap resampling approaches for repeated

measure designs: Relative robusrness to sphericity and normality violations. Educationaland Psychological Measurement, 60, 877-892.

Blanca Mena, M. (2004). Alternativas de análisis estadístico en los diseños de medidas repetidas.Psicothema, 16, 509-518.

Box, G.E.P. (1954). Some theorems on quadratic forms applied in the study of analysis ofvariance problems, I. Effects of inequality of variance in the one–way classification.Annals of Mathematical Statistics, 25, 290-403.

Collier, R.O., Baker, F.B., Mandeville, G.K. y Hayes, T.F. (1967). Estimates of test size forseveral test procedures based on conventional variance ratios in the repeated measuresdesigns. Psychometrika, 32, 339-353.

Davis, Ch. (2002). Statistical methods for the analysis of repeated measurements. Nueva York:Springer-Verlag.

Fai, A. y Cornelius, P. (1996). Approximate F-Tests of multiple degree of freedom hypotheses ingeneralized least squares analyzes of unbalanced split-plot experiments. Journal of StatisticalComputation and Simulation, 54, 363-378.

Fernández, P. (1995). Comparación mediante simulación de la potencia y robustez del enfoquemultivariado de medidas repetidas frente al correspondiente univariado con la estructuradel error modelada a través de procesos autorregresivos. Tesis Doctoral no publicada.Universidad de Oviedo.

Page 21: tecb estad

172 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

Finney, D. (1990). Repeated measurement: What id measurement and what effects. Statistics inMedicine, 9, 639-644.

Geisser, S. y Greenhouse, S.W. (1958). An extension of Box’s results on the use of the Fdistribution in multivariate analysis. The Annals of Mathematical Statistics, 29, 885-891.

Greenhouse, S.W. y Geisser, S. (1959). On methods in the analysis of profile data. Psychometrika,24, 95-112.

Huynh, H. (1978). Some approximate tests for repeated measurement designs. Psychometrika,43, 161-165.

Huynh, H. y Feldt, L.S. (1970). Conditions under which mean square ratios in repeated measurementsdesign have exact F-distributions. Journal of the American Statistical Association, 65,1582-1585.

Huynh, H. y Feldt, L.S. (1976). Estimation of the Box correction for degrees of freedom fromsample data randomized block and split-plot designs. Journal of Educational Statistics,1, 69-82.

Johansen, S. (1980). The Welch-James approximation of the distribution of the residual sum ofsquares in weighted linear regression. Biometrika, 67, 85-92.

Kazdin, A. (2001). Métodos de investigación en Psicología Clínica. México, D.F.: Prentice Hall.Kenward, M.G. y Roger, J.H. (1997). Small sample inference for fixed effects from restricted

maximum likelihood. Biometrics, 53, 983-997.Keselmam, H.J. y Algina, J. (1996). The analysis of higher-order repeated measures designs. En

B. Thompson (Ed.), Advances in social science methodology (vol. 4) (pp. 45-70). Greenwich,CT: JAI Press.

Keselman, H.J., Algina, J. y Kowalchuck, R.K. (2001). The analysis of the repeated measuresdesign: A review. British Journal of Mathematical and Statistical Psychology, 54, 1-20.

Keselman, H.J., Algina, J., Kowalchuck, R.K. y Wolfinger, R.D. (1998). A comparison of twoapproaches for selecting covariance structures in the analysis of repeated measurements.Communications in Statistics. Simulation and Computation, 27, 591-604.

Keselman, H.J., Algina, J., Kowalchuck, R.K. y Wolfinger, R.D. (1999a). A comparison of recentapproaches to the analysis of repeated measurements. British Journal of Mathematicaland Statistical Psychology, 52, 63-78.

Keselman, H.J., Algina, J., Kowalchuck, R.K. y Wolfinger, R.D. (1999b). The analysis of repeatedmeasurements: A comparison of mixed-model Satterthwaite F tests and a nonpooledadjusted degrees of freedom multivariate test. Communications in Statistics-Theory andMethods, 28, 2967-2999.

Keselman, H.J., Algina, J., Wilcox, R.K. y Kowalchuk, R.K. (2000). Testing repeated measureshypotheses when covariance matrices are heterogeneous: Revisiting the robustness of theWelch-James test again. Educational and Psychological Measurement, 60, 925-938.

Keselman, H.J., Carriere, M.C. y Lix, L.M. (1993). Testing repeated measures hypotheses whencovariance matrices are heterogeneous. Journal of Educational Statistics, 18, 305-319.

Keselman, H.J., Keselman, J.C. y Lix, L.M. (1995). The analysis of repeated measurements:Univariate tests, multivariate tests, or both? British Journal of Mathematical and StatisticalPsychology, 48, 319-338.

Keselman, H.J., Kowalchuck, R. y Boik, R. (2000). An examination of robustness of the empiricalbayes and other approaches for testing main interaction effects in repeated measuresdesigns. British Journal of Mathematical and Statistical Psychology, 53, 51-67.

Page 22: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 173

Int J Clin Health Psychol, Vol. 7, Nº 1

Keselman, J., Lix, L y Keselman H.J. (1996). The analysis of repeated measurements designs:A quantitative research synthesis. British Journal of Mathematical and Statistical Psychology,49, 275-298.

Keselman, H.J., Othoman, A., Wilcox, R. y Fradette, K. (2004). The new and improvement two-sample t tests. Psychologycal Science, 15, 47-51.

Keselman, H.J., Wilcox, R. y Lix, L. (2003). A generally robust approach to hypothesis testingin independent and correlated groups designs. Recuperado de www:/umanitoba.ca/faculties/arts/psychology.

Kowalchuck, R.K., Keselman, H.J. y Algina, J.Y. (2003). Repeated measures interaction test withaligned ranks. Multivariate Behavioral Research, 38, 963-974.

Kowalchuck, R.K., Keselman, H.J., Algina, J.Y. y Wolfinger, R.D. (2004). The analysis of repeatedmeasures with mexed-model adjusted F test. Educational and Psychological Measurements,64, 224-242.

Kowalchuck, R.K., Lix, L.M. y Keselman, H.J. (1996, junio). The analysis of repeated measuresdesigns. Comunicación presentada en el 61 st. Annual Meeting of the Psychometric Society,Banff, Alberta, Canada.

Lecoutre, B. (1991). A correction for the approximate test in repeated measures designs with twoor more independent groups. Journal of Educational Statistics, 16, 371-372.

Littell, R.C. (2002). Analysis of unbalanced mixed model data: A case study comparison ofANOVA versus REML/GLS. Journal of Agricultural, Biological, and EnvironmentalStatistics, 7, 472-490.

Littell, R.C., Milliken, G.A., Stroup, W.W. y Wolfinger, R.D. (1998). SAS system for mixedmodels. Cary, NC: SAS Institute.

Livacic, P. (2005). Una evaluación empírica de procedimientos alternativos de análisis y diseñosde medidas repetidas. Tesis Doctoral no publicada. Universidad de Oviedo.

Lix, L. y Keselman, H. (1995). Approximate degrees of freedom test: A unified perspective ontesting for mean equality. Psychological Bulletin, 117, 547-560.

Méndez, X., Orgiles, M. y Espada, J.P. (2004). Escenificaciones emotivas para la fobia a laoscuridad: un ensayo controlado. International Journal of Clinical and Health Psychology,4, 505-520.

Mendoza, J.L. (1980). A significance test for multisample sphericity. Psychometrika, 45, 495-498.

Micceri, T. (1989). The unicorn, the normal curve, and other improbable creatures. PsychologicalBulletin, 92, 778-785.

Montero, I. y León, O.G. (2005). Sistema de clasificación del método en los informes de inves-tigación en Psicología. International Journal of Clinical and Health Psychology, 5, 115-127.

Núñez-Antón, V. y Zimmerman, D.L. (2001). Modelización de datos longitudinales con estruc-turas de covarianza no estacionarias: modelos de coeficientes aleatorios frente a modelosalternativos. Qüestiió, 25, 225-262.

Palmero, F., Breva, A., Diago, J.L., Díez. J.L. y García, I. (2002). Funcionamiento psicofisiológicoy susceptibilidad a la sintomatología premestrual en mujeres Tipo A y Tipo B. InternationalJournal of Clinical and Health Psychology, 2, 111-136.

Quintana, S. y Maxwell, S.E. (1994). A Monte Carlo comparison of seven e-adjustment proceduresin repeated measures designs with sample sizes. Journal of Educational Statistics, 19, 57-71.

Page 23: tecb estad

174 FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas

Int J Clin Health Psychol, Vol. 7, Nº 1

Ramos-Álvarez, M.M., Valdés-Conroy, B. y Catena, A. (2006). Criteria of the peer-review processfor publication of experimental and cuasi-experimental research in Psychology. InternationalJournal of Clinical and Health Psychology, 6, 773-787.

SAS Institute (2002). SAS/STAT software: Version 9.0 (TS M0). Cary, NC: SAS Institute.Sawilowski, S.S. y Blair, R.C. (1992). A more realistic look at the robustness and Type II error

probabilities of the t test to departures from population normality. Psychological Bulletin,111, 352-360.

Scheffé, H. (1956). A mixed model for the analysis of variance. Annals of Mathematical Statistics,27, 23-36.

Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464.Timm, N.H. (2002). Applied multivariate analysis. Nueva York: Springer-Verlag.Vallace, D. y Green, B.S. (2002). Analysis of repeated measures designs with linear mixed

models. En D.S. Moskowitz y S.L. Hershberger (Eds.), Modeling intraindividual variabilitywith repeated measures data: Methods and applications (pp. 135-170). Mahwah, NJ:Lawrence Erlbaum Associates.

Vallejo, G. (1991). Análisis univariado y multivariado de los diseños de medidas repetidas deuna sola muestra y de muestras divididas. Barcelona: PPU.

Vallejo, G., Arnau, J., Bono, R., Cuesta, M., Fernández, P. y Herrero, J. (2002). Análisis dediseños de series temporales cortas. Metodología de las Ciencias del Comportamiento, 4,301-323.

Vallejo, G. y Ato, M. (en prensa). Modified Brown-Forsythe procedure for testing interactioneffects in Split-Plot designs. Multivariate Behavioral Research, 41.

Vallejo, G., Cuesta, M., Fernández, P. y Herrero, J. (2006). A comparison of the bootstrap-F,improved general approximation and Brown-Forsythe multivariate approaches in a mixedrepeated measures design. Educational and Psychological Measurement, 66, 35-62.

Vallejo, G., Fernández, P. y Ato, M. (2003). Tasas de potencia de dos enfoques robustos paraanalizar datos longitudinales. Psicológica, 24, 109-122.

Vallejo, G., Fernández, P., Herrero, J., y Conejo, N. (2004). Alternative procedures for testingfixed effects in repeated measures designs when assumptions are violated. Psicothema,16, 498-508.

Vallejo, G., Fernández, J.R., y Secades, R. (2004). Application of a mixed model approach forassessment of interventions and evaluation of programs. Psychological Reports, 95, 1095-1118.

Vallejo, G., Fernández, P. y Velarde, H. (2001). Un estudio comparativo de pruebas robustas parael análisis de datos longitudinales. Metodología de Ciencias del Comportamiento, 3, 35-52.

Vallejo, G., Fidalgo, A.M., y Fernández, P. (2001). Effects of covariance heterogeneity on threeprocedures for analysing multivariate repeated measures designs. Multivariate BehavioralResearch, 36, 1-27.

Vallejo, G. y Livacic-Rojas, P. (2005). A comparison of two procedures for analyzing small setsof repeated measures data. Multivariate Behavioral Research, 40, 179-205.

Vallejo, G., Moris, J. y Conejo, N (2006). A SAS/IML program for implementing the modifiedBrown-Forsythe procedure in repeated measures designs. Computer Methods and Programsin Biomedicine, 83,169-177.

Wilcox, R.R. (2001). Fundamentals of modern statistical methods: Substantially improving powerand accuracy. Nueva York: Springer.

Page 24: tecb estad

FERNÁNDEZ et al. Prueba estadística para un diseño de medidas repetidas 175

Int J Clin Health Psychol, Vol. 7, Nº 1

Wilcox, R.R. (2003). Applying contemporary statistic techniques. San Diego: Academic Press.Wolfinger, R.D. (1996). Heterogeneous variance-covariance structures for repeated measurements.

Journal of Agricultural, Biological, and Enviromental Statistics, 1, 205-230.Wright, S.P. y Wolfinger, R.D. (1996, octubre). Repeated measures analysis using mixed models:

Some simulations results. Comunicación presentada en la Conference on ModellingLongitudinal and Spatially Correlated data: Methods, Applications, and Future directions,Nantucket, MA, Estados Unidos.