USOS Y ABUSOS DE LA EVALUACIÓN EDUCATIVA. … 051 2012...USOS Y ABUSOS DE LA EVALUACIÓN EDUCATIVA....

24
USOS Y ABUSOS DE LA EVALUACIÓN EDUCATIVA. EXPERIENCIAS DE MÉXICO Felipe Martínez Rizo1 Universidad Autónoma de Aguascalientes Resumen El trabajo constata la creciente presencia y peso de la evaluación en las políticas educativas de México y América Latina; reconoce los avances de varios países en los que se consolidan sistemas de evaluación con mejoras técnicas y orga- nizativas, pero advierte sobre los riesgos de prácticas derivadas de una com- prensión inadecuada de los alcances y límites de tales herramientas. Un caso destacado de mal uso es la difusión de ordenamientos simples de escuelas y maestros con consecuencias fuertes, como asignación de estímulos y sancio- nes, pero los malos usos no se limitan a las pruebas. Se analizan tres ejemplos de dichos abusos en la experiencia mexicana: ordenamientos de secundarias básicas basados en un examen de ingreso a secundaria superior; ordenamien- tos de escuelas a partir de resultados de pruebas censales; y ordenamientos de entidades federativas con base en un índice formado por seis indicadores. Se concluye que la evaluación educativa –con pruebas estandarizadas, indica- dores u otros instrumentos— puede contribuir a que la calidad mejore, pero que eso no se sigue automáticamente de la evaluación, que puede tener con- secuencias contraproducentes. Se añade que lo indispensable para que la ca- lidad mejore es el trabajo intenso y bien orientado de maestros y escuelas, con apoyo de la sociedad, para lo cual ayudan muchas cosas, incluyendo buenas evaluaciones, pero se subraya que lo que no hace falta es un uso de resultados que desorienta. El análisis de usos inapropiados de la evaluación no es un cuestionamiento radical de tales herramientas y no se opone a que la ciudada- nía sea informada sobre la calidad educativa, opine sobre ella, exija cuentas claras a las autoridades y participe en la búsqueda de mejoras; pretende ser un llamado a la responsabilidad. PALABRAS CLAVE: Evaluación educativa; pruebas en gran escala; in- dicadores educativos; políticas educativas; consecuencias de la evaluación; difusión de resultados. KEY WORDS: Educational assessment & evaluation; large scale tests; educational indicators; educational policy; consequences of evaluation; in- tegrity of test results. UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 1

Transcript of USOS Y ABUSOS DE LA EVALUACIÓN EDUCATIVA. … 051 2012...USOS Y ABUSOS DE LA EVALUACIÓN EDUCATIVA....

USOS Y ABUSOS DE LA EVALUACIÓN EDUCATIVA. EXPERIENCIAS DE MÉXICO

Felipe Martínez Rizo1Universidad Autónoma de Aguascalientes

ResumenEl trabajo constata la creciente presencia y peso de la evaluación en las políticaseducativas de México y América Latina; reconoce los avances de varios paísesen los que se consolidan sistemas de evaluación con mejoras técnicas y orga-nizativas, pero advierte sobre los riesgos de prácticas derivadas de una com-prensión inadecuada de los alcances y límites de tales herramientas. Un casodestacado de mal uso es la difusión de ordenamientos simples de escuelas ymaestros con consecuencias fuertes, como asignación de estímulos y sancio-nes, pero los malos usos no se limitan a las pruebas. Se analizan tres ejemplosde dichos abusos en la experiencia mexicana: ordenamientos de secundariasbásicas basados en un examen de ingreso a secundaria superior; ordenamien-tos de escuelas a partir de resultados de pruebas censales; y ordenamientosde entidades federativas con base en un índice formado por seis indicadores.Se concluye que la evaluación educativa –con pruebas estandarizadas, indica-dores u otros instrumentos— puede contribuir a que la calidad mejore, peroque eso no se sigue automáticamente de la evaluación, que puede tener con-secuencias contraproducentes. Se añade que lo indispensable para que la ca-lidad mejore es el trabajo intenso y bien orientado de maestros y escuelas, conapoyo de la sociedad, para lo cual ayudan muchas cosas, incluyendo buenasevaluaciones, pero se subraya que lo que no hace falta es un uso de resultadosque desorienta. El análisis de usos inapropiados de la evaluación no es uncuestionamiento radical de tales herramientas y no se opone a que la ciudada-nía sea informada sobre la calidad educativa, opine sobre ella, exija cuentasclaras a las autoridades y participe en la búsqueda de mejoras; pretende ser unllamado a la responsabilidad.

PALABRAS CLAVE: Evaluación educativa; pruebas en gran escala; in-dicadores educativos; políticas educativas; consecuencias de la evaluación;difusión de resultados.KEY WORDS: Educational assessment & evaluation; large scale tests;educational indicators; educational policy; consequences of evaluation; in-tegrity of test results.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 1

USOS Y ABUSOS DE LA EVALUACIÓN EDUCATIVA.EXPERIENCIAS DE MÉXICO

Felipe Martínez RizoUniversidad Autónoma de Aguascalientes

IntroducciónA diferencia de lo que ocurría hace poco, hoy la evaluación educativa, y par-ticularmente la modalidad que representan las pruebas en gran escala, es unarealidad omnipresente y tiene un peso cada vez mayor en las políticas educa-tivas de los países de América Latina. Esa tendencia es ambivalente: bien ma-nejadas, tales evaluaciones pueden ser una herramienta valiosa para apoyarlos esfuerzos de mejora; pero debido a fallas de diseño, implementación oforma de usar los resultados, pueden también ser contraproducentes.

Hace tres décadas ningún país de la región contaba con pruebas que cubrie-ran, en forma censal o con muestras, el conjunto del sistema nacional de edu-cación básica. Chile fue el primer país latinoamericano que estableció unsistema de este tipo, y algunos países más avanzaron en esa dirección durantela década de 1980. A partir de 1990 en la mayoría de los países surgieron talessistemas, aunque muchas veces sin continuidad, dependiendo de asesoría yrecursos externos y con serias limitaciones técnicas. Un rasgo más era la es-casa difusión de los resultados y el limitado uso que se hacía de ellos. En2010 casi todos los países cuentan con evaluaciones muestrales en educaciónbásica y, en diversa forma, Argentina, Brasil, Chile, Colombia, Costa Rica, laDominicana, Ecuador, El Salvador, Guatemala, México y Uruguay tienen ohan tenido aplicaciones con carácter censal. (Cfr. Martínez Rizo, 2010)

En las últimas dos décadas la calidad técnica de las pruebas ha mejorado,aunque en forma desigual. La participación en evaluaciones internacionalesaumentó, con las pruebas del Laboratorio Latinoamericano de Evaluaciónde la Calidad Educativa, las de la IEA y, desde, 2000 las de PISA. Hoy lasevaluaciones atraen fuertemente la atención de los medios de comunicacióny tienden a volverse un referente importante de las políticas.

Pese a un inicio tardío y una débil tradición psicométrica, varios países ven con-solidarse sus sistemas de evaluación, con mejoras en aspectos técnicos y organi-zativos que llevan a mayor continuidad de las aplicaciones y datos de mejorcalidad. Por otra parte, hay dos riesgos en el horizonte. Uno es antiguo: la falta

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 2

de continuidad por los cambios políticos, cuyo efecto destructor se ha constatadoen las décadas pasadas. El otro es un peligro nuevo: el de los efectos perversospara la calidad educativa que traen consigo prácticas derivadas de una compren-sión inadecuada de los alcances y limitaciones de las evaluaciones. La tendenciaa censar puede ser positiva, pero también un avance en dirección equivocada.

Por razones que incluyen desconocimiento de alcances y limitaciones técnicasde las pruebas por las autoridades, presión de los medios de comunicación ysectores privados, e interés por utilizar políticamente los resultados, en variospaíses se atiende mucho más a los resultados menos confiables de pruebas cen-sales que a los más precisos de evaluaciones muestrales existentes. Es el caso enMéxico, con el peso abrumador de las pruebas ENLACE y la escasa atenciónque se presta a los resultados del INEE; en Brasil, donde la PROVA Brasil des-plaza al SAEB; de Perú, donde un valioso trabajo de pruebas muestrales ha de-jado el lugar a pruebas censales hechas apresuradamente. En Dominicana, desdela década de 1990 se aplicaron pruebas con fallas técnicas serias, sólo reciente-mente reconocidas, que recibían gran atención por su carácter censal. El ICFESde Colombia maneja pruebas censales e insiste en la necesidad de no hacer usosde alto impacto evitando la difusión de ordenamientos de escuelas, postura quedebe enfrentar fuertes presiones en contrario.

La experiencia latinoamericana muestra que la proliferación de pruebascensales y su excesivo peso en las políticas debido a su alto impacto traenya consecuencias negativas serias:

· Banalización del debate público sobre la calidad educativa, reducido a superficiales debates de ordenamientos discutibles, perdiendo de vista la complejidad del tema.

· Mercadotecnia engañosa de las escuelas, sobre todo de sostenimientoprivado, que buscan atraer alumnos basadas en esos ordenamientos.

· Empobrecimiento del currículo, por la tendencia de muchos maestros a enseñar para las pruebas, descuidando aspectos fundamentales que no serán evaluados.

· Cansancio y desaliento en escuelas que, pese a sus esfuerzos, no con-siguen resultados comparables con planteles cuyos alumnos tienen condi-ciones más favorables.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 3

· Rechazo de los alumnos ante una educación centrada en prepararlospara la prueba.

· Empobrecimiento de las políticas públicas, que tienden a buscar soluciones fáciles a problemas complejos, descuidando aspectos fundamentales, en particular la equidad.

El ejemplo más típico de mala utilización de las pruebas en gran escala, enespecial censales, se deriva del uso de ordenamientos individuales de es-cuelas y maestros, con base en los cuales se asignan estímulos y sanciones,lo que las vuelve evaluaciones de alto impacto, que dan lugar a los negativosresultados mencionados. Hay que añadir, sin embargo, que los malos usosde la evaluación no se limitan a las pruebas, sino que se pueden presentaren otros casos. En este trabajo se analizarán tres ejemplos de este tipo deutilizaciones abusivas, tomados todos de la experiencia mexicana reciente.

Los ordenamientos de secundarias basados en el EXANI IEn 2005 el Centro Nacional de Evaluación para la Educación Superior(CENEVAL) publicó el volumen Resultados educativos: la secundaria (2002-2003); al año siguiente difundió dos libros más, sobre los ciclos 2003-2004y 2004-2005. Las tres obras presentaban listados de escuelas de origen delos alumnos que aspiraban a entrar a planteles de bachillerato, con base enlos resultados obtenidos por ellos en el examen de ingreso llamado EXANII, ordenamientos que supuestamente mostrarían la calidad de dichas es-cuelas de origen. También se pretendía comparar los resultados de losalumnos de las entidades federales de México.

Las pruebas se construían con referencia a la norma estadística; combina-ban preguntas sobre habilidades (32 de 128) y sobre conocimientos (96preguntas, 12 para cada una de ocho áreas) sin cuidar la representatividadcurricular ni la sensibilidad a la instrucción; y por lo que hace a la compa-rabilidad de las varias formas de la prueba utilizadas en las aplicaciones deun mismo ciclo, el volumen de 2003-2004 decía que se ha tenido cuidado deque las versiones que se aplican tengan, en general, un nivel de dificultad semejante, loque no parece significar que se utilizaran procedimientos rigurosos de equi-paración.

No se daba información sobre el error de medición y el intervalo de confianza

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 4

de los resultados a nivel de plantel, lo que es fundamental para valorar el nivelde significatividad estadística de las diferencias, y se considera obligatorio enlas mejores prácticas de evaluación. El primero de los volúmenes analizadosincluía un párrafo sorprendente: En todos los casos se muestra el resultado numérico,trátese de valores máximos o de promedios, y cada lector puede juzgar si las diferencias entreuna y otra posición son suficientemente importantes… (CENEVAL, 2005: 377). Enrealidad era imposible que el lector, incluso si es un especialista, pudiera juzgarla importancia de las diferencias que separaban a las escuelas, ya que no sedaba la información necesaria para ello, lo que hace pensar que no se estimó.Un lector no especializado tenderá a interpretar, erróneamente, todas las di-ferencias como significativas, como hicieron los medios que hablaban del topten de las secundarias del país o de una entidad federativa.

Otra seria debilidad del uso de resultados del EXANI I para valorar la ca-lidad de las escuelas de origen de los sustentantes se refiere a la represen-tatividad de éstos respecto al universo de alumnos de las secundarias. Lossustentantes no eran todos los alumnos de las escuelas en cuestión, ni unamuestra representativa de ellos. Como se sabe, la representatividad de unamuestra depende en parte de su tamaño, pero además de la forma en quesea seleccionada. El tamaño de la muestra, por otra parte, no depende úni-camente del tamaño de la población: con poblaciones chicas se necesitacasi la totalidad de los sujetos, mientras que con poblaciones grandes bastanproporciones reducidas. En todos los casos, además, es importante que setrate de muestras aleatorias y no autoseleccionadas, como es el caso de lossustentantes del EXANI I.

Los alumnos del tercer grado de una secundaria forman poblaciones rela-tivamente pequeñas: en la mayoría de los casos con menos de 100 estu-diantes y con frecuencia 50 o menos. Incluso con una muestra aleatoria laproporción de alumnos necesaria para hacer inferencias sobre la poblaciónsería más del 90% de ella; diferencias pequeñas entre población y muestra,menores al 10%, implicarán márgenes de error grandes. El problema es,obviamente, más serio si las muestras no son aleatorias, como es el caso delos sustentantes del EXANI I.

De 30,337 secundarias registradas en 2003-2004 en México, según los datosdel CENEVAL, los sustentantes del EXANI I reportaron haber estudiadoen 16,072 (2006: 30). La proporción de secundarias con egresados que pre-

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 5

sentaron la prueba varía fuertemente por entidad: desde 93.3% hasta11.4%. La proporción de alumnos de secundaria que presentaron el examen vade 98.5% hasta sólo 0.3%. Sólo en otras dos entidades la cifra es mayor a80% y en una más es de 76.4%; en la entidad siguiente sólo el 48.7% delos alumnos de secundaria presentó el examen (CENEVAL, 2006: 31).

Por lo que toca a la cantidad de alumnos de una misma secundaria que pre-sentaron el EXANI I en 2003-2004, el CENEVAL informa que, de las 16,072escuelas de origen, el grupo con menos de diez sustentantes estuvo formadopor 8,919 planteles, con 28,665 sustentantes (en promedio 3.2 en cada una delas escuelas de este grupo). En 4,863 secundarias más presentaron el EXANII de 10 a 69 alumnos: 134,038 sustentantes, un promedio de 27.6 por escuela.En las 2,290 escuelas restantes más de 70 alumnos presentaron el examen:394,755 alumnos, un promedio de 172.4 (2005: 30). No hay datos sobre elalumnado de cada secundaria, por lo que incluso una cifra alta puede ser unafracción del total. El volumen de 2002-2003 reconoce lo anterior:

Dado que los exámenes se aplican a solicitud de los planteles en los cuales ingresan o aspiran a ingresar esos egresados, y no en las escuelas secundarias de donde egresan, la proporción que los examinados representan de los egresados no es la misma en todos los casos. En pocas palabras, el CENEVAL no tiene datos de todas las escuelas secundarias del país, y de algunas de ellas tiene muy pocos. (CENEVAL, 2005: 12)

Inclusive con muestras aleatorias, proporciones altas de sustentantes puedenser insuficientes para tener una precisión adecuada con poblaciones pequeñas.Con grupos autoseleccionados el problema es mayor. Aún sin considerar quelos resultados de los alumnos en las pruebas no son una base adecuada parahacer inferencias válidas sobre la calidad de la escuela, la falta de representa-tividad de los sustentantes bastaría para ver que no hay sustento para usarlos resultados del EXANI I para valorar la calidad de las escuelas de origen.El que se difundan los ordenamientos que son el centro de las publicacionesdel CENEVAL que se analizan refleja un desconocimiento o una falta derespeto de los principios básicos del muestreo. Así lo confirma el pasaje si-guiente, que compara los grupos de sustentantes del EXANI I con las mues-tras del estudio de PISA aplicado en 2003. El tamaño comparativamentemenor de dicha muestra, y la pequeña proporción que representa de la po-blación de la que forma parte, se aduce como justificación del hecho de usar

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 6

los resultados de los sustentantes del EXANI I para hacer inferencias relativasa sus escuelas de origen y a las entidades federativas en que se ubican.

Los datos… no se definieron mediante muestreo; el objetivo del EXANI I no es efectuar un estudio del rendimiento educativo de los egresados de tercero de secundaria, pero esta circunstancia no resta validez a los datos. Admítase nuevamente el caso de la evaluación de PISA: la muestra de México en 2003 fue de 30 mil jóvenes de 15 años de un universo de más de 2 millones de jóvenes de esa edad y de 1,270,000 que estaban matriculados en algún curso; es decir, la muestra es de 2.5% de la población de 15 años que se encontraba estudiando en el momento de efectuarse la aplicación. El porcentaje de sustentantes [del EXANI I] en el Distrito Federal es de 98.5% y de Morelos (la entidad de la que se ofrecen detalles con el porcentaje más bajo de cobertura) de 34.2% de la población en el último año de secundaria. (CENEVAL, 2006: 151-152)

Contra lo que se afirma en ese párrafo, debe concluirse que las característicasdel EXANI I y los grupos de sustentantes a los que se aplica sí restan validezno a los datos mismos, pero sí a las inferencias que se hacen a partir de ellosrespecto a las escuelas de origen de los alumnos. Esa forma de usar los resulta-dos no es apropiada e induce a error al lector, porque las características de laspruebas y de los grupos de personas a las que se aplicaron no permiten hacerlos ordenamientos en cuestión de manera adecuada. Llama especialmente laatención otra afirmación contenida en el volumen relativo al ciclo 2002-2003:

Las publicaciones de resultados que hemos editado y que seguiremos editando son clara muestra de que entre los riesgos de equívocos y malas interpretaciones debidos a sesgos, información incompleta o no equiparable, y la ausencia de información, el CENEVAL ha optado por lo primero. (CENEVAL, 2005: 13)

Contra esta opinión creo que presentar información construida deficien-temente es peor que no dar información, pues induce a error a los lectores.La disyuntiva entre no dar información y ofrecer una que induzca a errores falsa, pues hay otra posibilidad, la única aceptable: procesar correcta-mente la información, teniendo en cuenta sus propias características y losprincipios técnicos aplicables, y difundir los resultados precisando sus al-cances y límites, de manera que se maximice la probabilidad de interpreta-ciones y usos correctos (Martínez Rizo, 2006).

Los ordenamientos de escuelas basados en ENLACE

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 7

En octubre de 2007 la revista Educación 2001 publicó una lista de cinco escuelasprimarias de cada entidad federativa, y otra del mismo número de secundarias,que se presentaban como las mejores de México, con base en los resultados desus alumnos en la aplicación 2007 de las pruebas censales llamadas ENLACE(Exámenes Nacionales del Logro Académico en Centros Escolares), que laSecretaría de Educación Pública de México comenzó a aplicar en 2006.

Además del puntaje promedio obtenido por los alumnos de cada escuela, seinformaba sobre el número de alumnos matriculados en cada una; el númerode los que participaron en la aplicación 2007; y el de los estudiantes con res-puestas sospechosas de copia, según análisis a posteriori. Un sencillo análisis muestraque, en general, los resultados de ENLACE no sustentan la designación delas escuelas de las listas de referencia como particularmente buenas.

El principal argumento para acotar las interpretaciones de los resultados de EN-LACE consiste en la consideración de que las puntuaciones de los alumnos enuna prueba son indicadores importantes, pero incompletos, de la calidad de suescuela, ya que en el aprendizaje influyen múltiples factores, algunos de los cualespertenecen al ámbito de la escuela, pero otros corresponden al entorno familiary social en que viven los alumnos. Es perfectamente posible por ello que, por lainfluencia del entorno, los alumnos de una escuela que funciona muy bien ob-tengan resultados inferiores a los de otra que opera en forma menos eficiente.

Dos circunstancias particulares dan mayor fuerza al argumento anterior: una,cuando las pruebas se limitan a la medición de algunos aspectos de los mu-chos que comprende el currículo, y lo hacen sólo mediante preguntas de op-ción múltiple; otra, cuando existe una gran heterogeneidad en cuanto a lascondiciones de las escuelas, lo que hace particularmente inadecuadas las com-paraciones simples, que no tienen en cuenta tal diversidad de condiciones.Modelos analíticos más complejos, como los llamados de Valor Añadido,buscan precisamente controlar ese tipo de factores; sin desconocer el atrac-tivo de tales modelos, en la práctica es difícil tener las condiciones para usarlosde manera efectiva y, en todo caso, las pruebas ENLACE no lo hacen.

Además de las consideraciones anteriores, las interpretaciones de los re-sultados de ENLACE deben tener en cuenta, entre otros, los siguientespuntos particulares:

· Que, en poblaciones que rara vez superan el centenar de alumnos, la

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 8

ausencia de muy pocos chicos en la aplicación puede dar lugar a un sesgofuerte de los resultados, si los ausentes tienen niveles de rendimiento su-periores o inferiores al promedio.

· Que lo mismo ocurre si unos cuantos alumnos responden la pruebacon ayuda.

· Que en escuelas muy chicas unos cuantos alumnos atípicos, de resul-tados muy altos o bajos, influirán desmesuradamente en el promedio, y nopor la escuela ni el maestro.

· Que no se deben combinar en una escala puntuaciones obtenidas enpruebas que miden dimensiones distintas del rendimiento, como españoly matemáticas.

Las escuelas se clasificaron según tres criterios: 1) privadas, públicas gene-rales, indígenas y cursos comunitarios. 2) Por tamaño: de uno a diez alumnos,de 11 a 100 y más de 100. 3) Por la confiabilidad de los resultados, según elporcentaje de alumnos matriculados en la escuela que presentaron efectiva-mente la prueba y el de los identificados como sospechosos de copia.

De manera bastante laxa, en este análisis se consideraron confiables los resul-tados de aquellas escuelas en las que al menos el 80% de los alumnos matri-culados presentó efectivamente la prueba y los de aquellas en que no más de20% de los alumnos fueron identificados como sospechosos de haber co-piado. La Tabla 1 presenta el resultado del análisis para las 155 primarias, cincode cada una de las entidades federativas incluidas en el listado de referencia.

Tabla 1. Escuelas con resultados más o menos confiables, por tamaño y modalidadFuente: Elaboración propia, a partir de los datos de Educación 2001, 2007.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 9

La tabla muestra que, de las 155 primarias incluidas en el listado basado enlos resultados obtenidos por sus alumnos en la aplicación 2007 de las prue-bas ENLACE, 119 tienen resultados muy poco confiables, según los crite-rios relativamente laxos definidos. De las 36 primarias restantes, cuyosresultados parecerían en principio más confiables, 35 tienen diez alumnoso menos. En varios casos se trata de Cursos Comunitarios con uno o dosalumnos. Sólo una de las 155 primarias del listado tiene resultados relati-vamente confiables y más de 10 alumnos.

Las pruebas ENLACE pueden ser un instrumento útil para retroalimentarel trabajo de los maestros y las escuelas y también para la rendición de cuen-tas. El problema no son las pruebas en sí mismas sino el mal uso de sus re-sultados, basado en interpretaciones que no tienen en cuenta sus alcancesy limitaciones, la complejidad del sistema educativo mexicano y las múlti-ples dimensiones de la calidad de una escuela (Martínez Rizo, 2007).

Los ordenamientos de entidades federativas de los informes deMexicanos Primer o

La atención que atraen las pruebas suele hacer que se pierdan de vista otroselementos de la calidad de un sistema educativo, cuya evaluación implicaotro tipo de estudios. Un sistema educativo de buena calidad, en efecto, esuno que consigue que sus alumnos tengan buenos niveles de rendimiento,pero también buenos indicadores de cobertura y permanencia, del impactode la escuela en la vida adulta, de la equidad y la suficiencia de recursos yde la eficiencia de su uso. Sin embargo, hoy se pone mucho menos atencióna los indicadores de estas dimensiones, aunque se cuente con ellos. El aná-lisis siguiente se refiere a un caso que no se limita a resultados de pruebas,sino que considera otros aspectos.

En 2009 la organización Mexicanos Primero difundió un informe tituladoContra la Pared. Estado de la Educación en México, cuyo elemento fundamentalconsiste en ordenamientos de las entidades federativas mexicanas, supues-tamente con base en la calidad de sus respectivos sistemas educativos enprimaria y secundaria, según seis indicadores: tres que se refieren a resul-tados –Aprendizaje, Eficacia y Permanencia— y otros tres a procesos de ges-tión: Profesionalización docente, Supervisión y Participación de los padresde familia en la escuela.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 10

El que este informe no se limite al indicador de aprendizaje es positivo. Lamanera concreta como se maneja y presenta la información, sin embargo,adolece de problemas similares a los encontrados en los casos anterioreslo que lleva a un juicio desfavorable. Las fallas se pueden resumir en tresrubros: deficiencias de cada indicador; la integración de los seis indicadoresen un solo índice; y el uso de ordenamientos de entidades federativas comola forma de presentar los resultados, tanto para cada indicador como parael índice que los integra.

Deficiencias de cada indicador y de su integración en un índiceAprendizaje: Número de alumnos (%) con resultados superiores al nivel in-suficiente en matemáticas, en la prueba ENLACE para 6º de primaria o 3ºde secundaria.Los comentarios sobre los ordenamientos de escuelas basados en EN-LACE muestran que en ese nivel la precisión de los resultados en muchoscasos no es buena, lo que hace ver que se trata de un indicador cuya con-fiabilidad es dudosa.

Eficacia: Probabilidad de tránsito normativo entre niveles: que un alumnoque ingresa a los seis años a 1° de primaria se inscriba a los 12 en 1° de se-cundaria, o de que un alumno que ingresa a los doce años a 1° de secun-daria se inscriba a los 14 años en 3°.Tránsito normativo quiere decir que el alumno avanza un grado escolarpor año, sin repetir grados ni abandonar la escuela. Desde 2005 el INEEdifunde este indicador de manera más precisa, distinguiendo un retraso deun solo año y uno de dos años o más.

Permanencia: Complemento de la tasa de deserción total. Número estimadode alumnos que no abandonan la escuela entre ciclos consecutivos antesde concluir el nivel escolar, por cada cien que se matriculan al inicio de cur-sos de un mismo nivel educativo.Las estadísticas no permiten seguir alumnos en forma individual y el indicadorse debe calcular sobre cohortes aparentes, lo que hace que sea poco preciso.

Profesionalización docente: N° de docentes en escuelas públicas (%) que acre-ditaron el Examen Nacional para la Actualización de los Maestros en Ser-vicio (ENAMS).Indicador muy burdo, no considera ni el contenido de los cursos ni la ca-

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 11

lidad de las pruebas ENAMS; es aproximación insuficiente a la profesio-nalización, con el que se obtienen medida estables (confiables), pero no delo que se quiere medir (inválidas).

Supervisión escolar: Número de zonas escolares constituidas por 20 escuelaso menos (primarias generales o secundarias) por cada cien en el nivel.Otro indicador muy burdo que dice algo sobre el tamaño de las zonas ynada sobre la calidad del trabajo de los supervisores, que es lo que interesamedir.Participación en la escuela: N° de escuelas (%) que cuentan con un consejo es-colar constituido.Los programas oficiales hacen que muchos consejos escolares existan sóloen el papel, sin actividad alguna. Los datos triunfalistas que informan de laconstitución de más de 140 mil consejos (de un total de 220 mil escuelas)en el año que siguió a la disposición, cifra que se mantiene igual años des-pués, sugiere que el indicador probablemente mide en forma bastante fiableel grado de simulación que hay en el sistema.

Cuando varios indicadores pretenden medir una misma dimensión es ade-cuado un índice que mida mejor que cualquiera indicador por separado. Tra-tándose de dimensiones distintas no resulta adecuado que los indicadoresse integren. Es el caso en el informe que nos ocupa, lo que hace inadecuadoel uso de un índice, aún si cada indicador fuera bueno; si no es así, comovemos, el uso del índice integrado es particularmente desafortunado.

El segundo informe de Mexicanos Primero y las fallas del índiceLas debilidades del trabajo de Mexicanos Primero se pusieron en evidenciacon la aparición de un segundo informe, titulado Brechas. Estado de laEducación en México 2010. En el informe de 2009 el estado de Aguasca-lientes ocupaba el primer lugar nacional en primaria y en secundaria; el úl-timo lugar en primaria lo tuvo el estado de Oaxaca y el de Michoacán ensecundaria. El gobierno de Aguascalientes basó una fuerte campaña publi-citaria en esos datos que, aún si fueran sólidos, se explicarían por muchosfactores entre los que las políticas estatales no necesariamente son los másimportantes. Los resultados de 2010 plantean nuevos interrogantes. Latabla siguiente presenta los ordenamientos de 2009 y 2010.Tabla 2. Posiciones globales de entidades federativas en primaria y secundaria 2009-2010.Fuente: Mexicanos Primero, 2009 y 2010.

Tanto en primaria como en secundaria el estado de Aguascalientes pasa del

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 12

primer lugar al quinto. ¿Cómo explicar tal cambio? ¿Cómo explicar que el

estado de Campeche caiga del lugar 6° al 22° en primaria o Chiapas del19° al 30°, en tanto que Baja California sube del 26° al 16°, Guanajuatodel 16° al 7°, Hidalgo del 18° al 9° o Puebla del 12° pase al 2°? Casos si-milares se pueden ver en secundaria.

Las correlaciones (Ro de Sperman) del último renglón no son bajas (0.77y 0.799), pero los ejemplos muestran cambios en un año que resultan in-explicables en realidades tan complejas y de dimensiones tan importantescomo los sistemas educativos de las entidades federativas. Al ver tan extra-ños cambios de posición de muchas entidades en los ordenamientos basa-

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 13

dos en el índice global de Mexicanos Primero surge la pregunta de quétanto influirá en ellos cada uno de los seis indicadores que lo integran.

Las tablas siguientes ayudarán a dar una respuesta. En aras de la brevedadse presentan solamente los datos de primaria.

Tabla 3. Posiciones de las entidades en cuatro indicadores, primaria 2009-2010Fuente: Mexicanos Primero, 2009 y 2010.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 14

Los cuatro indicadores de la Tabla 3 tienen resultados más consistentes en2010 que en 2009, como muestran los coeficientes del último renglón. Lacalidad de la supervisión escolar indica algo sobre la del sistema educativo,pero medirla con base en el tamaño de las zonas escolares no dice grancosa sobre la calidad del trabajo del supervisor. Es esperable que el indica-dor sea estable porque las zonas escolares no se crean todos los días, perola correlación perfecta (1.00), que indica que todas las entidades ocupan elmismo lugar en los dos años, se debe simplemente a que como no se tuvoinformación fresca, se usaron de nuevo los datos de 2009.

Los indicadores de eficacia y profesionalización docente presentan también co-rrelaciones muy altas, superiores a 0.95, lo que era esperable pues, pornorma, los niños comienzan primaria a los seis años y las tasas de repro-bación y repetición son estables. Los niveles de exigencia del Examen Na-cional para Actualización de Maestros en Servicio en los que se basa elindicador de profesionalización docente, por su parte, se han mantenidosin cambios, pero un análisis de los exámenes muestra que cubre princi-palmente, y en forma muy superficial el conocimiento de principios peda-gógicos elementales y de la normatividad administrativa aplicable en lasescuelas, por lo que es un caso más de fiabilidad con muy dudosa validez.

Algo menor, pero también alta (0.81), la correlación de participación social seexplica, como ya se indicó, porque la creación de consejos de participaciónsocial se hizo en forma artificial y masiva en un momento, y se estancó casitotalmente después.

Veamos ahora los dos indicadores que muestran correlaciones más bajasentre 2009 y 2010.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 15

Tabla 4. Posiciones de las entidades en dos indicadores primaria 2009-2010.

Fuente: Mexicanos Primero, 2009 y 2010.

La Tabla 4 pone de manifiesto las limitaciones de los ordenamientos deentidades que son el punto central de los dos informes analizados o, entodo caso, el que más atrae la atención del público y da lugar a los abusosde algunas autoridades estatales.

La correlación más baja de todas es la del indicador de permanencia (0.482),sobre la que no tengo elementos para apuntar posibles explicaciones, perola correlación del indicador de aprendizaje, basado en los resultados delas pruebas ENLACE, debe hacer reflexionar.

Si llamaban la atención los cambios de posición que se observan en los or-denamientos globales, los del indicador de aprendizaje no pueden menos

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 16

que sorprender. En este caso Aguascalientes cae del primer lugar del ran-king al décimo quinto; el Distrito Federal del 2° al 12°; Campeche del 6° al18°, Chiapas del 18° al 29° y Tlaxcala del 5° al 13°. En cambio Guanajuatosube del 12° al 2°, Querétaro del 19° al 8° y Puebla llega al primer lugar apartir del 9° que tuvo en 2009. Para cualquier persona familiarizada conlos sistemas educativos resulta obvio que tales cambios no pueden ocurriren el lapso de un año; los cambios en las posiciones deben atribuirse a de-ficiencias de la medición, sea debidas a los instrumentos utilizados, a fallasen la aplicación o a una combinación de las dos cosas.

Los cuatro indicadores más estables muestran niveles de fiabilidad aceptables,pero su validez —entendida simplemente como la correspondencia entre elindicador y el constructo que pretende medir— es más que dudosa. En el casode los resultados de los alumnos en ENLACE, la validez presenta tambiénproblemas no menores, dadas las limitaciones de las pruebas, pero además hayun problema serio de fiabilidad. Y cuando los resultados varían de manera tanpronunciada debemos temer que no sólo no estamos midiendo lo que quere-mos medir, sino que simplemente no estamos midiendo cosa alguna, ni lo quequeremos medir ni algo más, sino que tenemos principalmente error.

Los cambios menos pronunciados en los ordenamientos globales basadosen el Índice de Mexicanos Primero se deben a la combinación de cambiosmayores, inexplicables, en dos de los seis indicadores, compensados enparte por una gran estabilidad de los otros cuatro, uno de los cuales manejólos mismos datos del año anterior, y todos con serias limitaciones no deconfiabilidad, pero sí de validez. Estos ejemplos son suficientes, a mi juicio,para apreciar que ordenamientos como los analizados no son una formaconfiable de evaluar la calidad de los sistemas educativos de las entidadesfederativas mexicanas.

Mexicanos Primero defendió el informe de 2009 diciendo que sus ordena-mientos se basan en una medida que se ajustó con base en el indicador deIntensidad en el incumplimiento de la Norma de Escolaridad Básica, calcu-lado por el INEE, y que es un promedio ponderado de las diferencias es-tandarizadas entre el valor observado y el estimado de los seis indicadores.

En cuanto a lo segundo, se ha dicho ya que no reducir la noción de calidada una sola dimensión es positivo, pero en este caso concreto las debilidades

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 17

de los seis indicadores no se subsanan por el hecho de promediarlos. Y encuanto a lo primero, debe advertirse que el indicador del INEE usado paraajustar los valores de los indicadores de Mexicanos Primero es otro índiceformado, a su vez, por cinco indicadores, todos escolares, puesto que setrata de un índice de pobreza educativa: inasistencia y rezago grave de niñosy jóvenes de 3 a 15 años; rezago educativo (analfabetismo y primaria y/osecundaria incompleta) para personas de 16 a 29 años, de 30 años o más ydel jefe o jefa del hogar.

Estos cinco indicadores se refieren a carencias educativas, si bien varios deellos a carencias del pasado, ya que se refieren a personas que fueron a laescuela hace tiempo. Ajustar los valores observados de los indicadores delÍndice relacionándolos con valores esperados que se estiman con base enuna regresión con el índice de pobreza educativa, modera sin duda las di-ferencias, pero el resultado sigue sin considerar factores del contexto de-mográfico, social, económico y cultural que dificultan la tarea educativa,como la proporción de niños en la población, la dispersión de la poblaciónrural, el nivel de ingreso, la migración o la existencia de personas cuya len-gua materna no es el español. La presencia de este tipo de factores es muydistinta en las entidades de la república y, por ello, no tenerlos en cuenta alhacer ordenamientos de la supuesta calidad de los sistemas educativos esinjusto y engañoso.

ConclusiónA riesgo de hacer afirmaciones que deberían precisarse o matizarse, el aná-lisis anterior ha utilizado en forma simplificada las nociones de fiabilidad yvalidez, cualidades básicas de toda buena medición. Se advierte la necesidadde tomar en cuenta las discusiones sobre validez y las concepciones actuales,incluyendo las relativas al impacto práctico de la evaluación sobre personase instituciones, distinguiendo las consecuencias que pueden considerarse as-pectos de la validez (consequential validity) y las que deberán analizarse de ma-nera independiente. Pueden revisarse sobre el particular los cambios en lospuntos respectivos de las versiones de 1985 y 1999 de los estándares parapruebas en educación y psicología y otros textos. (AERA-APA-NCME,1999 y 1985; Black, 2010; Brookhart, 2003; Moss, 2003; Popham, 1997)

Las limitaciones de varias formas de evaluación que dan resultados me-diante ordenamientos han sido ilustradas en este trabajo con los ejemplos

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 18

de los rankings de secundarias hechos por el CENEVAL, los de escuelasbasados en los resultados de los alumnos en las pruebas ENLACE, y losde entidades federativas de los informes de Mexicanos Primero. Es impor-tante señalar que a partir de 2006 el CENEVAL dejó de difundir ordena-mientos de secundarias con base en los resultados del EXANI I. Convienedecir que el uso de los resultados de ENLACE escapa al control de losequipos técnicos que desarrollan la prueba, y que la Secretaría de EducaciónPública llama la atención sobre algunas limitaciones del instrumento, enparticular por la imposibilidad de controlar una aplicación de dimensionesgigantescas (alrededor de 10 millones de pruebas en primaria y de cincomillones en secundaria. Y es justo reconocer el valor de los esfuerzos de laorganización Mexicanos Primero para promover el uso de la evaluaciónpara la rendición de cuentas por parte de las autoridades educativas.

Todo ello no impide señalar el grave impacto negativo que pueden tenerprácticas como las analizadas en este trabajo, que los responsables de lasevaluaciones y los especialistas deberían tratar de evitar, dedicando eltiempo necesario a la orientación del público no especializado sobre los al-cances y límites que tienen las evaluaciones.

Los resultados de pruebas u otro tipo de indicadores se pueden usar mal,en particular para hacer ordenamientos simples con escaso fundamentoque, en algunos casos, sirven de base incluso para asignar recompensaseconómicas y, en otros, se limitan a nombrar y avergonzar (name and shame)a los evaluados. En contraste con estos usos simplificadores, las instanciasque presentan resultados de evaluaciones de la calidad educativa deben sercuidadosas para no ofrecer información inconsistente; deben también con-textualizar los resultados, señalando la diversidad de factores que influyenen ellos, para evitar responsabilizar injustamente a presuntos culpables queno necesariamente son los verdaderos.

Hay, desde luego, razones para preocuparse por la calidad educativa, perolas formas de usar la evaluación que se critican se basan en concepcionessimplistas que ignoran la complejidad de los sistemas educativos, supo-niendo que en ellos opera una lógica de mercado, como en otros ámbitos.Muchas personas no tienen conciencia de la dificultad que implica alcanzarbuenos resultados educativos con alumnos de origen social desfavorable.Es frecuente que dirigentes del sector empresarial vean con simpatía las es-

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 19

trategias simplistas, pensando que las fallas de la escuela pública se podríancorregir fácilmente en escuelas privadas como las que atienden a sus hijos,ignorando que menos del 10% de los mexicanos asisten a ellas. Por eso hayopiniones de que bastará con aplicar pruebas masivamente, y tomar medidascorrectivas simples, para que la calidad de la educación mejore sustancial-mente. En otras palabras, las estrategias simplistas de mejora parten de unsupuesto falso: que hacer buena educación en cualquier contexto es fácil:

Los sistemas de rendición de cuentas basados en pruebas se basan en la creencia de que la educación pública puede mejorar gracias a una estrategia sencilla: haga que todos los alumnos presenten pruebas estandarizadas de rendimiento, y asocie consecuencias fuertes a las pruebas, en la forma de premios cuando los resultados suben y sanciones cuando no ocurra así. (Hamilton, Stecher y Klein, 2002)

La evaluación educativa –con pruebas estandarizadas, sistemas de indica-dores u otros instrumentos— puede contribuir a que la calidad mejore, loque no se sigue automáticamente de la evaluación, que puede tener conse-cuencias contraproducentes. Lo indispensable para que la calidad mejorees un trabajo intenso y bien orientado por parte de maestros y escuelas,con apoyo del resto de la sociedad. Para ello ayudan muchas cosas, inclu-yendo buenas evaluaciones; lo que no hace falta es un uso de los resultadosque desorienta a tomadores de decisiones y sociedad, lleva a unos a jactarsede logros dudosos y a otros, entre los que se cuentan personas serias y com-prometidas, a perder incluso la poca esperanza que aún tenían.

Por ello este análisis de usos inapropiados de la evaluación no es un cues-tionamiento radical de tales herramientas. Tampoco se trata de oponerse aque la ciudadanía sea informada sobre la calidad educativa, opine sobre ella,exija cuentas claras a las autoridades y participe en la búsqueda de mejoras.No es un capricho académico preocupado por la pureza metodológica niuna postura resignada a la inacción. Es un llamado a la responsabilidad.

Referencias bibliográficasAERA, APA, NCME (1999). Standards for educational and psychologicaltesting. Washington, American Educational Research Association.

AERA, APA, NCME (1985). Standards for educational and psychologicaltesting. Washington, American Psychological Association.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 20

Black, Paul et al. (2010). Validity in teachers’ summative assessments. Assessment in Education: Principles, Policy & Practice. Vol. 17 (2): 215-232.

Brookhart, Susan M. (2003). Developing Measurement Theory for Classroom Assessment Purposes & Uses. Educational Measurement: Issues& Practice. Vol. 22 (4): 5-12.

CENEVAL (2005). Resultados educativos: la secundaria (2002-2003). México. Autor.

CENEVAL (2006). Resultados educativos: la secundaria (2003-2004). México. Autor.

CENEVAL (2006). Resultados educativos: la secundaria (2004-2005). México. Autor.

Crooks, Terry J., M. T. Kane y A. S. Cohen (1996). Threats to the Valid Use of Assessments. Assessment in Education, Vol. 3 (3): 265-285.

Hamilton, L. S., Stecher, B. M. y Klein S. P., eds. (2002). Making sense of test-based accountability in education. Santa Monica, CA: Rand Corporation.

(2007). Las mejores escuelas de México. Educación 2001, Octubre, pp. 12-21.

Martínez Rizo, Felipe (2010). Assessment in the context of educational po-licy: The case of Latin American Countries. En Baker, E., McGaw, B. y Paterson,P. Eds. International Encyclopedia of Education, 3rd Ed. Oxford-New York.Elsevier.

Martínez Rizo, Felipe (2007). ENLACE: Imagen incompleta de la calidadde las escuelas. Educación 2001. Nueva época, Año XIII, N° 150, noviembre2007, pp. 24-26.

Martínez Rizo, Felipe (2006). Pruebas de selección y pruebas para evaluarescuelas. Nuevas consideraciones sobre su uso y la difusión de resultados.Cuadernos de Investigación, N° 21. México, INEE.

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 21

Mexicanos Primero (2010). Brechas. Estado de la Educación en México 2010.México. Autor.

Mexicanos Primero (2009). Contra la Pared. Estado de la Educación en México2009. México. Autor.

Moss, Pamela A. (2003). Reconceptualizing Validity for Classroom Assess-ment. Educational Measurement: Issues and Practice. Vol. 22 (4): 13-25.

Popham W. James (1997). Consequential Validity: Right Concern – WrongConcept. Educational Measurement: Issues and Practices. Summer, pp. 9-13.–––––––––––––––––––––––1 Datos de contacto:

Felipe Martínez RizoDepartamento de EducaciónUniversidad Autónoma de Aguascalientes, MéxicoTel. 52-449-918 8586e-mail: [email protected]

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 22

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 23

UCM_Liber Amicorum:14 Martinez Rizo 07/06/12 13:22 Página 24