EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE...
Transcript of EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE...
1
EDUCACIÓN PÚBLICA Y EDUCACIÓN CONCERTADA EN ESPAÑA: APORTACIONES
DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE
EDUCACIÓN PRIMARIA DE ARAGÓN
María Jesús Mancebón Torrubia Domingo Pérez‐Ximénez de Embún
José María Gómez Sancho (Universidad de Zaragoza)
1. Introducción
La literatura dirigida a evaluar el impacto de intervenciones educativas diversas ha
experimentado un crecimiento muy notable en las últimas décadas en el panorama
investigador internacional (véanse los números más recientes de la revista Economics of
Education Review, entre otras). La aparición de bases de datos de calidad ‐como los informes
PISA que elabora la OCDE cada tres años, los TIMMS y PIRLS que realiza la Asociación
Internacional para la Evaluación de los Logros Educativos o las Evaluaciones de Diagnóstico que
realizan las comunidades autónomas españolas desde 2009‐, junto con el desarrollo de
sofisticados métodos de análisis, que permiten hacer frente a los principales problemas
metodológicos que tradicionalmente han afectado a este tipo de investigaciones, juegan, sin
duda, un papel decisivo en la explicación de este fenómeno.
Entre las diferentes intervenciones educativas que han sido objeto de evaluación destaca el
modelo de gestión –público/privado‐ de las escuelas. En efecto, el debate sobre las ventajas
relativas de la escuela privada frente a la pública, presente en la Economía de la Educación
desde tiempos lejanos1, ha adquirido un nuevo protagonismo en los últimos años merced a las
potencialidades que en el análisis de esta cuestión presentan las innovadoras técnicas de
inferencia causal desarrolladas por económetras y estadísticos en los últimos treinta años.
Estas técnicas, agrupadas bajo la rúbrica Propensity Score Analysis (Guo y Fraser, 2010), se han
mostrado de gran utilidad a la hora de establecer relaciones de causa‐efecto en los estudios
que, como la mayoría de los que se llevan a cabo en el ámbito educativo, se nutren de
registros de hechos ocurridos de manera natural, es decir, sin ningún tipo de manipulación ni
control por parte del investigador.
En este contexto, el objetivo del trabajo que se presenta a continuación es evaluar el impacto
que tiene la asistencia a una escuela concertada, frente a una pública, en los resultados que
obtienen los estudiantes en pruebas de evaluación estandarizadas. En particular, nuestro
estudio centra su atención en las competencias educativas que se valoran en la Evaluación
Censal de Diagnóstico (ED, a partir de ahora), prueba de evaluación española establecida en la
Ley Orgánica de Educación (LOE) de 20062.
El análisis de una cuestión de este tipo no puede ser más pertinente en un momento como el
actual, a las puertas de una nueva reforma educativa. Y es que, aunque el debate
1 El origen de estas investigaciones se encuentra en el trabajo de Coleman, Hoffer y Kilgore (1982).
2 Ley Orgánica 2/2006, de 3 de mayo, de Educación.
2
público/privado es una constante histórica en nuestro país, la cuestión resurge con
vehemencia en momentos previos a las reformas educativas, dada la convivencia en España de
dos modelos de gestión escolar (público y privado), que compiten por unos recursos públicos
limitados. A pesar de que los defensores de cada una de las alternativas en pugna suelen
apelar a criterios de calidad, eficiencia o igualdad a la hora de respaldar la opción preferida, lo
cierto es que los estudios técnicos realizados sobre esta cuestión en la literatura especializada
arrojan resultados contradictorios, lo que impide extraer conclusiones sólidas sobre las que
fundamentar la elección del modelo óptimo de producción educativa.
La muestra objeto de estudio en nuestro trabajo está constituida por la totalidad de los
centros públicos y concertados de enseñanza primaria de la comunidad autónoma de Aragón.
Los datos sobre los que se realizan las estimaciones proceden de la Evaluación de Diagnóstico
en Aragón 2010; en concreto, de los relativos a los alumnos que en el curso 2009/2010
estaban matriculados en el cuarto curso de primaria3. Las estimaciones se realizan mediante la
aplicación secuencial de dos metodologías: el propensity score matching (PSM) y los modelos
jerárquicos lineales (HLM). La primera técnica nos llevará a delimitar una muestra homogénea
de estudiantes exenta del problema de endogeneidad que potencialmente afecta a la muestra
original. La segunda metodología, por su parte, nos permitirá aquilatar con mayor precisión el
efecto de nuestro predictor principal (los conciertos escolares) sobre las competencias
evaluadas en la ED. Hasta donde conocemos, ésta es la primera ocasión en que ambas
metodologías son combinadas para evaluar el impacto de una intervención educativa4.
Aparte de la innovación metodológica, nuestro trabajo supone una novedad en el panorama
investigador español donde la práctica totalidad de los análisis realizados sobre la influencia de
la titularidad de los centros educativos se han centrado en la etapa de educación secundaria5.
La ausencia de estudios cuantitativos sobre la etapa de primaria encuentra su principal
justificación en la carencia crónica de información desagregada sobre este nivel educativo que
ha caracterizado a las estadísticas educativas españolas. Con la puesta en marcha de la
Evaluación de Diagnóstico esta barrera, afortunadamente, se ha roto, ya que esta evaluación
suministra una rica información, a nivel de micro‐datos, de las competencias educativas
alcanzadas por los estudiantes de cuarto curso de primaria y de las características de entorno
familiar y escolar de estos últimos6. Ello abre la puerta a la realización de estudios sobre una
etapa escolar que, dado que constituye el inicio de la trayectoria formativa de los individuos,
ocupa un lugar muy destacado en los sistemas educativos de todos los países. Y es que, como
señala el que fue Comisario Europeo de Educación entre 2004 y 2009, Ján Figel: “resulta a la
3 Agradecemos a la Dirección General de Política Educativa y Educación Permanente del Gobierno de Aragón la cesión de estos datos.
4 El reciente trabajo de Crespo y Santín (2013) realiza un análisis en el que, al igual que nosotros, se utiliza el PSM como método de homogeneización muestral en una primera etapa. En su caso, sin embargo, la segunda etapa, hace uso de una frontera de producción estocástica al objeto de evaluar la eficiencia de los estudiantes en ambos tipos de escuelas. Por otra parte, las estimaciones de este trabajo se refieren al nivel de educación secundaria , haciendo uso de los datos proceden de la evaluación PISA 2006.
5 La excepción es el estudio de Doncel et al. (2012), donde se analiza, mediante una regresión convencional, la influencia del tipo de escuela en los resultados medios de los colegios de primaria de Madrid, a partir de una prueba de evaluación propia de la Comunidad de Madrid.
6 La Evaluación de Diagnóstico, como se explica más adelante, también se realiza a los estudiantes de segundo curso de educación secundaria obligatoria.
3
vez más eficaz y más equitativo invertir en educación en etapas tempranas. Corregir los
fracasos más tarde no sólo es poco equitativo sino comparativamente mucho menos eficaz”
(Figel, 2010, página 3). La investigación en las prácticas e intervenciones que pueden mejorar
las habilidades de los estudiantes en una etapa educativa tan relevante constituye, así, un
requisito fundamental para diseñar políticas educativas provechosas.
Tras esta introducción, el trabajo se estructura en cinco apartados más. En el siguiente, se
presenta una somera revisión de los estudios realizados sobre la influencia del tipo de escuela
en los resultados educativos y de las conclusiones en ellos obtenidas. A continuación, en el
epígrafe 3, se describe la Evaluación de Diagnóstico. El epígrafe 4 expone en detalle los
fundamentos metodológicos de las técnicas de estimación en que se sustenta nuestra
aplicación empírica El epígrafe 5 presenta los resultados obtenidos. El trabajo finaliza con un
apartado de recapitulación y conclusiones.
2.‐ Revisión de la literatura
El punto de partida de las investigaciones involucradas en la cuantificación de la incidencia del
tipo de escuela (privada o pública) sobre el rendimiento educativo suele situarse en el
controvertido trabajo que el sociólogo James Coleman realizó en 1982 junto a Thomas Hoffer y
Sally Kilgore. En él se llevó a cabo una comparación multidimensional de las escuelas públicas y
privadas norteamericanas (católicas y no católicas) a partir de los datos suministrados por el
proyecto High School and Beyond. El análisis abarcó los siguientes aspectos: tamaño,
ubicación, recursos, funcionamiento, composición étnica y socioeconómica y logros
educativos. De todas las cuestiones tratadas en el informe, la que tuvo una mayor repercusión
mediática y académica fue la abordada en su último capítulo: la comparación de los resultados
obtenidos por los estudiantes en pruebas estandarizadas de evaluación de competencias
cognitivas básicas (lectura, escritura y matemáticas). Sus conclusiones, favorables a las
escuelas privadas, dieron lugar a la aparición de una prolífica línea de investigación dirigida a
superar las limitaciones metodológicas atribuidas al trabajo de Coleman y a contrastar sus
resultados en contextos educativos diversos.
Las principales deficiencias imputadas al citado estudio se centraron desde un principio en la
metodología en él utilizada para discernir el efecto de las escuelas privadas sobre los
resultados cognitivos de los estudiantes: el análisis de regresión convencional con control
estadístico de variables de entorno familiar7. Esta fue la estrategia analítica por la que optó el
equipo de Coleman para hacer frente al problema del sesgo de selección a que se veían
sometidas sus estimaciones8. Se consideraba que la incorporación en la ecuación de regresión
7 Para un estudio detallado de la controversia creada por el estudio de Coleman, Hoffer y Kilgore pueden consultarse el número 51(4) de la revista Harvard Educational Review o el número 55(2) de la revista Sociology of Education.
8 El propio informe reconoció explícitamente que su investigación se enfrentaba al problema del sesgo de selección, problema denominado endogeneidad en el ámbito econométrico. Y es que en la medida en que la asistencia a las escuelas privadas/públicas es fruto de una decisión individual/familiar y que familias diferentes muestran distinto patrón de elección, la comparación de resultados entre los dos tipos de escuela mediante la aplicación del modelo econométrico convencional (mínimos cuadrados ordinarios) puede llevar a atribuir a la escuela efectos que realmente corresponden a las características de las familias que han ejercido la elección. En estos casos, reconocen expresamente Coleman et al. (1982, págs. 122‐123), el método idóneo para dilucidar el efecto causal entre el tipo de escuela y los logros académicos de los alumnos pasaría por la comparación de los resultados que un mismo
4
de los factores que diferenciaban a los estudiantes de las escuelas públicas y privadas
permitiría aislar el efecto que el tipo de escuela ejercía sobre el rendimiento de sus alumnos. Y
es que, una vez controladas las diferencias entre los alumnos de los dos tipos de escuela, las
diferencias residuales, se consideraba, sólo podían ser atribuidas a la escuela (privada o
pública) en cuestión. A pesar de su lógica, este planteamiento fue objeto de numerosas
críticas, muchas de ellas con el argumento de que resulta difícilmente asumible que sea
posible incorporar a una regresión el espectro global de características que diferencian a los
alumnos.
Avances metodológicos posteriores han puesto de manifiesto que la técnica de regresión
convencional, por muy abundantes que sean los controles que incorpore, proporciona
estimaciones sesgadas del coeficiente del predictor principal (tipo de escuela), debido a la
endogeneidad de éste. Y es que la elección de escuela no es algo exógeno sino que es fruto de
una decisión individual/familiar que viene determinada por diversas características de los
hogares ‐renta y riqueza, perfil sociocultural, etc.‐ (Burgess y Briggs, 2010, Gallego y Hernando,
2010, Mancebón y Pérez‐Ximénez de Embún, 2010 , Escardibul y Villarroya, 2009 o Tamm,
2008, entre otros ), muchas de las cuales constituyen, a su vez, determinantes de los
resultados educativos de los estudiantes. En estos casos, la estimación mediante mínimos
cuadrados ordinarios es inadecuada, al violarse uno de los supuestos principales de este
método: la independencia de los residuos del predictor.
Partiendo de este hecho, en las últimas décadas han surgido un número importante de
trabajos que han tratado de corregir el problema de endogeneidad que afecta a las
estimaciones del impacto del tipo de escuela en los resultados educativos, haciendo uso de
estrategias metodológicas diversas dirigidas expresamente a solventar esta dificultad analítica.
Las conclusiones obtenidas por esta literatura son mixtas. Mientras algunos estudios
confirman los resultados obtenidos por Coleman, Kilgore y Hoffer (Lefebvre, Merrigan y
Verstraete , 2011, Kim, 2011, Anand, Mizala, y Repetto, 2009), en otros la superioridad de los
centros privados queda eliminada al incluir controles diversos en el análisis (Chudgar y Quin,
2012, Mancebón y Muñíz, 2008, Perelman y Santín, 2008, Hsieh y Urquiola, 2006,) o queda
reducida a grupos concretos de estudiantes, definidos por su raza, etnia, perfil académico o
socioeconómico (Gronberg y Jansen, 2001), o a determinadas competencias o niveles
educativos (Witte et al, 2007, Greene & Kang, 2004). En otros casos, se ha comprobado que los
centros públicos ofrecen mejores resultados que los privados (Bifulco y Ladd, 2006, Mancebón
et al., 2012).
En síntesis, la evidencia empírica revisada en el párrafo anterior, la cual constituye tan solo una
pequeña selección de los trabajos sobre este tema realizados en la literatura especializada9,
estudiante obtendría en los dos contextos educativos objeto de análisis (público y privado). La imposibilidad de evaluar la situación de una misma persona en escenarios alternativos, llevó a los autores a sustituir el experimento ideal por una estrategia de corrección muy extendida en el momento de realización de su trabajo: la introducción de un elevado número de variables de contexto familiar cuyos valores diferían entre los asistentes a cada tipo de escuela.
9 De hecho, el análisis de los efectos de la titularidad y gestión de las escuelas constituye un área plenamente
consolidada en la Economía de la Educación. Cualquier manual internacional de prestigio sobre esta materia incorpora una capítulo sobre este temática (véase, a modo de ejemplo, Hanushek, Machin y Woessmann, 2011, Brewer y McEwan, 2010)
5
pone de manifiesto que el tipo de influencia que ejerce la titularidad y gestión del centro
educativo sobre los resultados escolares constituye una cuestión abierta que requiere de la
realización de análisis empíricos adicionales a los realizados hasta la fecha. En este contexto,
nuestro estudio constituye una nueva aportación dirigida a arrojar nuevas luces sobre un
debate no cerrado. Frente a la mayoría de los estudios revisados en el párrafo anterior, que
han centrado su atención en la educación secundaria, nuestro estudio, como ya se ha indicado
anteriormente, atiende a la primera etapa de la educación obligatoria en España: la enseñanza
primaria.
3. La evaluación de diagnóstico
El origen de esta evaluación se encuentra en la LOE. Esta norma considera la evaluación del
sistema educativo como un elemento fundamental para la mejora de la educación y el
aumento de la transparencia del sistema educativo.
En este sentido, establece que las Evaluaciones de Diagnóstico tratarán de evaluar las
competencias básicas adquiridas por los alumnos de cuarto curso de EP y de segundo curso de
Educación Secundaria Obligatoria (en adelante, ESO). Con ello se trata de valorar en qué
medida la escuela prepara para la vida y forma a los estudiantes para asumir su papel como
ciudadanos en una sociedad moderna, ya que dichas competencias se relacionan con
contenidos curriculares que suponen conocimientos, habilidades y actitudes transferibles y
útiles para hacer frente a situaciones y problemas que se presentan en la vida real10.
Las competencias básicas, según los Reales Decretos sobre enseñanzas mínimas, son ocho:
competencia en comunicación lingüística; competencia matemática; competencia en el
conocimiento y la interacción con el mundo físico; tratamiento de la información y
competencia digital; competencia social y ciudadana; competencia cultural y artística;
competencia para aprender a aprender; y autonomía e iniciativa personal11.
La LOE prevé dos tipos de procesos para las Evaluaciones de Diagnóstico; las Evaluaciones
Generales de Diagnóstico de carácter muestral, y las Evaluaciones de Diagnóstico de carácter
censal.
En cuanto a las primeras, el artículo 144.1 de la LOE establece que el Instituto de Evaluación y
los organismos correspondientes de las Administraciones educativas colaborarán en la
realización de Evaluaciones Generales de Diagnóstico, que permitan obtener datos
representativos, tanto del alumnado como de los centros de las Comunidades Autónomas
10 La Comisión Europea (2004) proporciona una definición abierta que identifica las competencias como “una combinación de conocimientos, destrezas y actitudes que incluyen la disposición para aprender y el saber cómo”, y matiza que una competencia, clave, básica o esencial es crucial cuando ésta contribuye a diferentes aspectos de la vida (la realización y desarrollo personal a lo largo de la vida, la inclusión y la ciudadanía activa y la aptitud para el empleo).
11 RD 1513/2006, de 7 de diciembre, por el que se establecen las enseñanzas mínimas de la Educación Primaria y RD 1631/2006, de 29 de diciembre, por el que se establecen las enseñanzas mínimas correspondientes a la Educación Secundaria Obligatoria.
6
(CCAA), como del conjunto del Estado. Estas evaluaciones versarán sobre las competencias
básicas del currículo y las realizarán los alumnos de cuarto de EP y de segundo de ESO.
En cuanto a las segundas, los artículos 21 y 29 de la LOE establecen que al finalizar el segundo
ciclo de la EP y el segundo curso de la ESO todos los centros realizarán una Evaluación de
Diagnóstico de las competencias básicas alcanzadas por sus alumnos. Esta evaluación será
competencia de las CCAA y tendrá como marco de referencia las Evaluaciones Generales de
Diagnóstico que se establecen en el artículo 144.1 de la Ley.
La aplicación de las Evaluaciones Generales de Diagnóstico, es decir, de las de carácter
muestral, se inició en el curso escolar 2008/2009 en EP, y en el curso 2009/2010 en ESO. En
ambos casos sólo se evaluaron cuatro de las competencias: la competencia en comunicación
lingüística, la competencia básica matemática, la competencia básica en el conocimiento y la
interacción con el mundo físico, y la competencia básica social y ciudadana. En los años
siguientes, se estableció que el Consejo Rector fijaría un calendario de aplicaciones de las
Evaluaciones de Diagnóstico en el que se incorporarían el resto de las competencias:
tratamiento de la información y competencia digital, competencia cultural y artística,
competencia para aprender a aprender, y competencia en autonomía e iniciativa personales.
En cuanto a las Evaluaciones de Diagnóstico de carácter censal, como ya se ha mencionado,
son competencia de las CCAA. En Aragón, la LOE junto a la legislación educativa de la
Comunidad Autónoma, en las Órdenes de 9 de mayo de 2007 sobre los currículos de EP y ESO
y en la Resolución de 6 de febrero de 2009 sobre la organización y realización de la Evaluación
de Diagnóstico, establecen que todo el alumnado de segundo curso de ESO y cuarto de EP
debe realizar una Evaluación de Diagnóstico sobre el grado de adquisición de las competencias
básicas.
Por tanto, esta prueba se realiza a todos los individuos del conjunto de la población que cursan
los niveles determinados, aunque, se exceptúa a aquellos que, por alguna característica
personal, no tienen la obligación de hacerla12.
En 2009 se realizó la primera prueba en Aragón, en la que se evaluaron las competencias en
comunicación lingüística en castellano, la competencia matemática y la competencia aprender
a aprender, de todos los alumnos, tanto de cuarto de EP, como de segundo de ESO. En 2010 se
evaluó la competencia en conocimiento científico e interacción con el mundo físico y la
competencia en comunicación lingüística inglés, también de los alumnos de ambos cursos. El
ciclo se completó con la edición de 2011, en la que se evaluaron la competencia social y
ciudadana, la competencia cultural y artística y la competencia digital.
Un aspecto muy valioso de la Evaluación de Diagnóstico es que ésta no sólo aporta
información sobre el nivel de competencias de los alumnos en las materias que se analizan en
cada edición, sino que además recoge información sobre los contextos socioeconómicos del
12 Punto primero, apartado 2 de la Resolución de 6 de febrero de 2009, de la Dirección General de Política Educativa: “La evaluación de diagnóstico se aplicará a todos los alumnos del 4º curso de la Educación primaria y del 2º curso de la Educación secundaria obligatoria, con excepción de aquéllos que presenten necesidades educativas que les impidan la realización de las pruebas y de los que presenten desconocimiento de la lengua castellana y, además, lleven escolarizados en el sistema educativo español menos de un curso escolar completo”.
7
alumnado y de los centros, así como otras variables del entorno educativo. Este aspecto de la
evaluación resulta de gran interés a la hora de emplear esta base de datos en la realización de
estudios empíricos sobre los resultados educativos, ya que de sobra está demostrada la
influencia que este tipo de variables ejercen en los resultados académicos que los alumnos
alcanzan (Cordero et al, 2013). Es por ello que, junto a las pruebas que evalúan las
competencias de los estudiantes, se aplican cuestionarios relativos a variables de contexto, de
procesos y de recursos educativos, que además de estar destinados a ser contestados por el
alumnado, están también dirigidos al profesorado, a la dirección e, incluso, a las familias. En
este sentido, además de la prueba de evaluación, los alumnos deben contestar a otros dos
cuestionarios, uno de dimensión sociocultural y otro de entorno escolar.
El primero está formado por doce preguntas dirigidas a recopilar información sobre el perfil
profesional y educativo de los padres, las pertenencias en el hogar y su utilización por parte del
alumno (libros de lectura, habitación propia, mesa de estudio, ordenador, internet, discos de
música, televisiones, etc.), la habilidad del alumno con las nuevas tecnologías, el tiempo
dedicado al estudio y a otras actividades (tiempo dedicado a ver la televisión, a jugar con
videojuegos, a jugar con el ordenador, a entretenerse en internet, a usar el Messenger o redes
sociales, a leer libros, a actividades extraescolares y a salir a la calle), su autonomía en el
estudio y el grado de implicación de los padres en el aprendizaje.
El cuestionario de entorno escolar está formado, por su parte, por tres apartados
denominados “yo”, “mi clase” y “mi centro”. El primero pretende aproximar la percepción que
el alumno tiene sobre sí mismo como estudiante (atención en clase, comprensión lectora,
expresión oral y escrita, habilidades en matemáticas e idiomas, relaciones con los compañeros,
colaboración en los trabajos en grupo, limpieza y orden en sus materiales de trabajo, cuidado
de los materiales e instalaciones del centro, cumplimiento con las normas y respeto a los
profesores). El objetivo del segundo apartado del cuestionario de entorno es evaluar la
percepción del estudiante sobre el ambiente de su clase (atención de sus compañeros,
ambiente tranquilo, trabajo en equipo, colaboración entre compañeros de clase, relación con
el profesor). Finalmente, las cuestiones del apartado “mi centro”, van dirigidas a captar
información sobre la valoración del alumno sobre su escuela. Para ello se le hacen preguntas
acerca de las actividades culturales o deportivas que tienen lugar en el mismo, de su
participación en ellas, frente a realizarlas fuera del centro, si le gusta el centro, si utiliza la
biblioteca, si cree que las instalaciones están bien cuidadas, y si, en caso de algún problema,
habla con sus profesores.
En resumen, la Evaluación de Diagnóstico, en su versión censal, es una prueba que realizan
anualmente todos los alumnos de cuarto curso de EP y de segundo de ESO, que además de
ofrecer información acerca de los niveles alcanzados por los alumnos en las competencias de
las que se les examina, ofrece una rica información acerca de su situación socioeconómica y
del entorno escolar que les rodea. Es por ello por lo que esta prueba constituye una materia
prima de incuestionable interés llevar a cabo los objetivos planteados en nuestra investigación.
En nuestra aplicación empírica haremos uso, como ya se ha destacado, de la información que
suministra esta Evaluación sobre los alumnos de cuarto curso de primaria. La tabla 1 recoge los
8
descriptivos de las variables extraídas de esta fuente de datos agrupados por tipo de centro
(público/concertado).
Tabla 1. Descriptivos y comparación de medias por tipo de centro
Sig. Levene's Test for Equality of Variances
Sig. T‐test for Equality of Means
Media
Codigo Descripción variable Total Público Concertado
MF4_500 Rdo Medio Fisico 4ºEP 512.37 501.97 526.27 0.00 0.00
ING4_500 Rdo Inglés 4ºEP 513.02 499.18 531.50 0.00 0.00
JobMum1 Madre White Collar High Skilled 0.29 0.24 0.37 0.00 0.00
JobMum2 Madre White Collar Low Skilled 0.41 0.42 0.39 0.00 0.03
JobMum3 Madre Blue Collar High Skilled 0.04 0.04 0.03 0.00 0.00
JobMum4 Madre Blue Collar Low Skilled 0.26 0.30 0.21 0.00 0.00
JobDad1 Padre White Collar High Skilled 0.39 0.31 0.49 0.00 0.00
JobDad2 Padre White Collar Low Skilled 0.25 0.26 0.23 0.00 0.01
JobDad3 Padre Blue Collar High Skilled 0.30 0.35 0.23 0.00 0.00
JobDad4 Padre Blue Collar Low Skilled 0.06 0.07 0.05 0.00 0.00
YearsMum Años estudio madre 11.45 10.78 12.34 0.00 0.00
YearsDad Años estudio padre 11.45 10.78 12.34 0.00 0.00
ZonaGeo1 País nacimiento España 0.87 0.84 0.91 0.00 0.00
ZonaGeo2 Zona nacimiento África 0.01 0.01 0.00 0.00 0.00
ZonaGeo3 Zona nacimiento Asia 0.01 0.01 0.01 0.40 0.68
ZonaGeo4 Zona nacimiento Europa 0.05 0.06 0.03 0.00 0.00
ZonaGeo5 Zona nacimiento Latino América 0.05 0.06 0.04 0.00 0.00
ZonaGeo6 Zona nacimiento Países Árabes 0.01 0.02 0.01 0.00 0.00
More5years Más de 5 años viviendo o nacido en España 0.94 0.93 0.95 0.00 0.00
Genero Género (mujer=1, hombre=0) 0.49 0.49 0.48 0.27 0.58
Repetid Repetidor (repetidor=1, no repetidor=0) 0.08 0.09 0.06 0.00 0.00
NumBooks Más de 100 libros en casa 0.54 0.50 0.60 0.00 0.00
UsoBooks Utilizar frecuentemente libros de lectura 0.72 0.70 0.75 0.00 0.00
Habitacion Habitación propia donde estudiar 0.95 0.94 0.96 0.00 0.00
Internet Tener internet en casa 0.86 0.84 0.88 0.00 0.00
NumTVs Número televisiones en casa 2.11 2.08 2.15 0.01 0.00
NumPCs Número ordenadores en casa 1.55 1.49 1.63 0.11 0.00
NumTvPag Número televisiones de pago en casa 0.44 0.43 0.46 0.00 0.07
NumConso Número videoconsolas en casa 1.73 1.66 1.82 0.16 0.00
NumMP4 Número de reproductores MP4 en casa 1.01 0.93 1.11 0.00 0.00
StudTim0 Menos de 2 horas de estudio diario 0.37 0.37 0.35 0.00 0.13
StudTim1 Alrededor de 2 horas de estudio diario 0.16 0.15 0.17 0.00 0.05
StudTim2 Más de 2 horas de estudio diario 0.48 0.48 0.48 1.00 1.00
AutoEst Necesita ayuda frecuentemente para tareas 0.22 0.22 0.22 0.28 0.59
RevPad0 No me revisan ni tarea ni agenda 0.21 0.23 0.19 0.00 0.00
RevPad1 Me revisan agenda pero no tarea 0.10 0.07 0.13 0.00 0.00
RevPad2 Me revisan tarea pero no agenda 0.16 0.20 0.12 0.00 0.00
RevPad3 Me revisan la tarea y la agenda 0.53 0.50 0.57 0.00 0.00
RevProf Prof. Particular me revisa tarea 0.09 0.08 0.09 0.15 0.47
Actitud Acabo las tareas para casa 0.93 0.92 0.94 0.00 0.01
Aptitud Hago bien las tareas para casa al corregirlas 0.85 0.84 0.87 0.00 0.00
N 6724 3845 2879
Fuente: Elaboración propia a partir de Evaluación de Diagnóstico 2010 (Gobierno de Aragón)
La tabla 1 pone de manifiesto que los alumnos de los centros concertados alcanzaron una
mayor puntuación tanto en la competencia en conocimiento científico e interacción con el
9
mundo físico, como en la competencia en comunicación lingüística inglés13. Las diferencias
brutas en resultados, favorables a las escuelas concertadas, son incapaces por sí mismas de
ofrecer un diagnóstico sobre la calidad relativa de ambos tipos de centro escolar. Y es que la
comparación en resultados debe ser contrastada con la materia prima por excelencia de éstos:
el perfil de los alumnos. En este sentido, la tabla 1 es muy elocuente. En la práctica totalidad
de las variables extraídas de los cuestionarios de la ED 2010, las diferencias son favorables a las
escuelas concertadas: ocupación y estudios de los padres, estatus de inmigración, posesiones
del hogar, implicación familiar en la revisión de las tareas escolares, grado de cumplimiento y
éxito en la resolución del trabajo encargado por el profesor para realizar fuera del centro
escolar. Y lo más importante, las diferencias encontradas son, con contadas excepciones,
estadísticamente significativas. Esta realidad pone en evidencia la necesidad de aplicar en
nuestro estudio una estrategia de estimación que tenga en cuenta las diferencias existentes
entre el alumnado de las escuelas públicas y concertadas y permita identificar el efecto neto
atribuible al tipo de escuela sobre los resultados escolares. En la sección siguiente se explican
en detalle alguno de los métodos existentes en la actualidad para hacer frente a este reto.
4.‐ Cuestiones metodológicas
Las evaluaciones de impacto que utilizan, como es habitual en el terreno educativo, datos
procedentes de registros administrativos deben hacer frente, como se ha dicho, a un problema
metodológico intrínseco: el conocido como sesgo de selección o endogeneidad del predictor
principal. Con ello se hace referencia a la elevada probabilidad de que las estimaciones
obtenidas estén sesgadas, es decir, que no recojan el efecto real de la variable estudiada. Ello
ocurrirá siempre que el predictor principal no sea exógeno, es decir, siempre que la asignación
de los individuos a la intervención o tratamiento evaluado no sea aleatoria. Esta situación está
muy generalizada en el terreno educativo, donde la asignación de los participantes a los
diversos tratamientos es típicamente endógena. Piénsese, a modo de ejemplo, en el caso que
nos ocupa en este trabajo: la evaluación del impacto de la asistencia a un centro concertado
(potencial causa) sobre las competencias educativas adquiridas por los estudiantes (potencial
efecto). En la medida en que causa y efecto potenciales se ven afectados por variables
comunes (el nivel socioeconómico familiar, por ejemplo), una comparación de los resultados
de los alumnos de los centros públicos y concertados que no tenga en cuenta estas
interrelaciones conducirá a conclusiones erróneas sobre el efecto del tipo de escuela en el
rendimiento escolar. Y es que siempre que existan indicios razonables para suponer que los
individuos que reciben la intervención o tratamiento evaluado difieren de los no tratados en
13 La media de cada competencia para el total de centros es 500 y la desviación típica 100, dado que tal y como
establece el Informe General de la Evaluación de Diagnóstico en Aragón 2010 “la valoración de cada competencia en el conjunto de Aragón se establece en el nivel de la media de los resultados transformados a un valor de referencia que se ha fijado en 500 con una desviación típica en 100”. En este sentido, el planteamiento de la Evaluación de Diagnóstico española es similar al seguido en las evaluaciones del Proyecto PISA de la OCDE. En la tabla 1 la media difiere de 500 debido a que se han eliminado de la muestra los centros privados sin financiación pública y aquéllos en los que no existe alternativa de elección público/privada.
10
características que son relevantes en la obtención del resultado observado, la posibilidad de
atribuir un efecto causal se ve seriamente limitada14.
La búsqueda de estrategias de análisis que permitan hacer frente a esta problemática especial
ha dado lugar a la aparición de innovadoras propuestas metodológicas que disfrutan a día de
hoy de gran aceptación en la comunidad científica. La aportaciones proceden dos campos de
investigación diferentes pero íntimamente interrelacionados: el econométrico y el estadístico
(Guo y Fraser, 2010). El líder del primero es James Heckman cuyas aportaciones en este campo
le valieron la máxima distinción otorgada a los méritos científicos, el premio nobel en
Economía. En el ámbito estadístico las aportaciones se nutren del trabajo seminal de
Rosenbaum y Rubin de 1983.
La tradición estadística, menos conocida para los estudiosos de la Economía Pública en España,
toma como referencia de sus desarrollos lo que se considera con generalidad el estándar de
oro para la atribución de efectos causales: el experimento con asignación aleatoria de los
participantes al tratamiento evaluado. Sobre esta base se diseñan estrategias de análisis de los
datos que tratan de emular, mediante ajustes diversos, las condiciones ideales de la
investigación experimental controlada.
La piedra angular de estas estrategias es el conocido como modelo contrafactual de causalidad
o modelo de resultados potenciales desarrollado por Neyman (1923) y Rubin (1974 y 1978). La
importancia de este modelo en los desarrollos metodológicos que van a ser objeto de atención
en este trabajo nos lleva a dedicarle una atención especial.
4.1.‐ El modelo contrafactual: núcleo principal de la inferencia causal
Como hemos señalado anteriormente, el reto de mayor envergadura a que se enfrenta un
investigador que trabaja con datos procedentes de registros de hechos ocurridos de forma
natural es desligar la parte de un resultado observado que es atribuible inequívocamente a
una causa potencial de otras influencias posibles. Los desarrollos estadísticos que se han
elaborado sobre la base de lo que en esta literatura se denomina contrafactual han permitido
alcanzar notables avances en la superación de este reto.
Un contrafactual es una construcción teórica con la que se alude a un resultado potencial, es
decir, a lo que habría ocurrido en ausencia de la causa (Shadish et al., 2002, pág.506). Dicho de
otra forma, el contrafactual especifica el resultado que un individuo habría obtenido en el caso
de que hubiera estado sometido a la situación alternativa a la que ha experiementado. Para los
individuos que han recibido un tratamiento (los tratados), el contrafactual es el resultado que
estos mismos individuos habrían obtenido en caso de no haberlo recibido y en condiciones
14 Tres son los requisitos críticos que tradicionalmente se han exigido a las relaciones de causalidad: a) orden temporal (la variable causa debe preceder a la variable efecto); b) correlación empírica entre causa potencial y efecto, y c) la más importante, la correlación no puede ser explicada por una tercera variable que sea causa de las dos (Murname y Willett, 2011, pág. 27). Aunque los dos primeros requisitos no plantean demasiadas dificultades de comprobación, el tercero ha sido causa de numerosos quebraderos de cabeza para los investigadores de las ciencias sociales.
11
ambientales idénticas. De manera simétrica se define el contrafactual para los sujetos no
tratados (grupo de control).
Desde un punto de vista teórico, el contrafactual convierte en trivial el problema de la
inferencia causal. Y es que conceptualmente la mejor aproximación al efecto provocado por un
tratamiento en un individuo no es otra que la diferencia entre los resultados obtenidos bajo el
tratamiento (situación factual) y los que este mismo individuo habría obtenido ceteris paribus,
en ausencia del tratamiento (situación contrafactual). El promedio de estas diferencias para la
totalidad de los individuos de la muestra permitiría aproximar el efecto medio del tratamiento
(lo que en esta literatura es comúnmente conocido por la siglas ATE, average treatment
effect). Finalmente, la aplicación de los contrastes estadísticos pertinentes permitiría valorar si
el efecto atribuido al tratamiento es extrapolable a toda la población de la que ha sido extraída
la muestra (Murname y Willett, 2011, pág. 34).
El planteamiento, impecable a nivel teórico, se encuentra plagado de dificultades la hora de
ponerlo en práctica en un contexto real. Y es que un contrafactual es, por definición, un
resultado imaginario, imposible de observar y, por tanto, de cuantificar. Esta realidad da lugar
a lo que Holland (1986) denominó el problema fundamental de la inferencia causal. Su
superación pasa por el diseño de estrategias que permitan aproximar de manera razonable el
constructo hipotético denominado contrafactual (Shadish et al., 2002). Antes de explicar las
diferentes estrategias diseñadas a tal fin, expondremos de manera formalizada las ideas que
acaban de ser esbozadas. Tomaremos como referencia de nuestra exposición las aportaciones
sobre el tema desarrolladas por Morgan y Winship (2008), Guo y Fraser (2010) y Murname y
Willett (2011).
Supongamos que se trata de evaluar el impacto de una intervención W (la asistencia a una
escuela concertada, por ejemplo) sobre un resultado Y de interés (las puntuaciones de los
alumnos en unas pruebas estandarizadas). Por simplicidad supondremos que la intervención
admite dos únicas variantes: W= 1 (asistencia a escuela concertada) y W= 0 (asistencia a
colegio público). Los individuos para los que W= 1 conforman lo que se denomina el grupo
tratado (GT, a partir de ahora). Aquellos para los que W= 0 componen, por su parte, el grupo
de control (GC, a partir de ahora). A todo individuo i de la población estudiada se le pueden
atribuir a priori dos resultados potenciales: el que obtendría en caso de recibir la intervención
(Yi1) y el que obtendría en caso de no recibirla (Yi
0). El resultado real ( i) de cada individuo
puede expresarse, por tanto, de la manera siguiente:
i = Yi1 si Wi = 1 (1)
i = Yi0 si Wi = 0 (2)
o expresado de una manera más compacta:
i = Wi Yi1 + (1 –Wi) Yi
0 (3)
La ecuación 3 permite poner de manifiesto que la cuantificación del impacto de la intervención
evaluada (W) sobre el resultado obtenido (Y) precisa que se analice la relación que existe entre y W, no sólo en el escenario W = 1 sino también en el escenario W=0. En concreto, el impacto
de la intervención W sobre los resultados de cada individuo de la población viene dado por la
12
diferencia entre Yi1 e Yi
0. Es lo que en esta literatura se denomina efecto individual del
tratamiento (ITE).El promedio de estas diferencias permite aproximar el efecto medio del
tratamiento (ATE) en la población. Es decir:
ATE = E (Yi1 ‐ Yi
0) = E(Yi1) – E(Yi
0), i = 1,…, N (4)
donde el símbolo E denota al operador esperanza matemática y N el número de individuos de
la población objeto de interés.
De manera análoga se definen otros indicadores de interés en la evaluación del impacto de
una intervención. Nos referimos al efecto medio del tratamiento sobre los tratados (ATT) y al
efecto medio del tratamiento sobre los no tratados (ATU). La diferencia de su cálculo con
respecto al ATE radica en los individuos que se computan en el cálculo del indicador, sólo los
que han recibido la intervención en el cálculo del ATT y únicamente los que pertenecen al GC
en el cómputo del ATU. Es decir:
ATT = E (Yi1I W = 1) – E (Yi
0 I W = 1), i = 1,2,…N1 (5)
ATU = E (Yi1I W = 0) – E (Yi
0 I W = 0), i = 1,2,…N2 (6)
Donde N1 y N2 denotan el número de individuos pertenecientes al GT y al GC, respectivamente.
La imposibilidad de conocer los dos valores Yi1 e Yi
0 hace inviable el cálculo empírico de los
indicadores que se acaban de exponer. En efecto, las únicas magnitudes disponibles para el
evaluador una vez que la intervención ha sido aplicada son los resultados realmente obtenidos
por cada individuo: para los individuos de la muestra que han recibido el tratamiento (W =
1) e para los individuos de la muestra que conforman el grupo de control (W = 0). Los
valores Yi1 correspondientes al GC (W= 0) y los valores Yi
0 para el GT (W = 1), es decir, los
contrafactuales, son, por definición, desconocidos.
Llegados a este punto el problema a superar en las evaluaciones empíricas se concreta en
encontrar sustitutos adecuados a los contrafactuales teóricos que permitan cuantificar el
indicador de interés (Caliendo y Kopeinig, 2008). Las aportaciones de Rubin en la superación
de este problema son, sin lugar a dudas, decisivas (véase Rubin, 1973, 1974 y 1990, entre
otros).
En particular, este autor demostró que si la asignación de los individuos a la intervención que
se trata de evaluar es aleatoria, el resultado medio del contrafactual correspondiente al GT ‐
E(Yi0 I W = 1)‐ puede ser aproximado mediante el valor medio de los resultados reales
obtenidos por el GC ‐E ( I W = 0)‐ el cual es perfectamente observable en la muestra que
representa a la población de interés.
Si este es el caso, el efecto de una intervención dada sobre el resultado alcanzado por los
individuos que conforman el GT puede aproximarse por lo que se conoce como el estimador
estándar del ATT cuya definición es la siguiente:
1 0 (7)
13
donde los valores con circunflejo e representan, respectivamente, los resultados reales
obtenidos por los individuos del GT (W = 1) y los correspondientes a los individuos de la
muestra que conforman el GC (W = 0). De manera análoga se definen los estimadores de los
indicadores ATE y ATU anteriormente explicados15.
La relación entre el estimador estándar del ATT y el verdadero indicador ATT puede obtenerse
de manera sencilla (Angrist y Pischke, 2008, pág. 12). En efecto, dado que, como hemos visto
anteriormente, los resultados reales de un individuo i pueden expresarse en función de los
resultados potenciales:
= Wi Yi1 + (1 –Wi) Yi
0, (8)
la expresión que cuantifica el estimador del ATT puede desarrollarse de la manera siguiente:
(9)
la cual sumando y restando un mismo término se convierte en:
(10)
Y reordenando sus términos en:
(11)
Es decir:
(12)
El estimador estándar del ATT no es otra cosa, por tanto, que la diferencia entre el verdadero
valor del ATT y un término que refleja, como vemos, la diferencia existente entre los
resultados potenciales esperados de los individuos que han experimentado la intervención
frente a los que no han pasado por ella. Este último término es el sesgo de selección (selection
bias). Un valor positivo de este sesgo indica que a priori los resultados potenciales de los
individuos tratados son en media superiores a los de los individuos del GC. En este caso, el
estimador estándar no aproximará correctamente el verdadero efecto del tratamiento
(ATT), sino que ofrecerá una sobreestimación del impacto real provocado por la intervención.
La causa del sesgo reside, por tanto, en la existencia de diferencias entre los individuos del GT
y del GC en características que condicionan los resultados que potencialmente cada uno de
ellos puede obtener. Si éste es el caso, la diferencia entre los resultados medios brutos
obtenidos por cada uno de los grupos no es, por tanto, imputable a la intervención en
cuestión.
15 En lo que sigue centraremos la atención en el ATT, dado que, como explica Heckman (2005) es el que presenta mayor interés en la mayoría de las evaluaciones de impacto.
14
En el caso de que la asignación de los individuos a la intervención evaluada sea aleatoria, el
valor de este sesgo será nulo. Ello se debe a que la asignación aleatoria garantiza que, con la
excepción de la intervención objeto de interés, todos los factores individuales (tanto las
características observables como las no observables) están igualmente distribuidos en la
población. Por ello, en términos medios, los resultados potenciales de los GT y GC en la
población son idénticos. Es lo que, en términos técnicos se denomina igualdad en expectación
entre los grupos (equal in expectation)16. Por esta razón, en los experimentos con asignación
aleatoria, la diferencia entre los resultados medios obtenidos en cada uno de los grupos
(tratados y no tratados) constituye una estimación correcta del verdadero impacto de la
intervención evaluada (Murname y Willett, 2011). Las potenciales explicaciones alternativas de
las diferencias encontradas entre los resultados medios de ambos grupos quedan anuladas por
la dinámica propia del proceso de asignación aleatoria. En estos casos, por tanto, el estimador
constituye una aproximación correcta al efecto medio de la intervención sobre los
individuos sometidos a ella (ATT).
En definitiva, cuando el investigador puede llevar a cabo un experimento con asignación
aleatoria de los participantes al tratamiento evaluado, la evaluación del impacto de dicho
tratamiento se reduce a una mera comparación de resultados medios. Este tipo de
experimentos son, sin embargo, muy difíciles de llevar a cabo en las ciencias sociales y, en
particular, en el ámbito educativo, dados los elevados costes que conllevan así como los
problemas éticos que pueden suscitar17.
Las indudables ventajas de los experimentos en la inferencia causal los han convertido en la
referencia básica de las estrategias de análisis que se han elaborado para obtener
estimaciones no sesgadas de impacto en los estudios que trabajan con datos procedentes de
registros de hechos ocurridos de forma natural. Dichas estrategias tratan de emular las
condiciones ideales de un experimento con asignación aleatoria, es decir, tratan de garantizar
que los resultados potenciales medios antes de la recepción de la intervención evaluada son
los mismos para los individuos tratados y no tratados. Con ello se pretende reducir al mínimo
las amenazas a la validez interna de las estimaciones18 (Campbell, 1957).
De todas las propuestas existentes en la literatura para afrontar el sesgo de selección19 este
trabajo opta por la técnica conocida como Propensity Score Matching (en adelante PSM). En el
apartado siguiente se exponen con detalle la lógica y el método de trabajo de esta
metodología.
16 Es decir, la asignación aleatoria del tratamiento garantiza que: E (Yi
0 I W = 1) = E (Yi0I W = 0) y que E(Yi
1I W = 0)= E(Yi
1I W = 1). Dado que los términos de la derecha de ambas identidades son observables, el problema de estimación del impacto del tratamiento W queda resuelto.
17 El número de experimentos controlados con asignación aleatoria ha experimentado un notable interés en el
sector educativo en la última década. Una muestra de ello es la Ley de Reforma de la Ciencia Educativa aprobada en 2002 por el Congreso de los Estados Unidos que obliga a realizar diseños experimentales y cuasiexperimentales para todo tipo de investigación educativa financiada por el Gobiernos Federal (Angrist y Pischke, 2008).
18 Con este término, ampliamente conocido como confoundedness, se hace alusión al riesgo de que la relación observada entre el predictor de interés y el resultado esté motivada por otras variables y no sea, por tanto, causal. En Shadish et al. (2002, página 55) se presenta una relación de los motivos que pueden amenazar la validez interna de una investigación causal.
19 Véase Guo y Fraser (2010).
15
4.2.‐ Propensity Score Matching (PSM)
Como se acaba de indicar, el desafío principal a que se enfrentan las evaluaciones del impacto
de cualquier intervención pública asignada de manera no aleatoria se concreta en aproximar
un valor creíble del contrafactual para cada uno de los individuos que han sido objeto de la
intervención. La imposibilidad material de disponer del valor del contrafactual teórico
convierte la cuantificación del ATT en un problema de falta de datos (missing values). Desde
esta perspectiva, el reto metodológico a superar se concreta en imputar a cada uno de los
individuos que han recibido la intervención (GT) un valor que refleje adecuadamente el
resultado que habría obtenido en ausencia de la intervención.
A la hora de poner en práctica una estrategia adecuada de imputación de esos valores
perdidos debe tenerse en cuenta que la única información disponible en la base de datos
sobre los resultados alcanzados en ausencia de intervención son los registros correspondientes
a los individuos del GC. Partiendo de esta consideración, el problema a superar se reconduce a
encontrar un procedimiento que permita asignar a cada individuo del GT uno o varios
individuos del GC que sean similares a él en todas las características relevantes en la
determinación del resultado evaluado20. El resultado obtenido por el/los individuo/s de la
submuestra del GC así delimitada constituye una buena aproximación al contrafactual de cada
uno de los individuos tratados, ya que una buena implementación de esta estrategia de
análisis garantiza que los resultados potenciales de los individuos de ambos grupos son
idénticos, es decir, que se cumple lo que se conoce en esta literatura como la hipótesis de
independencia condicional21. La comparación de los resultados obtenidos por los individuos
del GT y los pertenecientes a la submuestra de individuos similares a ellos en el GC puede
considerarse, por ello, que constituye una buena aproximación al impacto del predictor
principal. A continuación, explicaremos como las técnicas de matching y, en particular, el PSM
resultan de una gran utilidad en la identificación de la submuestra de individuos del GC
similares a los pertenecientes al GT y, por tanto, en el cálculo del ATT.
Las técnicas del matching constituyen uno de los tres procedimientos que se han propuesto en
la literatura al objeto de aislar la contribución neta de una variable (una intervención pública,
por ejemplo)22. Esta metodología fundamenta su cálculo del ATT en emparejamientos entre los
individuos del GT y los miembros del GC que presentan un perfil similar en todas aquellas
características observables (X) que son simultáneamente predictores del resultado objeto de
interés (Y) y del predictor principal objeto de estudio (W). En particular, con estos métodos
20 Obviamente lo ideal sería encontrar individuos idénticos en todas las características observables e inobservables, una especie de clones, algo empíricamente imposible. Como veremos, la técnica PSM permite alcanzar un grado importante de similitud en los aspectos observables entre los individuos del GT y del GC. En cuanto al problema de los inobservables, su resolución es más indirecta y pasa por la realización de análisis de sensibilidad ( veánse Altonji et al., 2008 y Rosenbaum, 2002).
21 Esta hipótesis señala que, una vez controladas todas las características observadas relevantes, los individuos sometidos a la intervención tienen en promedio el mismo resultado potencial que los pertenecientes al grupo de
control, es decir que: , 1 , 0 , siendo X el vector de variables observables. Esta
hipótesis es también conocida con el nombre de selección en observables.
22 Las otras técnicas son la regresión convencional y la estratificación (véase Guo y Fraser, 2011, capítulo 3).
16
cada individuo del GT (W = 1) es emparejado con uno o n individuos del GC (W = 0), tomando
como referencia del matching a las variables X. La media de las diferencias del valor real de Y
entre los individuos del GT y la submuestra de miembros del GC que el proceso del matching le
ha asignado constituye en este procedimiento la aproximación al ATT.
Las técnicas matching fundamentan, por tanto, el cálculo del efecto de una intervención en
dos procesos: a) la selección de los miembros del GC equiparables en las características X a los
individuos del GT, b) y la utilización de los valores de Y de esta submuestra del GC como
proxies del contrafactual de los sujetos que pertenecen al GT23.
Dentro de estas técnicas de matching ocupa un lugar preferente el PSM cuyos fundamentos se
encuentran en el trabajo seminal de Rosenbaum y Rubin (1983). La principal ventaja de esta
metodología reside en su capacidad para trabajar con un número de variables de control (X)
muy numeroso. Y es que la probabilidad de encontrar emparejamientos válidos entre el GT y el
CG es inversamente proporcional al número de variables del vector X. Es lo que se conoce
como el problema de la dimensionalidad del matching.
Rosenbaum y Rubin (1983) resolvieron este problema proponiendo una magnitud única, el
propensity score (ps a partir de ahora), sobre la que basar los emparejamientos necesarios
para el cálculo del ATT. El ps no es sino un indicador sintético de la información contenida en
las variables X de control que es calculado mediante un modelo de regresión logística o similar.
Sin embargo, a diferencia de otros indicadores sintéticos, como los resultantes del análisis
discriminante, el ps, lejos de ser un constructo estadístico carente de contenido, tiene un
significado muy claro. Y es que el ps no es sino la probabilidad condicional de participar en la
intervención evaluada que tiene cada individuo de la muestra, dadas sus características
observables X, es decir:
ps = P(W = 1 l X) (13)
Este significado confiere al ps un valor especial para de abordar la corrección del sesgo de
selección. En efecto, como ha sido destacado anteriormente, la identificación de un
contrafactual empírico válido requiere que los individuos del GT y GC presenten un algo grado
de similitud en las características individuales que afectan a los resultados. Sólo de esta
manera, puede garantizarse que las diferencias de resultados entre ambos grupos no están
contaminadas por las diferencias en las características observables de los miembros de cada
grupo. O, dicho de otra manera, que se cumple la hipótesis de independencia condicional
anteriormente aludida. En este sentido, el cálculo de la ps permitirá identificar las X que
determinan la participación en la intervención y que además influyen en la determinación del
resultado de interés (Y), es decir, las variables que pueden causar el sesgo de selección. La
comparación de los resultados obtenidos por los individuos del GT y GC que presentan valores
similares del ps no estará afectada, por tanto, por este sesgo.
La clave del funcionamiento del PSM reside, por tanto, en la realización de un buen matching,
es decir en encontrar a individuos del GC con una ps altamente similar a la de los individuos del
23 Es por ello que estas técnicas son en ocasiones consideradas como un método de remuestreo (véase Murname y Willett (2011).
17
GT. Dicho en términos formales, el reto de esta técnica reside en encontrar i W = 1 un
(unos) j W = 0 tal que Pi(W = 1) Pj(W = 0). Ello requiere que: P (W =1 l X) < 1 y P (W =1 l X) >
0 X, ya que es justamente el cumplimiento de estas dos relaciones lo que garantiza que en
los dos grupos (GT y GC) existen individuos similares en las características observables (es lo
que se conoce como hipótesis de soporte común). En efecto, si para alguna variable X el valor
de la ps es la unidad (P(W=1 l X) = 1), ello indicaría que todos los individuos que tienen un valor
idéntico en esa variable pertenecen al GT, es decir, que en la muestra de individuos del GC no
se localiza ningún individuo con esa característica que pueda ser emparejado alguno del GT. En
este caso, la estimación del ATT no podrá ser llevada a cabo con éxito. Análogo es el
razonamiento si P(W=1 l X) = 024.
Una vez seleccionada la submuestra de individuos comparables, el paso siguiente del PSM se
concreta en calcular el estimador del ATT el cual queda definido como:
(14)
donde el subíndice match indica que las estimaciones se refieren a la submuestra delimitada
mediante el PSM.
De esta manera se obtiene una estimación del efecto de la intervención W sobre los resultados
de interés (Y) liberada del problema del sesgo de selección. En efecto, en la medida en que los
sujetos que conforman la muestra matcheada son similares en todas las características (X) que
influyen simultáneamente en el resultado de interés (Y) y en la participación en la
intervención, se elimina el riesgo de que las diferencias entre los resultados del GT y del GC
sean debidas a diferencias sistemáticas en variables observables entre los dos grupos.
4.3.‐ Modelos lineales jerárquicos (HLM)
Como se acaba de indicar, la aplicación del PSM permite disponer de unas estimaciones
depuradas del ATT con respecto a las variables observables (X) que distinguen a los miembros
del GT y el GC y son potencialmente relevantes en la determinación del resultado de interés
(Y).
Sin embargo, las influencias potenciales sobre los resultados educativos abarcan,
habitualmente, más variables de las que influyen de manera simultánea en la participación en
una intervención educativa concreta, es decir, de aquéllas consideradas en la construcción del
ps. Dada esta situación, el cálculo del efecto neto de una intervención, como W, en el contexto
educativo precisa que se contraste la influencia de esos otros factores (X’) que son
potencialmente importantes en la determinación de Y. Para ello es fundamental llevar a cabo
un análisis post matching. Tres tipos de influencias merecen atención: características de las
escuelas en que se han formado los individuos, atributos de los estudiantes no incorporados al
cómputo del propensity score y diferencias entre los individuos del GT y GC en variables no
observables.
24 Lockwood Reynolds (2012) apuntan que el cumplimiento de P (W =1 l X) > 0 sólo es necesario cuando el objeto de cálculo es el ATE pero no cuando el objetivo de la investigación es, como en nuestro caso, el cómputo del ATT.
18
El contraste de la relevancia de los dos primeros aspectos puede ser llevado a cabo mediante
un modelo de regresión sobre la muestra matcheada. En efecto, en la medida en que la
submuestra delimitada mediante el PSM no se ve afectada por el problema del sesgo de
selección que afectaba a la muestra original, el análisis de regresión resulta ahora pertinente a
la hora de identificar el efecto de la intervención W sobre los resultados25.
De entre todos los modelos de regresión disponibles, los que mejor se adaptan a la estructura
de los datos suministrados por la Evaluación de Diagnóstico son los modelos jerárquicos
lineales o modelos multinivel (HLM, a partir de ahora)26. Su principal ventaja en el contexto
que nos ocupa es que permiten diferenciar las influencias que actúan a nivel de alumno
(primer nivel de análisis) de las que actúan a nivel de escuela y clase (segundo y tercer nivel).
Se trata, por tanto, de modelos especialmente adecuados para trabajar con datos anidados en
varios niveles, como los suministrados por la práctica totalidad de bases de datos educativas.
Estos modelos permiten analizar simultáneamente variables de diferentes niveles (individuos,
clases y escuelas, por ejemplo) e identificar la proporción de la varianza total de un resultado
que es atribuible a cada uno de los niveles especificados. En términos analíticos la ecuación de
nivel 1 viene dada por:
∑ ~ 0, (15)
donde es el resultado esperado del individuo i en la clase j de la escuela k; es una
variable explicativa p de nivel 1 para el individuo i de la clase j de la escuela k, son los
coeficientes de nivel 1 (p=0,1,…,P) y es el efecto aleatorio de nivel 1 para el que se asume
que sigue una distribución normal. A nivel 2 (clases), los coeficientes son tratados como
variables a estimar, por lo que tenemos:
∑ (16)
donde (q=0,1,…,Qp) son los coeficientes de nivel 2, es un predictor de nivel 2 y
es un efecto aleatorio. Asumimos que, para cada unidad j, el vector ( , , … , )’ se
distribuye según una normal multivariante donde cada elemento tiene una media de cero y
una matriz de covarianzas Τ con una dimensión máxima (P+1)x(P+1). Cada uno de los
coeficientes de nivel 2, , se convierte en las variables a explicar a nivel 3:
∑ (17)
donde (s=0,1,…,Spq) son los coeficientes de nivel 3, es un predictor de nivel 3 y
es un efecto aleatorio de nivel 3. Asumimos que el vector de efectos aleatorios se distribuye
25 Ello se debe a que una vez eliminado el sesgo de selección debido a observables, puede asumirse que los residuos de la regresión son independientes del tratamiento evaluado. Persiste en todo caso, la amenaza de que los individuos del GT y del GC difieran en características no observables. El análisis de esta cuestión va, en todo caso, más allá de los límites de esta comunicación, si bien pretende llevarse a cabo en un trabajo posterior. Posibles correcciones de esta problemática pueden verse en Caliendo y Kopeinig (2008).
26 Bryk and Raudenbusch (1988). Aplicaciones de esta metodología al contexto educativo pueden verse en Willms (2006), Somers et al (2004) y Mancebón et. al (2012), este último aplicado a datos españoles procedentes de PISA 2006.
19
como una normal multivariante donde cada elemento tiene una media de cero y una matriz de
covarianzas Τ con una dimensión máxima:
∑ 1 ∑ 1 . (18)
5.‐ Resultados
En esta sección se recogen los principales resultados obtenidos del análisis empírico realizado.
En primer lugar, se comentan las estimaciones obtenidas de la aplicación del PSM. A
continuación, expondremos las principales aportaciones a estas estimaciones que nos ofrece la
aplicación de los modelos lineales jerárquicos.
5.1.‐ Resultados del PSM
La estrategia de estimación del PSM se concreta, como se explicó en la sección anterior, en
encontrar un grupo de estudiantes de la escuela pública que sea comparable con los
estudiantes que asisten a una escuela concertada en todas aquéllas variables que
potencialmente pueden condicionar la elección de colegio y la obtención de buenas
puntuaciones en las competencias evaluadas en la Evaluación de la Diagnóstico. Para ello, se
debe estimar, en primer lugar, la ecuación de selección, es decir, la ecuación que permite
predecir el propensity score (ps) y, a continuación, equilibrar las muestras de alumnos
pertenecientes a los GT y GC en este indicador. La estimación de la ecuación de selección tiene
una importancia decisiva, ya que del atino en su especificación depende la obtención de
estimaciones creíbles y no sesgadas del impacto de la intervención evaluada. Un punto crucial
en la especificación de esta ecuación es considerar como predictores todas aquellas variables
que simultáneamente pueden influir en la elección de escuela y en la obtención de los
resultados evaluados (Caliendo y Kopeinig, 2008). La literatura econométrica ofrece diversos
métodos de estimación de la probabilidad condicional de recibir un tratamiento (en nuestro
caso, de asistir a un colegio concertado): regresión logística, modelos probit y análisis
discriminante (Guo y Fraser, 2011, pág. 135). Aunque la mayoría de los estudios empíricos
suelen hacer uso de modelos probit para estimar el ps, en nuestro trabajo hemos optado por
utilizar un modelo de regresión logística. Para especificar el modelo, se ha optado por utilizar
un GBM (boosted generalized regression), ya que su aplicación permite obviar el problema de
especificación de la forma funcional y capturar efectos no lineales entre los predictores
(McCaffrey, 2004). Por otra parte, el funcionamiento del algoritmo iterativo en que se basa
este método de estimación permite alcanzar estimaciones del ps que equilibran las
características observables de los grupos de individuos tratados (GT) y de control (GC)27, lo que
tiene un especial valor cuando el GBM se utiliza en el contexto del PSM, dado que el fin último
de éste es, como ya se ha explicado, equilibrar las muestras de ambos grupos de individuos en
las variables observables que influyen en el resultado objeto de evaluación. En este sentido, el
27 Ello se debe a que el ajuste que suministra es el que hace mínima la diferencia estándar de las medias de los predictores (ASAM) entre los individuos del GT y GC.
20
GBM constituye un método robusto de estimación de la ecuación de selección (Chowa et at.,
2012).
A la hora de interpretar los resultados que ofrece esta estimación debe tenerse en cuenta que
los modelos GBM no suministran coeficientes equivalentes a los de una regresión
convencional (s). Sus parámetros reflejan la influencia de cada predictor sobre el ps, es decir,
la contribución de cada variable a la explicación de la probabilidad condicionada de asistir a un
colegio concertado28.
Tabla 2. Results from GBM and estimation parameters
Variable Influence
JobMum2 1.76
JobMum2 1.23
JobMum4 2.73
JobDad2 2.84
JobDad3 6.76
JobDad4 1.01
YearsMum 16.02
YearsDad 21.08
ZonaGeo1 0.98
ZonaGeo2 0.76
ZonaGeo3 2.08
ZonaGeo4 2.07
ZonaGeo5 0.57
NumBooks 1.91
Habitacion 5.99
NumTVs 6.57
NumPCs 4.51
NumTvPag 3.58
NumConso 9.36
NumMP4 8.20
Best num iterations 16453.00
Train R2 0.084
Test R2 0.045
% correct prediction 68.4%
Train fraction 0.5
Bag 0.5
Shrinkage factor 0.0005
Distribution Logistic
Max num interactions 4
Max num iterations 20000
Seed 0
28 La especificación de este modelo tomó como referencia aquéllas variables de la base de datos que, a la luz de la
evidencia empírica previa sobre los determinantes de la elección de centro y sobre los determinantes de los resultados escolares, podían afectar simultáneamente a la elección de escuela concertada y al rendimiento escolar. Por tanto, al especificar la ecuación de selección no se tomaron en consideración ni las variables que potencialmente pueden contribuir a explicar las diferencias en las competencias cognitivas evaluadas en la prueba de diagnóstico, pero que no influyen en la elección de centro (los hábitos de estudio, por ejemplo), ni aquéllas que pudiendo ser determinantes de esa elección no influyen en las citadas competencias (la distancia al centro, por ejemplo). Este criterio es el recomendado unánimemente por toda la literatura especializada sobre el PSM.
21
La tabla 2 recoge los resultados de la estimación de la ecuación de selección, que permite
predecir un valor del ps para cada uno de los individuos de la muestra, lo que permitirá
acometer la segunda fase del PSM: la búsqueda de los emparejamientos óptimos entre los
individuos del GT y GC. Se observa que las variables que acaparan mayor grado de influencia
en la probabilidad de asistir a centro concertado son los años de estudio de las madres y
padres (16 y 21%, respectivamente), seguidos por las variables que aproximan el grado de
posesiones en el hogar. La influencia del trabajo de los padres también es importante. Las
dummies que aproximan el empleo de la madre suman un 5,7% y las del padre un 10,6%.
Aunque el R2 obtenido es bajo, en estos modelos es más importante el porcentaje de
predicciones correctas del modelo estimado, que en nuestro caso alcanza prácticamente un
70%, lo que se considera en la literatura un grado de fiabilidad bastante elevado. La última
parte de la tabla muestra varios parámetros utilizados en la estimación de los modelos gbm. En
las estimaciones se han eliminado aquellos individuos con datos missing en las variables,
siguiendo un procedimiento case‐wise deletion. En una fase posterior del trabajo, se replicarán
los análisis realizando previamente una imputación de los valores faltantes ya que éstos
pueden implicar un sesgo de las estimaciones realizadas sin imputar debido a que los valores
faltantes no estén distribuidos aleatoriamente.
Las figuras 1 y 2a muestran la distribución de los propensity scores estimados para los
individuos de centros públicos y concertados. Se observa claramente, tanto en el boxplot como
en el gráfico de la distribución, que existe una amplia zona de soporte común. Es decir, que
individuos del GT tienen individuos del GC con los que poder compararse por tener el mismo
ps.
Figura 1. Boxplot ps score
22
Figura 2. Ps score kernels
a. Full sample b. Matched sample
Una vez estimado el propensity score, se realiza el proceso de matching, que puede llevarse a
cabo mediante diferentes algoritmos: greedy matching, optimal matching y fine balance (Guo
y Fraser, 2011). En nuestro trabajo hemos optado por el primero de ellos, el cual puede
aplicarse mediante diversas variantes (Smith y Tood, 2005). Los dos algoritmos más
ampliamente utilizados en la literatura son el nearest neighbor matchig (vecino más próximo, a
partir de ahora NNM), que admite a su vez diversas variantes, y los métodos basados en kernel
(MK, a partir de ahora). El primero de ellos empareja cada individuo del GT con aquél/aquéllos
del GC que tenga/n el valor del ps más próximo. El kernel matching es un estimador de
matching no paramétrico que construye para cada individuo del GT un individuo ficticio de
comparación con una media ponderada de todas las unidades del GC, utilizando las mayores
ponderaciones para las unidades con ps más parecido al del que se compara. En nuestro
trabajo se aplicaron los dos algoritmos citados y varias de las opciones de las que admite el
NNM (con y sin reemplazamiento, con caliper y sin caliper, 1 a 1, 1 a 2 y 1 a 3). El MK fue, a su
vez, aplicado con diferentes bandwiths. Con ello se pretende contrastar la sensibilidad del
matching a las diferentes propuestas de estimación.
En esta comunicación optamos por el MK con tipo de kernel Epanechnikov con un bandwidth
de 0.03, ya que da el emparejamiento que logra la mayor reducción en los sesgos. La muestra
se ve reducida únicamente en 9 individuos del GC, que desaparecen ya que no son
emparejados con ningún individuo del GT. Los restantes individuos del GC reciben un peso en
función del número de veces que se utilizan para ser emparejados con individuos del GT. Este
peso deberá ser utilizado en los análisis posteriores. La figura 2b muestra la distribución de los
ps en la muestra emparejada. Se observa que hay un solapamiento casi perfecto entre la
distribución para los centros públicos y concertados, lo que nos da idea de que se cumple el
objetivo para el cual se utiliza el PSM, conseguir dos muestras comparables. La figura 3
muestra por bloques el emparejamiento realizado entre estudiantes de centros públicos y
concertados.
La tabla 3 muestra la comparación de los resultados en inglés y medio físico para la muestra
completa y la emparejada (ATT). Los resultados muestran un efecto positivo de los colegios
concertados sobre los resultados alcanzados por los estudiantes en las pruebas de diagnóstico
de las competencias científicas y de lengua extranjera‐inglés. En todo caso, en la medida en
23
que las únicas variables tomadas en consideración en el cálculo del estimador ATT que
suministra el PSM son aquéllas que influyen en la elección de centro, una estimación más
precisa del efecto precisa de la incorporación de otros predictores que pueden influir de
manera independiente en la determinación de las puntuaciones alcanzadas por los
estudiantes. Para ello, se llevó a cabo un análisis post matching cuyos resultados se exponen a
continuación.
Figura 3. Propensity score matching blocks
Tabla 3. Two‐Group t‐Test
Variable Sample Treated Controls Difference S.E. T‐stat
Medio físico Unmatched 526.27 501.97 24.30 2.43 9.99
ATT 526.27 519.15 7.11 2.72 2.62
Inglés Unmatched 531.50 499.18 32.32 2.40 13.49
ATT 531.50 518.97 12.53 2.68 4.68
La tabla 4 muestra las diferencias en medias en los ps y covariates para la muestra completa y
la muestra emparejada, así como la reducción en el sesgo conseguida en el emparejamiento.
La figura 4 muestra gráficamente el sesgo pre y post matching para cada una de las variables.
Tal como muestra la tabla 4, la muestra total no está balanceada para prácticamente ninguna
variable (excepto ZonaGeo3) ya que todas muestran diferencias significativas entre centros
públicos y concertados. Si estas diferencias no son tenidas en cuenta en la inferencia causal del
tipo de centro en los determinantes del rendimiento académico, los resultados pueden estar
sesgados. Esta tabla también ilustra cómo de bueno es el emparejamiento en la reducción del
sesgo entre grupos comparando las medias y observando el porcentaje de reducción del sesgo.
Se observa que en la muestra emparejada las variables no muestran diferencias significativas
entre centros públicos y concertados. El porcentaje de sesgo para cada variable se ha reducido
en gran medida, estando ahora en casi todos los casos por debajo del 5%. La figura 4 muestra
de una manera muy clara y gráfica la reducción en estos sesgos. Los círculos representan los
sesgos entre centros públicos y concertados en la muestra antes del emparejamiento,
mientras que las cruces representan los sesgos en las variables entre centros para la muestra
emparejada. Se observa claramente que las cruces se distribuyen cercanas a cero, mientras
que los círculos presentan valores bastante más elevados en bastantes de los casos.
24
Tabla 4. Diferencias en medias por tipo centro de las variables en las muestras pre y post
matching y reducción del sesgo.
Mean %reduct t‐test
Variable Treated Control %bias |bias| t p>|t|
Propensity score Unmatched 0.47 0.40 60.8 24.87 0.00
Matched 0.47 0.47 0.9 98.5 0.32 0.75
JobMum1 Unmatched 0.37 0.24 29.7 12.15 0.00
Matched 0.37 0.37 0.7 97.6 0.26 0.80
JobMum2 Unmatched 0.39 0.42 ‐5.4 ‐2.20 0.03
Matched 0.39 0.40 ‐2.0 62.5 ‐0.77 0.44
JobMum3 Unmatched 0.03 0.04 ‐7.6 ‐3.06 0.00
Matched 0.03 0.03 ‐1.7 77.5 ‐0.71 0.48
JobMum4 Unmatched 0.21 0.30 ‐21.7 ‐8.74 0.00
Matched 0.21 0.20 2.3 89.6 0.93 0.36
JobDad1 Unmatched 0.49 0.31 36.7 14.98 0.00
Matched 0.49 0.50 ‐1.2 96.8 ‐0.44 0.66
JobDad2 Unmatched 0.23 0.26 ‐6.5 ‐2.61 0.01
Matched 0.23 0.24 ‐2.0 68.8 ‐0.77 0.44
JobDad3 Unmatched 0.23 0.35 ‐27.5 ‐11.07 0.00
Matched 0.23 0.21 3.4 87.8 1.38 0.17
JobDad4 Unmatched 0.05 0.07 ‐10.7 ‐4.29 0.00
Matched 0.05 0.05 ‐0.3 97.2 ‐0.13 0.90
YearsMum Unmatched 12.34 10.78 33.9 13.66 0.00
Matched 12.34 12.49 ‐3.2 90.7 ‐1.26 0.21
YearsDad Unmatched 12.34 10.78 33.5 13.53 0.00
Matched 12.34 12.47 ‐2.9 91.4 ‐1.13 0.26
ZonaGeo1 Unmatched 0.91 0.84 21.0 8.36 0.00
Matched 0.91 0.91 0.9 95.8 0.38 0.70
ZonaGeo2 Unmatched 0.00 0.01 ‐9.3 ‐3.65 0.00
Matched 0.00 0.00 1.0 89.4 0.60 0.55
ZonaGeo3 Unmatched 0.01 0.01 ‐1.0 ‐0.42 0.68
Matched 0.01 0.00 2.1 ‐101.6 0.89 0.37
ZonaGeo4 Unmatched 0.03 0.06 ‐12.8 ‐5.11 0.00
Matched 0.03 0.04 ‐2.5 80.9 ‐1.06 0.29
ZonaGeo5 Unmatched 0.04 0.06 ‐10.9 ‐4.36 0.00
Matched 0.04 0.04 0.2 97.8 0.10 0.92
ZonaGeo6 Unmatched 0.01 0.02 ‐8.1 ‐3.19 0.00
Matched 0.01 0.01 ‐0.7 91.8 ‐0.30 0.76
NumBooks Unmatched 0.60 0.50 18.7 7.56 0.00
Matched 0.60 0.61 ‐2.0 89.4 ‐0.76 0.45
Habitacion Unmatched 0.96 0.94 8.1 3.23 0.00
Matched 0.96 0.96 ‐1.2 84.9 ‐0.51 0.61
Internet Unmatched 0.88 0.84 12.7 5.06 0.00
Matched 0.88 0.89 ‐3.4 73.4 ‐1.40 0.16
NumTVs Unmatched 2.15 2.08 9.8 3.96 0.00
Matched 2.15 2.15 0.8 92.1 0.30 0.77
NumPCs Unmatched 1.63 1.49 17.2 6.97 0.00
Matched 1.63 1.66 ‐4.1 76.2 ‐1.56 0.12
NumTvPag Unmatched 0.46 0.43 4.5 1.82 0.07
Matched 0.46 0.48 ‐3.4 24.1 ‐1.24 0.21
NumConso Unmatched 1.82 1.66 16.3 6.62 0.00
Matched 1.82 1.84 ‐1.9 88.6 ‐0.71 0.48
NumMP4 Unmatched 1.11 0.93 18.3 7.47 0.00
Matched 1.11 1.14 ‐3.0 83.4 ‐1.11 0.27
Abs(bias) Unmatched 17.7 617.20 0.00
Matched 1.9 31.47 0.09
25
Figura 4. Sesgos entre centros públicos y concertados pre y post matching
La figura 5 muestra la distribución de las variables utilizadas en el PSM por tipo de centro para
la muestra completa (figuras de la izquierda) y la muestra emparejada (figuras de la derecha).
En éstas últimas se observa claramente que la muestra emparejada contiene distribuciones de
las variables mucho más próximas, en muchos casos prácticamente idénticas, entre los dos
tipos de centros.
Figure 5. Distribución de las variables en las muestras completa y emparejada
Mother’s education (years) Full sample Matched sample
Father’s education (years) Full sample Matched sample
26
Mother’s Job Full sample Matched sample
Father’s Job Full sample Matched sample
Place of birth Full sample Matched sample
Number of books at home Full sample Matched sample
27
Own room to studyFull sample Matched sample
Number of Tv sets at home Full sample Matched sample
Number of PCs at home Full sample Matched sample
Number of Pay TVs at home Full sample Matched sample
28
Number of Game Consoles at homeFull sample Matched sample
Number of MP4s at home Full sample Matched sample
5.2.‐ Resultados del HLM
La delimitación de las dos submuestras de individuos comparables del GT y GC que suministra
el PSM permite eliminar de la muestra el sesgo de selección causado por las variables
observables. Sin embargo, y en la medida en que las competencias de los alumnos pueden
venir explicadas por otras variables observables no tenidas en cuenta en la estimación del
propensity score, una estimación más depurada del impacto de la asistencia a centro
concertado sobre las puntuaciones obtenidas por los estudiantes en la ED requiere que se
realice un análisis post matching. En esta sección se explican los resultados obtenidos de la
aplicación de modelo de regresión lineal jerárquico a los datos de las dos submuestras de
individuos del GT y GC obtenidas mediante el PSM.
Este tipo de modelos resultan muy pertinentes cuando los datos disponibles presentan, como
en nuestro caso, una estructura jerárquica, ya que, en estos casos, no se cumple el supuesto
de independencia de las variables entre las diferentes jerarquías a las que pertenecen los
individuos. En nuestro estudio, la información que suministra la Evaluación de Diagnóstico se
refiere a estudiantes que están anidados en clases que, a su vez, están anidadas en escuelas29.
Por ello, previsiblemente las características y resultados de los estudiantes que pertenecen a
diferentes clases y escuelas serán distintas y la correlación intragrupos también (Hox, 1995).
29 En nuestro caso se han estimado tanto el modelo a dos niveles (estudiantes‐escuelas) como el modelo a 3 niveles (estudiantes‐clases‐escuelas) con fines de comparación. Inicialmente podría considerarse como más adecuado el modelo a tres niveles ya que los peer effects quedarían mejor recogidos si disponemos de información a nivel de clase. Sin embargo, como se explica en el texto a para la competencia lingüística en inglés es más adecuado el modelo a 2 niveles.
29
Esta consideración, junto con el hecho de que en el modelo de 3 niveles la correlación
intraclases (ICC)30 de las competencias científicas y lingüísticas en inglés arroja unos valores de
12,3% y 4,0% para el nivel clase (nivel 2) y de 18,9% y 32,9% para el nivel escuela (nivel 3),
respectivamente, nos llevó a aplicar inicialmente un modelo HLM en tres niveles, siendo el
nivel 1, como es habitual, el estudiante31. Las tablas 5 y 6 muestran estas ICCs para los modelos
de 2 niveles y 3 niveles, respectivamente.
Además, HLM permite la identificación de la proporción de la varianza total en el resultado
académico que es atribuible a las variables, tanto a globalmente como por niveles. Los
resultados muestran que en las competencias científicas el modelo a tres niveles funciona
mejor que el de dos (el porcentaje de explicación de la varianza por parte de las variables
incorporadas es mayor, 25,3% frente a 23,5%). En las competencias lingüísticas en lengua
inglesa ocurre lo contrario. Mientras el modelo a dos niveles explica un 32,5 % de la varianza
total de los resultados, el modelo a tres niveles explica un 31,5%). Esta diferencia es
consistente con el hecho, como se muestra en la tabla 6, de que el porcentaje de la varianza
explicada por las variables a nivel de clase para inglés es negativo. Esto indica que al incluir las
variables, la varianza de los resultados a explicar ha aumentado frente al modelo nulo en el
cual no se incluía ninguna variable. Por lo tanto, para la competencia en lengua inglesa el
modelo HLM más adecuado será el de 2 niveles.
Estos primeros resultados nos llevan a seleccionar un modelo HLM en tres niveles para explicar
las competencias en medio físico y un modelo a dos niveles para explicar las competencias
lingüísticas en inglés. Los modelos fueron estimados imponiendo efectos fijos a los parámetros
(con excepción del término independiente), al rechazarse la hipótesis nula de que existieran
efectos aleatorios estadísticamente significativos. Por ello las ecuaciones (15)‐(17) pueden
expresarse ahora como32:
∑ (19)
∑ (20)
0 (21)
∑ (22)
00 (23)
30 La correlación intraclases es la proporción de la varianza total explicada por las diferencias entre clases (nivel 2) y entre escuelas (nivel 3). Si la ICC fuera cero el modelo HLM no sería necesario, ya que en este caso la varianza total en los resultados no quedaría explicada por las diferencias existentes entre los alumnos que asisten a distintas clases y/o escuelas.
31 Bryk y Raudenbusch (1988) recomiendan el uso de este tipo de modelos con carácter general en el análisis de los efectos de las escuelas sobre los resultados educativos.
32 En el caso del modelo a 2 niveles no se incluirían las ecuaciones (22) y (23)
30
Tabla 5. Multilevel regression: random effects (2‐levels)
Medio físico Inglés
Null model
Complete model
Null model
Complete model
Schools 2661.88 2393.96 3373.56 2172.77
Students 7470.67 5354.93 6466.98 4466.59
Total 10132.55 7748.90 9840.55 6639.36
ICC 26.3% 34.3%
% of total variance explained by variables
23.5%
32.5%
% of level 1 (students) variance explained by variables
28.3%
30.9%
% of level 2 (schools) variance explained by variables
10.1% 35.6%
Tabla 6. Multilevel regression: random effects (3‐levels)
Medio físico Inglés
Null model
Complete model
Null model
Complete model
Schools 1805.91 1639.54 3128.13 2061.81
Classes 1169.27 949.38 379.75 439.40
Students 6554.70 4528.35 5993.29 4010.39
Total 9529.88 7117.27 9501.16 6511.61
ICC(3) 18.9% 32.9%
ICC(2) 12.3% 4.0%
% of total variance explained by variables
25.3%
31.5%
% of level 1 (students) variance explained by variables
30.9%
33.1%
% of level 2 (classes) variance explained by variables
18.8%
‐15.7%
% of level 3 (schools) variance explained by variables
9.2% 34.1%
Las variables dependientes en la regresión son las puntuaciones alcanzadas por los estudiantes
de primaria de Aragón en las pruebas de evaluación de las competencias objeto de análisis en
la Evaluación de Diagnóstico de 2010: conocimiento científico e interacción con el mundo físico
y comunicación lingüística inglés. Los predictores de la regresión y resultados del HLM se
detallan en la tabla 7 agrupados por niveles. La parte izquierda de la tabla presenta los
resultados del modelo de 2 niveles, tanto para medio físico como para inglés, si bien ya se ha
comentado que este modelo lo consideramos más adecuado para la competencia en lengua
inglesa. La parte izquierda presenta los resultados para el modelo de 3 niveles, más adecuado
para la estimación de los determinantes del resultado en medio físico.
El predictor más relevante para nuestro estudio es el del efecto del tipo de centro en las
competencias estudiadas. Se observa que este efecto es positivo y significativo para medio
físico, mientras que para inglés no es estadísticamente significativo. El coeficiente estimado
para tipo de centro en medio físico es de 22 puntos, lo que indica que un estudiante que tenga
31
el resto de características idénticas tiene una puntuación en esa competencia de 22 puntos
superior en un centro concertado que en uno público.
El tamaño de la localidad y la asistencia a un centro de la ciudad de Zaragoza tienen un efecto
significativo para la competencia en inglés. El efecto neto de la asistencia a un centro
localizado en la ciudad de Zaragoza es +15,16 puntos (Población de Zaragoza x _
). Este resultado viene explicado por el mayor esfuerzo que en los últimos
años se ha realizado en programas de bilingüismo, que han estado centrados especialmente en
la ciudad de Zaragoza.
Se observa que no existen peer effects para los estudiantes de cuarto de primaria. Únicamente
la media de años de estudio de las madres a nivel de centro tiene efectos positivos y
significativos sobre la competencia de inglés.
Las variables a nivel de estudiante muestran resultados habituales en la literatura sobre los
determinantes del rendimiento educativo. Las niñas obtienen mejores resultados en la
competencia de inglés, mientras que los niños destacan en medio físico. La ocupación y nivel
de estudios de los padres tienen el efecto esperado. A mayor nivel ocupacional y educativo (en
este último caso el relevante es el de la madre), mejores resultados escolares en ambas
competencias. En el caso de la variable que aproxima el efecto de la inmigración (residencia en
España superior a 5 años) el efecto es el esperado en las competencias científicas (positivo y
significativo), mientras que es negativo (aunque no significativo) en las competencias en
lengua inglesa. Ello podría ser indicativo de la mayor facilidad que pueden tener los alumnos
de procedencia extranjera para adaptarse a nuevos entornos lingüísticos. Otra variable que
presenta el efecto esperado es el número de libros existente en el hogar: los hogares que
manifiestan disponer de más de 100 libros inciden positivamente en la adquisición de
competencias educativas. A este resultado hay que sumar un efecto positivo y
estadísticamente significativo de los libros por parte del niño: los alumnos que manifiestan
utilizar con frecuencia libros de lectura, muestran unos mejores resultados académicos.
De los diferentes ítems utilizados en la ED para aproximar la riqueza familiar sólo en número
de televisiones en casa demuestra influir de manera significativa en los resultados (influencia
negativa)
El efecto mostrado por el tiempo de dedicación a las tareas escolares fuera del colegio influye
negativamente en el rendimiento. Los niños que declaran dedicar más de dos horas diarias a
estas tareas muestran peores resultados que aquellos que dedican menos de 2 horas. Los
“deberes” no parecen constituir una buena estrategia de estímulo de las capacidades de los
niños de 10 años. Otra posible interpretación de este efecto podría ser que los niños que
dedican más tiempo al trabajo escolar fuera de las aulas, sean aquellos que tienen más
dificultades en el aprendizaje. Una misma interpretación merecen los resultados que
presentan las variables ayuda en el estudio y revisión de las tareas por parte de padres o
profesores particulares.
La actitud, aproximada por la variable “realizo las tareas”, muestra un efecto positivo en
ambas competencias, pero no significativo en inglés. En el caso de la aptitud, aproximada por
32
la variable “tengo bien los deberes cuando los corregimos en clase”, presenta a su vez un
efecto positivo en los resultados.
Adicionalmente, la regresión incorpora información sobre tres factores extraídos de un análisis
de factores principales aplicado a los datos del cuestionario de entorno escolar que completan
los niños evaluados. El primer factor contiene información sobre la valoración que hace el niño
de su centro escolar (el centro tiene actividades culturales y deportivas, uso la biblioteca del
centro, las instalaciones están bien cuidadas, etc.). El factor 2 sintetiza la información que
ofrecen variables relacionadas con la autopercepción de sus capacidades académicas
(comprendo lo que leo, me expreso bien, redacto correctamente, se me dan bien los idiomas,
etc.). El factor 3, finalmente refleja las percepciones subjetivas del ambiente escolar (hay un
buen ambiente en mi clase, mis compañeros se ayudan entre sí, me llevo bien con mis
profesores, los profesores nos animan, etc). Los resultados varían en función de la
competencia evaluada. Mientras que en inglés el factor 1 presenta un efecto positivo y
significativo, en medio físico el efecto es negativo pero no significativo. Los otros dos factores
influyen de manera estadísticamente significativa en ambas competencias. La autoconfianza
(factor 2) de manera positiva, mientras que la percepción del ambiente escolar (factor 3) lo
hace de manera negativa.
Tabla 7. Estimation of fixed effects with robust standard error in the HLM
Modelos 2 niveles Modelos 3 niveles
School variables (Level 2) Medio físico Inglés School variables (Level 3) Medio físico Inglés
Intercept 474.33 *** 976.69 *** Intercept 517.63 *** 964.42 ***
(167.3) (192.4) (172.9) (192.1)
SCHTYPE 19.29 ** 7.57 SCHTYPE 22.68 *** 19.77 ***
(8.1) (7.6) (7.8) (7.9)
Prov. Teruel 4.95 11.97 Prov. Teruel 2.77 9.1
(11.1) (17.2) (12.0) (17.6)
Prov. Zaragoza ‐10.43 12.27 Prov. Zaragoza ‐10.44 4.73
(16.7) (14.9) (16.1) (15.1)
TAM_LOC 0.0 0.00 *** TAM_LOC 0.00 0.00 ***
(0.0) (0.0) (0.0) (0.0)
Zaragoza capital 21.62 ‐813.51 *** Zaragoza capital ‐41.17 ‐851.53 ***
(279.4) (315.8) (290.4) (319.9)
Class variables (Level 2)
PCTGIRLS ‐34.03 7.52 PCTGIRLS ‐32.34 22.2
(37.1) (36.1) (43.9) (24.3)
PCTREPET ‐71.97 54.86 PCTREPET 6.8 32.78
(52.9) (74.3) (53.9) (43.8)
PCTMAS5Y 25.15 51.11 PCTMAS5Y ‐21.14 ‐32.33
(52.3) (43.2) (45.3) (46.4)
PJOBMUM1 30.03 49.56 PJOBMUM1 10.62 64.53 ***
(49.3) (49.2) (23.6) (21)
PJOBMUM2 17.59 ‐30.19 PJOBMUM2 ‐4.01 36.81 *
(43.2) (37.6) (25.8) (21.9)
PJOBMUM3 24.21 ‐86.35 PJOBMUM3 ‐85.6 2.84
(99.5) (90.0) (64.4) (50.5)
MYEARMUM 0.10 8.43 ** MYEARMUM 1.19 2.34
(3.8) (3.9) (3.2) (2.3)
Student variables (Level 1) Student variables (Level 1)
GENERO ‐11.88 *** 20.3 *** GENERO ‐11.19 *** 20.45 ***
(2.5) (2.4) (2.4) (2.4)
33
REPETID ‐29.61 *** ‐39.73 *** REPETID ‐28.72 *** ‐39.88 ***
(6.0) (6.1) (6.2) (5.8)
JOBMUM1 11.11 *** 11.13 *** JOBMUM1 11.52 *** 11.22 ***
(4.4) (3.9) (4.3) (3.8)
JOBMUM2 1.01 0.88 JOBMUM2 1.15 ‐0.13
(3.6) (3.2) (3.5) (3.1)
JOBMUM3 ‐2.33 2.05 JOBMUM3 0.2 0.73
(7.7) (9.0) (7) (8.3)
JOBDAD1 ‐0.44 9.19 * JOBDAD1 1.6 10.25 *
(6.6) (5.4) (6.5) (5.5)
JOBDAD2 ‐3.6 1.71 JOBDAD2 ‐2.01 1.84
(6.5) (5.6) (6.6) (5.8)
JOBDAD3 ‐0.96 3.4 JOBDAD3 1.24 3.54
(6.2) (5.1) (6.2) (5.1)
YEARSMUM 1.54 *** 1.42 *** YEARSMUM 1.47 *** 1.33 ***
(0.3) (0.3) (0.3) (0.3)
MAS5YEAR 16.57 *** ‐8.94 MAS5YEAR 18.74 *** ‐8.31
(6.7) (6.1) (6.6) (6)
NUMBOOKS 13.71 *** 7.22 ** NUMBOOKS 13.26 *** 7.58 **
(2.9) (3.1) (2.8) (3.1)
USOBOOKS 12.73 *** 13.75 *** USOBOOKS 13.76 *** 15.69 ***
(3.4) (3.0) (3.2) (3)
NUMTVS ‐7.33 *** ‐5.24 *** NUMTVS ‐6.42 *** ‐5.19 ***
(1.9) (1.6) (1.7) (1.5)
STUDTIM1 ‐14.51 *** ‐3.54 STUDTIM1 ‐10.48 *** ‐3.37
(3.8) (3.4) (3.5) (3.3)
STUDTIM2 ‐14.73 *** ‐11.88 *** STUDTIM2 ‐12.77 *** ‐12.13 ***
(2.9) (2.6) (2.6) (2.5)
AUTOEST ‐27.53 *** ‐23.15 *** AUTOEST ‐27.68 *** ‐23.57 ***
(3.5) (3.1) (3.5) (3.1)
REVPAD1 ‐10.94 ** ‐2.87 REVPAD1 ‐11.38 ** ‐3.69
(5.3) (4.8) (5.2) (4.9)
REVPAD2 ‐9.69 ** ‐0.59 REVPAD2 ‐10.11 ** ‐2.46
(4.3) (3.8) (4.2) (4)
REVPAD3 ‐16.83 *** ‐10.92 *** REVPAD3 ‐17.28 *** ‐11 ***
(3.7) (3.1) (3.6) (3.1)
REVPROF ‐18.03 *** ‐18.3 *** REVPROF ‐19.97 *** ‐18.12 ***
(4.8) (4.7) (4.6) (4.5)
ACTITUD 13.99 * 9.87 ACTITUD 17.51 ** 10.46 *
(8.5) (6.6) (7.4) (6.5)
APTITUD 17.03 *** 11.79 *** APTITUD 17.49 *** 11.9 ***
(4.1) (4.5) (4.2) (4.3)
RELCEN 2.28 4.67 *** RELCEN ‐0.12 4.04 ***
(1.9) (1.0) (1.4) (1)
AUTOCONF 18.99 *** 21.89 *** AUTOCONF 18.87 *** 22.03 ***
(1.8) (1.4) (1.5) (1.5)
PERCAMB ‐5.83 *** ‐4.09 *** PERCAMB ‐8.27 *** ‐4.37 ***
(1.4) (1.3) (1.3) (1.3)
6.‐ Conclusiones
El análisis realizado en este trabajo ha puesto de manifiesto la existencia de cierta
ventaja de los colegios concertados de Aragón frente a las escuelas públicas en la
34
promoción de algunas competencias educativas; en particular en las que tienen que
ver con el dominio de las destrezas para resolver problemas y cuestiones relacionadas
con el Conocimiento del Medio. Incluso una vez tomadas en consideración las
diferencias en el entorno sociocultural de los estudiantes que asisten a ambos tipos de
escuela (diferencias que favorecen a las escuelas concertadas), la asistencia a una
organización educativa favorece la obtención de mejores resultados en la Evaluación
de Diagnóstico realizada en 2010 por los estudiantes de la comunidad autónoma de
Aragón.
En el caso de las competencias en lengua inglesa, segunda materia evaluada en la
edición de 2010 de la ED, el estudio realizado no permite establecer relaciones de
causalidad entre el tipo de escuela, pública o concertada, y las destrezas adquiridas
por los estudiantes aragoneses.
Estos resultados no hacen sino evidenciar la dificultad de establecer un efecto causal
claro entre el modelo de gestión escolar y los logros académicos. En efecto,
comenzábamos nuestro trabajo poniendo de manifiesto la falta de consenso existente
en la literatura sobre la calidad diferencial de los centros educativos públicos y
concertados, encontrándose estudios con conclusiones contradictorias. Nuestro
trabajo supone una nueva aportación que añade un nuevo factor al estado de
confusión general que rodea a esta cuestión: el ámbito competencial objeto de
análisis. En ciertas competencias educativas el modelo de gestión de las escuelas
concertadas presenta ventajas, mientras que en otras las aportaciones de este tipo de
centros escolares son similares a las de los centros públicos.
A pesar del esfuerzo realizado para obtener una estimación depurada del impacto de
los colegios concertados, en nuestro trabajo persisten ciertas limitaciones a las que
trataremos de atender en extensiones futuras del mismo. En particular, nos gustaría
contrastar la sensibilidad de los resultados al tratamiento de los valores missings de la
base de datos y a las variables inobservables que potencialmente pueden ser causa
adicional del sesgo de selección.
References:
Altonji, J. G., Elder, T.E. y Taber, C. R. (2008): “Using selection on observed variables to assess bias from unobservables when evaluating Swan‐Ganz catheterization”, American Economic Review, 98 (2), pp. 345‐350.
Anand, P., Mizala, A. y Repetto, A. (2009): “Using school scholarships to estimate the effect of private education on the academic achievement of low‐income students in Chile”, Economics of Education Review, 28, (3),pp. 370‐381.
Angrist, J. D. y Pischke, J. S. (2008): Mostly Harmless Econometrics: An Empiricist's Companion. Priceton University Press. USA.
35
Batlagi, D.H. (1999): Econometrics, 2nd edition, Springer: Berlin.
Bifulco, R. y Ladd, H.F. (2006): “The Impacts of Charter Schools on Student Achievement: Evidence from North Carolina”, Education Finance and Policy, 1( 1),pp. 50‐90.
Brewer, D.J. y McEwan, P.J. (2010): Economics of Education. Elsevier. Academic Press.
Bryk A.S. y Raudenbusch S.W. (1988): “Toward a More Appropriate Conceptualization of Research on School Effects: A Three‐Level Hierarchical Linear Model”, American Journal of Education, 97 ( 1), pp. 65‐108.
Burgess, S. y Briggs, A. (2010): “School assignment, school choice and social mobility”. Economics of Education Review, 29, pp. 639–649.
Calero, J. y Escardibul, J.O. (2007): “Evaluación de servicios educativos: el rendimiento en los centros públicos y privados medido en PISA‐2003”. Hacienda Pública Española. Revista de Economía, 183 (4), pp. 33‐66.
Caliendo, M. y Kopeinig, S. (2008): “Some Practical Guidance for the Implementation of Propensity Score Matching”, Journal of Economic Surveys, 22(1), pp. 31‐72.
Campbell, D. T. (1957): “Factors relevant to the validity of experiments in social settings”, Psychological Bulletin, 54(4), pp. 297‐312.
Chowa, G., Masa, R. D., Wretman, C.J. y Ansong, D. (2013): “The impact of household possessions on youth's academic achievement in the Ghana Youthsave experiment: A propensity score analysis”, Economics of Education Review, 33, pp. 69‐81
Chudgar y Quin (2012): “Relationship between private schooling and achievement: Results from rural and urban India”, Economics of Education Review, 31 (4), pp. 376‐390.
Coleman, J., Hoffer, T., y Kilgore, S. (1982): Secondary school achievement. Public, catholic and private schools compared. New York: Basic Books, Inc. Publishers.
Cordero, J.M., Crespo,E. y Pedraja, F. (2013): “Rendimiento educativo y determinantes según PISA: Una revisión de la literatura en España”, Revista de Educación, 362, en prensa. DOI:10.4438/1988‐592X‐RE‐2011‐362‐161.
Crespo, E. y Santín, D. (2013): “Does school ownership matter? An unbiased efficiency comparison for regions of Spain”, Journal of Productivity Analysis, DOI 10.1007/s11123‐013‐0338.
Doncel, L.M., Sainz, J. y Sanz, I. (2012): “An estimation of the advantage of charter over public schools”, Kyklos, 65 (4), pp. 442‐463.
Escardíbul, J.O., y Villarroya A. (2009): “The inequalities in school choice in Spain in accordance to PISA data”. Journal of Education Policy, 24, (6), pp. 673‐695.
Figel, J. (2010): Informe Educación y Atención a la Primera Infancia en Europa: un medio para reducir las desigualdades sociales y culturales. Agencia Ejecutiva en el ámbito Educativo, Audiovisual y Cultural (EACEA P9 Eurydice). Ed. Ministerio de Educación y Ciencia. Disponible también en http://www.eurydice.org.
36
Gallego, F.A. y Hernando, A. (2010): “School Choice in Chile: Looking at the Demand Side”, Documento de Trabajo número. 356, Universidad Pontificia Católica de Chile
Greene, K.V. y Kang, B. (2004): “The effect of public and private competition on high school outputs in New York State”. Economics of Education Review, 23, pp. 497‐506.
Gronberg, T.J. y Jansen, D. (2001): Navigating newly chartered waters. An analysis of charter school performance. Austin, TX. Texas Public Policy Foundation.
Guo, S. y Fraser, M.W. (2010): Propensity Score Analysis. Statistical Methods and Applications. SAGE publications. London.
Hanushek, E. Machin, S. y Woessmann, L. (2011): Handbook of the Economics of Education (4). Elsevier. Amsterdam.
Heckman, J. J. (2005): “The scientific model of causality”,Sociological Methodology, 35, pp. 1–97.
Holland, P. (1986): “Statistics and causal inference (with discussion)”, Journal of the American Statistical Association, 81, pp. 945‐970.
Hox, J. (1995): Applied Multilevel Analysis. TT‐Publikaties. Amsterdam.
Hsieh, C. T. y Urquiola, M. (2006): “The effects of generalized school choice on achievement
and stratification: Evidence from Chile's voucher program”, Journal of Public Economics, 90,
(8–9), pp. 1477‐1503.
Kim, Y.J. (2011): “Catholic schools or school quality? The effects of Catholic schools on labor market outcomes”, Economics of Education Review, 30 (3), pp. 546‐558.
Lefebvre, P., Merrigan, P. y Verstraete, M. (2011): “Public subsidies to private schools do make a difference for achievement in mathematics: Longitudinal evidence from Canada”, Economics of Education Review, 30 (1), pp. 79‐98.
Mancebón, M.J. y Muñíz, M.A. (2008): “Public High Schools in Spain. Disentangling managerial and program efficiencies”, Journal of the Operational Research Society, 59, pp. 892‐ 901.
Mancebón, M.J. y Pérez‐Ximénez de Embún (2011): “Equality of school choice: a study applied to the Spanish region of Aragon”, Education Economics, DOI: 10.1080/09645292.2010.545197.
Mancebón, M.J., Calero, J., Choi, A. y Pérez‐Ximénez de Embún, D. (2012): “The Efficiency of Public and Publicly‐Subsidized High Schools in Spain. Evidence from PISA‐2006”, Journal of the Operational Research Society, 63, pp. 1516‐1533.
Morgan, S. L. y Winship, C. (2008): Counterfactuals and Causal Inference: Methods and Principles for Social Research. Cambridge University Press. UK.
Murname, R.J. y Willett, J.B. (2011): Methods matter. Oxford University Press. New York.
Neyman, J.S. (1923): “Statistical problems in agricultural experiments”, Journal of the Royal Statistical Society, Series B, 2, pp. 107‐180.
37
Perelman, S. y Santin, D. (2008): “Measuring educational efficiency at student level with parametric stochastic distance functions: an application to Spanish PISA results”. Education Economics, 19 (1), pp. 29‐49.
Reynolds, C.L. (2012): “Where to attend? Estimating the effects of beginning college at a two‐year institution”, Economics of Education Review, 31 (4), pp. 345‐362.
Rosenbaum, P. R. y Rubin, D.B. (1983): “The central role of propensity score in observational studies for causal effects”, Biometrika, 70, pp. 41‐55.
Rosenbaum, P. R. (2002): Observational Studies. Springer, New York.
Rubin, D. B. (1974): “Estimating causal effects of treatments in randomized and non‐randomized studies”, Journal of Educational Psychology, 66, pp. 688‐701.
Rubin, D. B. (1990): “Bayesian inference for causal effects : the role of randomization”, Journal of Statistical Planning and Inference, 25, pp. 279‐292.
Rubin, D. B. (1978): “Formal models of statistical inference for causal effects : the role of randomization”, Annals of Statistics, 6, pp. 34‐58.
Salinas, J. y Santín, D. (2012): “Selección escolar y efectos de la inmigración sobre los resultados académicos españoles en PISA 2006”, Revista de Educación. 358, pp. 382‐405.
Shadish, W. R., Cook, T.D. y Campbell, D. T. (2002): Experimental and Quasi‐Experimental Designs for Generalized Causal Inference. Houghton Mifflin Company. Boston.
Smith, H. L. y Tood, P. E. (2005): “Does matching overcome LaLonde’s critique of non‐experimental estimators?”, Journal of Econometrics, 125, pp. 305‐353.
Somers M.A. , McEwan P.J. y Willms J.D. (2004): “How Effective Are Private Schools in Latin America?”, Comparative Education Review, 48, (1), pp. 48‐69.
Tamm, M. (2008): “Does money buy higher schooling?: Evidence from secondary school track choice in Germany”, Economics of Education Review, 27( 5), pp. 536‐545.
Willms J.D. (2006): Learning divides: Ten policy questions about the performance and equity of schools and schooling systems. UIS Working Paper, número 5. UNESCO Institute for Statistics: Montreal.
Witte, J.F., Weimer, D. Shober, A. y Schlomer, P. (2007): “The performance of charter schools in Wisconsin”, Journal of Policy Analysis and Management, 26, pp. 574‐575.