EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE...

1

EDUCACIÓN PÚBLICA Y EDUCACIÓN CONCERTADA EN ESPAÑA: APORTACIONES

DESDE UN ENFOQUE CUASIEXPERIMENTAL APLICADO A LAS ESCUELAS DE

EDUCACIÓN PRIMARIA DE ARAGÓN

María Jesús Mancebón Torrubia Domingo Pérez‐Ximénez de Embún

José María Gómez Sancho (Universidad de Zaragoza)

1. Introducción

La literatura dirigida a evaluar el impacto de intervenciones educativas diversas ha

experimentado un crecimiento muy notable en las últimas décadas en el panorama

investigador internacional (véanse los números más recientes de la revista Economics of

Education Review, entre otras). La aparición de bases de datos de calidad ‐como los informes

PISA que elabora la OCDE cada tres años, los TIMMS y PIRLS que realiza la Asociación

Internacional para la Evaluación de los Logros Educativos o las Evaluaciones de Diagnóstico que

realizan las comunidades autónomas españolas desde 2009‐, junto con el desarrollo de

sofisticados métodos de análisis, que permiten hacer frente a los principales problemas

metodológicos que tradicionalmente han afectado a este tipo de investigaciones, juegan, sin

duda, un papel decisivo en la explicación de este fenómeno.

Entre las diferentes intervenciones educativas que han sido objeto de evaluación destaca el

modelo de gestión –público/privado‐ de las escuelas. En efecto, el debate sobre las ventajas

relativas de la escuela privada frente a la pública, presente en la Economía de la Educación

desde tiempos lejanos1, ha adquirido un nuevo protagonismo en los últimos años merced a las

potencialidades que en el análisis de esta cuestión presentan las innovadoras técnicas de

inferencia causal desarrolladas por económetras y estadísticos en los últimos treinta años.

Estas técnicas, agrupadas bajo la rúbrica Propensity Score Analysis (Guo y Fraser, 2010), se han

mostrado de gran utilidad a la hora de establecer relaciones de causa‐efecto en los estudios

que, como la mayoría de los que se llevan a cabo en el ámbito educativo, se nutren de

registros de hechos ocurridos de manera natural, es decir, sin ningún tipo de manipulación ni

control por parte del investigador.

En este contexto, el objetivo del trabajo que se presenta a continuación es evaluar el impacto

que tiene la asistencia a una escuela concertada, frente a una pública, en los resultados que

obtienen los estudiantes en pruebas de evaluación estandarizadas. En particular, nuestro

estudio centra su atención en las competencias educativas que se valoran en la Evaluación

Censal de Diagnóstico (ED, a partir de ahora), prueba de evaluación española establecida en la

Ley Orgánica de Educación (LOE) de 20062.

El análisis de una cuestión de este tipo no puede ser más pertinente en un momento como el

actual, a las puertas de una nueva reforma educativa. Y es que, aunque el debate

1 El origen de estas investigaciones se encuentra en el trabajo de Coleman, Hoffer y Kilgore (1982).

2 Ley Orgánica 2/2006, de 3 de mayo, de Educación.

2

público/privado es una constante histórica en nuestro país, la cuestión resurge con

vehemencia en momentos previos a las reformas educativas, dada la convivencia en España de

dos modelos de gestión escolar (público y privado), que compiten por unos recursos públicos

limitados. A pesar de que los defensores de cada una de las alternativas en pugna suelen

apelar a criterios de calidad, eficiencia o igualdad a la hora de respaldar la opción preferida, lo

cierto es que los estudios técnicos realizados sobre esta cuestión en la literatura especializada

arrojan resultados contradictorios, lo que impide extraer conclusiones sólidas sobre las que

fundamentar la elección del modelo óptimo de producción educativa.

La muestra objeto de estudio en nuestro trabajo está constituida por la totalidad de los

centros públicos y concertados de enseñanza primaria de la comunidad autónoma de Aragón.

Los datos sobre los que se realizan las estimaciones proceden de la Evaluación de Diagnóstico

en Aragón 2010; en concreto, de los relativos a los alumnos que en el curso 2009/2010

estaban matriculados en el cuarto curso de primaria3. Las estimaciones se realizan mediante la

aplicación secuencial de dos metodologías: el propensity score matching (PSM) y los modelos

jerárquicos lineales (HLM). La primera técnica nos llevará a delimitar una muestra homogénea

de estudiantes exenta del problema de endogeneidad que potencialmente afecta a la muestra

original. La segunda metodología, por su parte, nos permitirá aquilatar con mayor precisión el

efecto de nuestro predictor principal (los conciertos escolares) sobre las competencias

evaluadas en la ED. Hasta donde conocemos, ésta es la primera ocasión en que ambas

metodologías son combinadas para evaluar el impacto de una intervención educativa4.

Aparte de la innovación metodológica, nuestro trabajo supone una novedad en el panorama

investigador español donde la práctica totalidad de los análisis realizados sobre la influencia de

la titularidad de los centros educativos se han centrado en la etapa de educación secundaria5.

La ausencia de estudios cuantitativos sobre la etapa de primaria encuentra su principal

justificación en la carencia crónica de información desagregada sobre este nivel educativo que

ha caracterizado a las estadísticas educativas españolas. Con la puesta en marcha de la

Evaluación de Diagnóstico esta barrera, afortunadamente, se ha roto, ya que esta evaluación

suministra una rica información, a nivel de micro‐datos, de las competencias educativas

alcanzadas por los estudiantes de cuarto curso de primaria y de las características de entorno

familiar y escolar de estos últimos6. Ello abre la puerta a la realización de estudios sobre una

etapa escolar que, dado que constituye el inicio de la trayectoria formativa de los individuos,

ocupa un lugar muy destacado en los sistemas educativos de todos los países. Y es que, como

señala el que fue Comisario Europeo de Educación entre 2004 y 2009, Ján Figel: “resulta a la

3 Agradecemos a la Dirección General de Política Educativa y Educación Permanente del Gobierno de Aragón la cesión de estos datos.

4 El reciente trabajo de Crespo y Santín (2013) realiza un análisis en el que, al igual que nosotros, se utiliza el PSM como método de homogeneización muestral en una primera etapa. En su caso, sin embargo, la segunda etapa, hace uso de una frontera de producción estocástica al objeto de evaluar la eficiencia de los estudiantes en ambos tipos de escuelas. Por otra parte, las estimaciones de este trabajo se refieren al nivel de educación secundaria , haciendo uso de los datos proceden de la evaluación PISA 2006.

5 La excepción es el estudio de Doncel et al. (2012), donde se analiza, mediante una regresión convencional, la influencia del tipo de escuela en los resultados medios de los colegios de primaria de Madrid, a partir de una prueba de evaluación propia de la Comunidad de Madrid.

6 La Evaluación de Diagnóstico, como se explica más adelante, también se realiza a los estudiantes de segundo curso de educación secundaria obligatoria.

3

vez más eficaz y más equitativo invertir en educación en etapas tempranas. Corregir los

fracasos más tarde no sólo es poco equitativo sino comparativamente mucho menos eficaz”

(Figel, 2010, página 3). La investigación en las prácticas e intervenciones que pueden mejorar

las habilidades de los estudiantes en una etapa educativa tan relevante constituye, así, un

requisito fundamental para diseñar políticas educativas provechosas.

Tras esta introducción, el trabajo se estructura en cinco apartados más. En el siguiente, se

presenta una somera revisión de los estudios realizados sobre la influencia del tipo de escuela

en los resultados educativos y de las conclusiones en ellos obtenidas. A continuación, en el

epígrafe 3, se describe la Evaluación de Diagnóstico. El epígrafe 4 expone en detalle los

fundamentos metodológicos de las técnicas de estimación en que se sustenta nuestra

aplicación empírica El epígrafe 5 presenta los resultados obtenidos. El trabajo finaliza con un

apartado de recapitulación y conclusiones.

2.‐ Revisión de la literatura

El punto de partida de las investigaciones involucradas en la cuantificación de la incidencia del

tipo de escuela (privada o pública) sobre el rendimiento educativo suele situarse en el

controvertido trabajo que el sociólogo James Coleman realizó en 1982 junto a Thomas Hoffer y

Sally Kilgore. En él se llevó a cabo una comparación multidimensional de las escuelas públicas y

privadas norteamericanas (católicas y no católicas) a partir de los datos suministrados por el

proyecto High School and Beyond. El análisis abarcó los siguientes aspectos: tamaño,

ubicación, recursos, funcionamiento, composición étnica y socioeconómica y logros

educativos. De todas las cuestiones tratadas en el informe, la que tuvo una mayor repercusión

mediática y académica fue la abordada en su último capítulo: la comparación de los resultados

obtenidos por los estudiantes en pruebas estandarizadas de evaluación de competencias

cognitivas básicas (lectura, escritura y matemáticas). Sus conclusiones, favorables a las

escuelas privadas, dieron lugar a la aparición de una prolífica línea de investigación dirigida a

superar las limitaciones metodológicas atribuidas al trabajo de Coleman y a contrastar sus

resultados en contextos educativos diversos.

Las principales deficiencias imputadas al citado estudio se centraron desde un principio en la

metodología en él utilizada para discernir el efecto de las escuelas privadas sobre los

resultados cognitivos de los estudiantes: el análisis de regresión convencional con control

estadístico de variables de entorno familiar7. Esta fue la estrategia analítica por la que optó el

equipo de Coleman para hacer frente al problema del sesgo de selección a que se veían

sometidas sus estimaciones8. Se consideraba que la incorporación en la ecuación de regresión

7 Para un estudio detallado de la controversia creada por el estudio de Coleman, Hoffer y Kilgore pueden consultarse el número 51(4) de la revista Harvard Educational Review o el número 55(2) de la revista Sociology of Education.

8 El propio informe reconoció explícitamente que su investigación se enfrentaba al problema del sesgo de selección, problema denominado endogeneidad en el ámbito econométrico. Y es que en la medida en que la asistencia a las escuelas privadas/públicas es fruto de una decisión individual/familiar y que familias diferentes muestran distinto patrón de elección, la comparación de resultados entre los dos tipos de escuela mediante la aplicación del modelo econométrico convencional (mínimos cuadrados ordinarios) puede llevar a atribuir a la escuela efectos que realmente corresponden a las características de las familias que han ejercido la elección. En estos casos, reconocen expresamente Coleman et al. (1982, págs. 122‐123), el método idóneo para dilucidar el efecto causal entre el tipo de escuela y los logros académicos de los alumnos pasaría por la comparación de los resultados que un mismo

4

de los factores que diferenciaban a los estudiantes de las escuelas públicas y privadas

permitiría aislar el efecto que el tipo de escuela ejercía sobre el rendimiento de sus alumnos. Y

es que, una vez controladas las diferencias entre los alumnos de los dos tipos de escuela, las

diferencias residuales, se consideraba, sólo podían ser atribuidas a la escuela (privada o

pública) en cuestión. A pesar de su lógica, este planteamiento fue objeto de numerosas

críticas, muchas de ellas con el argumento de que resulta difícilmente asumible que sea

posible incorporar a una regresión el espectro global de características que diferencian a los

alumnos.

Avances metodológicos posteriores han puesto de manifiesto que la técnica de regresión

convencional, por muy abundantes que sean los controles que incorpore, proporciona

estimaciones sesgadas del coeficiente del predictor principal (tipo de escuela), debido a la

endogeneidad de éste. Y es que la elección de escuela no es algo exógeno sino que es fruto de

una decisión individual/familiar que viene determinada por diversas características de los

hogares ‐renta y riqueza, perfil sociocultural, etc.‐ (Burgess y Briggs, 2010, Gallego y Hernando,

2010, Mancebón y Pérez‐Ximénez de Embún, 2010 , Escardibul y Villarroya, 2009 o Tamm,

2008, entre otros ), muchas de las cuales constituyen, a su vez, determinantes de los

resultados educativos de los estudiantes. En estos casos, la estimación mediante mínimos

cuadrados ordinarios es inadecuada, al violarse uno de los supuestos principales de este

método: la independencia de los residuos del predictor.

Partiendo de este hecho, en las últimas décadas han surgido un número importante de

trabajos que han tratado de corregir el problema de endogeneidad que afecta a las

estimaciones del impacto del tipo de escuela en los resultados educativos, haciendo uso de

estrategias metodológicas diversas dirigidas expresamente a solventar esta dificultad analítica.

Las conclusiones obtenidas por esta literatura son mixtas. Mientras algunos estudios

confirman los resultados obtenidos por Coleman, Kilgore y Hoffer (Lefebvre, Merrigan y

Verstraete , 2011, Kim, 2011, Anand, Mizala, y Repetto, 2009), en otros la superioridad de los

centros privados queda eliminada al incluir controles diversos en el análisis (Chudgar y Quin,

2012, Mancebón y Muñíz, 2008, Perelman y Santín, 2008, Hsieh y Urquiola, 2006,) o queda

reducida a grupos concretos de estudiantes, definidos por su raza, etnia, perfil académico o

socioeconómico (Gronberg y Jansen, 2001), o a determinadas competencias o niveles

educativos (Witte et al, 2007, Greene & Kang, 2004). En otros casos, se ha comprobado que los

centros públicos ofrecen mejores resultados que los privados (Bifulco y Ladd, 2006, Mancebón

et al., 2012).

En síntesis, la evidencia empírica revisada en el párrafo anterior, la cual constituye tan solo una

pequeña selección de los trabajos sobre este tema realizados en la literatura especializada9,

estudiante obtendría en los dos contextos educativos objeto de análisis (público y privado). La imposibilidad de evaluar la situación de una misma persona en escenarios alternativos, llevó a los autores a sustituir el experimento ideal por una estrategia de corrección muy extendida en el momento de realización de su trabajo: la introducción de un elevado número de variables de contexto familiar cuyos valores diferían entre los asistentes a cada tipo de escuela.

9 De hecho, el análisis de los efectos de la titularidad y gestión de las escuelas constituye un área plenamente

consolidada en la Economía de la Educación. Cualquier manual internacional de prestigio sobre esta materia incorpora una capítulo sobre este temática (véase, a modo de ejemplo, Hanushek, Machin y Woessmann, 2011, Brewer y McEwan, 2010)

5

pone de manifiesto que el tipo de influencia que ejerce la titularidad y gestión del centro

educativo sobre los resultados escolares constituye una cuestión abierta que requiere de la

realización de análisis empíricos adicionales a los realizados hasta la fecha. En este contexto,

nuestro estudio constituye una nueva aportación dirigida a arrojar nuevas luces sobre un

debate no cerrado. Frente a la mayoría de los estudios revisados en el párrafo anterior, que

han centrado su atención en la educación secundaria, nuestro estudio, como ya se ha indicado

anteriormente, atiende a la primera etapa de la educación obligatoria en España: la enseñanza

primaria.

3. La evaluación de diagnóstico

El origen de esta evaluación se encuentra en la LOE. Esta norma considera la evaluación del

sistema educativo como un elemento fundamental para la mejora de la educación y el

aumento de la transparencia del sistema educativo.

En este sentido, establece que las Evaluaciones de Diagnóstico tratarán de evaluar las

competencias básicas adquiridas por los alumnos de cuarto curso de EP y de segundo curso de

Educación Secundaria Obligatoria (en adelante, ESO). Con ello se trata de valorar en qué

medida la escuela prepara para la vida y forma a los estudiantes para asumir su papel como

ciudadanos en una sociedad moderna, ya que dichas competencias se relacionan con

contenidos curriculares que suponen conocimientos, habilidades y actitudes transferibles y

útiles para hacer frente a situaciones y problemas que se presentan en la vida real10.

Las competencias básicas, según los Reales Decretos sobre enseñanzas mínimas, son ocho:

competencia en comunicación lingüística; competencia matemática; competencia en el

conocimiento y la interacción con el mundo físico; tratamiento de la información y

competencia digital; competencia social y ciudadana; competencia cultural y artística;

competencia para aprender a aprender; y autonomía e iniciativa personal11.

La LOE prevé dos tipos de procesos para las Evaluaciones de Diagnóstico; las Evaluaciones

Generales de Diagnóstico de carácter muestral, y las Evaluaciones de Diagnóstico de carácter

censal.

En cuanto a las primeras, el artículo 144.1 de la LOE establece que el Instituto de Evaluación y

los organismos correspondientes de las Administraciones educativas colaborarán en la

realización de Evaluaciones Generales de Diagnóstico, que permitan obtener datos

representativos, tanto del alumnado como de los centros de las Comunidades Autónomas

10 La Comisión Europea (2004) proporciona una definición abierta que identifica las competencias como “una combinación de conocimientos, destrezas y actitudes que incluyen la disposición para aprender y el saber cómo”, y matiza que una competencia, clave, básica o esencial es crucial cuando ésta contribuye a diferentes aspectos de la vida (la realización y desarrollo personal a lo largo de la vida, la inclusión y la ciudadanía activa y la aptitud para el empleo).

11 RD 1513/2006, de 7 de diciembre, por el que se establecen las enseñanzas mínimas de la Educación Primaria y RD 1631/2006, de 29 de diciembre, por el que se establecen las enseñanzas mínimas correspondientes a la Educación Secundaria Obligatoria.

6

(CCAA), como del conjunto del Estado. Estas evaluaciones versarán sobre las competencias

básicas del currículo y las realizarán los alumnos de cuarto de EP y de segundo de ESO.

En cuanto a las segundas, los artículos 21 y 29 de la LOE establecen que al finalizar el segundo

ciclo de la EP y el segundo curso de la ESO todos los centros realizarán una Evaluación de

Diagnóstico de las competencias básicas alcanzadas por sus alumnos. Esta evaluación será

competencia de las CCAA y tendrá como marco de referencia las Evaluaciones Generales de

Diagnóstico que se establecen en el artículo 144.1 de la Ley.

La aplicación de las Evaluaciones Generales de Diagnóstico, es decir, de las de carácter

muestral, se inició en el curso escolar 2008/2009 en EP, y en el curso 2009/2010 en ESO. En

ambos casos sólo se evaluaron cuatro de las competencias: la competencia en comunicación

lingüística, la competencia básica matemática, la competencia básica en el conocimiento y la

interacción con el mundo físico, y la competencia básica social y ciudadana. En los años

siguientes, se estableció que el Consejo Rector fijaría un calendario de aplicaciones de las

Evaluaciones de Diagnóstico en el que se incorporarían el resto de las competencias:

tratamiento de la información y competencia digital, competencia cultural y artística,

competencia para aprender a aprender, y competencia en autonomía e iniciativa personales.

En cuanto a las Evaluaciones de Diagnóstico de carácter censal, como ya se ha mencionado,

son competencia de las CCAA. En Aragón, la LOE junto a la legislación educativa de la

Comunidad Autónoma, en las Órdenes de 9 de mayo de 2007 sobre los currículos de EP y ESO

y en la Resolución de 6 de febrero de 2009 sobre la organización y realización de la Evaluación

de Diagnóstico, establecen que todo el alumnado de segundo curso de ESO y cuarto de EP

debe realizar una Evaluación de Diagnóstico sobre el grado de adquisición de las competencias

básicas.

Por tanto, esta prueba se realiza a todos los individuos del conjunto de la población que cursan

los niveles determinados, aunque, se exceptúa a aquellos que, por alguna característica

personal, no tienen la obligación de hacerla12.

En 2009 se realizó la primera prueba en Aragón, en la que se evaluaron las competencias en

comunicación lingüística en castellano, la competencia matemática y la competencia aprender

a aprender, de todos los alumnos, tanto de cuarto de EP, como de segundo de ESO. En 2010 se

evaluó la competencia en conocimiento científico e interacción con el mundo físico y la

competencia en comunicación lingüística inglés, también de los alumnos de ambos cursos. El

ciclo se completó con la edición de 2011, en la que se evaluaron la competencia social y

ciudadana, la competencia cultural y artística y la competencia digital.

Un aspecto muy valioso de la Evaluación de Diagnóstico es que ésta no sólo aporta

información sobre el nivel de competencias de los alumnos en las materias que se analizan en

cada edición, sino que además recoge información sobre los contextos socioeconómicos del

12 Punto primero, apartado 2 de la Resolución de 6 de febrero de 2009, de la Dirección General de Política Educativa: “La evaluación de diagnóstico se aplicará a todos los alumnos del 4º curso de la Educación primaria y del 2º curso de la Educación secundaria obligatoria, con excepción de aquéllos que presenten necesidades educativas que les impidan la realización de las pruebas y de los que presenten desconocimiento de la lengua castellana y, además, lleven escolarizados en el sistema educativo español menos de un curso escolar completo”.

7

alumnado y de los centros, así como otras variables del entorno educativo. Este aspecto de la

evaluación resulta de gran interés a la hora de emplear esta base de datos en la realización de

estudios empíricos sobre los resultados educativos, ya que de sobra está demostrada la

influencia que este tipo de variables ejercen en los resultados académicos que los alumnos

alcanzan (Cordero et al, 2013). Es por ello que, junto a las pruebas que evalúan las

competencias de los estudiantes, se aplican cuestionarios relativos a variables de contexto, de

procesos y de recursos educativos, que además de estar destinados a ser contestados por el

alumnado, están también dirigidos al profesorado, a la dirección e, incluso, a las familias. En

este sentido, además de la prueba de evaluación, los alumnos deben contestar a otros dos

cuestionarios, uno de dimensión sociocultural y otro de entorno escolar.

El primero está formado por doce preguntas dirigidas a recopilar información sobre el perfil

profesional y educativo de los padres, las pertenencias en el hogar y su utilización por parte del

alumno (libros de lectura, habitación propia, mesa de estudio, ordenador, internet, discos de

música, televisiones, etc.), la habilidad del alumno con las nuevas tecnologías, el tiempo

dedicado al estudio y a otras actividades (tiempo dedicado a ver la televisión, a jugar con

videojuegos, a jugar con el ordenador, a entretenerse en internet, a usar el Messenger o redes

sociales, a leer libros, a actividades extraescolares y a salir a la calle), su autonomía en el

estudio y el grado de implicación de los padres en el aprendizaje.

El cuestionario de entorno escolar está formado, por su parte, por tres apartados

denominados “yo”, “mi clase” y “mi centro”. El primero pretende aproximar la percepción que

el alumno tiene sobre sí mismo como estudiante (atención en clase, comprensión lectora,

expresión oral y escrita, habilidades en matemáticas e idiomas, relaciones con los compañeros,

colaboración en los trabajos en grupo, limpieza y orden en sus materiales de trabajo, cuidado

de los materiales e instalaciones del centro, cumplimiento con las normas y respeto a los

profesores). El objetivo del segundo apartado del cuestionario de entorno es evaluar la

percepción del estudiante sobre el ambiente de su clase (atención de sus compañeros,

ambiente tranquilo, trabajo en equipo, colaboración entre compañeros de clase, relación con

el profesor). Finalmente, las cuestiones del apartado “mi centro”, van dirigidas a captar

información sobre la valoración del alumno sobre su escuela. Para ello se le hacen preguntas

acerca de las actividades culturales o deportivas que tienen lugar en el mismo, de su

participación en ellas, frente a realizarlas fuera del centro, si le gusta el centro, si utiliza la

biblioteca, si cree que las instalaciones están bien cuidadas, y si, en caso de algún problema,

habla con sus profesores.

En resumen, la Evaluación de Diagnóstico, en su versión censal, es una prueba que realizan

anualmente todos los alumnos de cuarto curso de EP y de segundo de ESO, que además de

ofrecer información acerca de los niveles alcanzados por los alumnos en las competencias de

las que se les examina, ofrece una rica información acerca de su situación socioeconómica y

del entorno escolar que les rodea. Es por ello por lo que esta prueba constituye una materia

prima de incuestionable interés llevar a cabo los objetivos planteados en nuestra investigación.

En nuestra aplicación empírica haremos uso, como ya se ha destacado, de la información que

suministra esta Evaluación sobre los alumnos de cuarto curso de primaria. La tabla 1 recoge los

8

descriptivos de las variables extraídas de esta fuente de datos agrupados por tipo de centro

(público/concertado).

Tabla 1. Descriptivos y comparación de medias por tipo de centro

Sig. Levene's Test for Equality of Variances

Sig. T‐test for Equality of Means

Media

Codigo Descripción variable Total Público Concertado

MF4_500 Rdo Medio Fisico 4ºEP 512.37 501.97 526.27 0.00 0.00

ING4_500 Rdo Inglés 4ºEP 513.02 499.18 531.50 0.00 0.00

JobMum1 Madre White Collar High Skilled 0.29 0.24 0.37 0.00 0.00

JobMum2 Madre White Collar Low Skilled 0.41 0.42 0.39 0.00 0.03

JobMum3 Madre Blue Collar High Skilled 0.04 0.04 0.03 0.00 0.00

JobMum4 Madre Blue Collar Low Skilled 0.26 0.30 0.21 0.00 0.00

JobDad1 Padre White Collar High Skilled 0.39 0.31 0.49 0.00 0.00

JobDad2 Padre White Collar Low Skilled 0.25 0.26 0.23 0.00 0.01

JobDad3 Padre Blue Collar High Skilled 0.30 0.35 0.23 0.00 0.00

JobDad4 Padre Blue Collar Low Skilled 0.06 0.07 0.05 0.00 0.00

YearsMum Años estudio madre 11.45 10.78 12.34 0.00 0.00

YearsDad Años estudio padre 11.45 10.78 12.34 0.00 0.00

ZonaGeo1 País nacimiento España 0.87 0.84 0.91 0.00 0.00

ZonaGeo2 Zona nacimiento África 0.01 0.01 0.00 0.00 0.00

ZonaGeo3 Zona nacimiento Asia 0.01 0.01 0.01 0.40 0.68

ZonaGeo4 Zona nacimiento Europa 0.05 0.06 0.03 0.00 0.00

ZonaGeo5 Zona nacimiento Latino América 0.05 0.06 0.04 0.00 0.00

ZonaGeo6 Zona nacimiento Países Árabes 0.01 0.02 0.01 0.00 0.00

More5years Más de 5 años viviendo o nacido en España 0.94 0.93 0.95 0.00 0.00

Genero Género (mujer=1, hombre=0) 0.49 0.49 0.48 0.27 0.58

Repetid Repetidor (repetidor=1, no repetidor=0) 0.08 0.09 0.06 0.00 0.00

NumBooks Más de 100 libros en casa 0.54 0.50 0.60 0.00 0.00

UsoBooks Utilizar frecuentemente libros de lectura 0.72 0.70 0.75 0.00 0.00

Habitacion Habitación propia donde estudiar 0.95 0.94 0.96 0.00 0.00

Internet Tener internet en casa 0.86 0.84 0.88 0.00 0.00

NumTVs Número televisiones en casa 2.11 2.08 2.15 0.01 0.00

NumPCs Número ordenadores en casa 1.55 1.49 1.63 0.11 0.00

NumTvPag Número televisiones de pago en casa 0.44 0.43 0.46 0.00 0.07

NumConso Número videoconsolas en casa 1.73 1.66 1.82 0.16 0.00

NumMP4 Número de reproductores MP4 en casa 1.01 0.93 1.11 0.00 0.00

StudTim0 Menos de 2 horas de estudio diario 0.37 0.37 0.35 0.00 0.13

StudTim1 Alrededor de 2 horas de estudio diario 0.16 0.15 0.17 0.00 0.05

StudTim2 Más de 2 horas de estudio diario 0.48 0.48 0.48 1.00 1.00

AutoEst Necesita ayuda frecuentemente para tareas 0.22 0.22 0.22 0.28 0.59

RevPad0 No me revisan ni tarea ni agenda 0.21 0.23 0.19 0.00 0.00

RevPad1 Me revisan agenda pero no tarea 0.10 0.07 0.13 0.00 0.00

RevPad2 Me revisan tarea pero no agenda 0.16 0.20 0.12 0.00 0.00

RevPad3 Me revisan la tarea y la agenda 0.53 0.50 0.57 0.00 0.00

RevProf Prof. Particular me revisa tarea 0.09 0.08 0.09 0.15 0.47

Actitud Acabo las tareas para casa 0.93 0.92 0.94 0.00 0.01

Aptitud Hago bien las tareas para casa al corregirlas 0.85 0.84 0.87 0.00 0.00

N 6724 3845 2879

Fuente: Elaboración propia a partir de Evaluación de Diagnóstico 2010 (Gobierno de Aragón)

La tabla 1 pone de manifiesto que los alumnos de los centros concertados alcanzaron una

mayor puntuación tanto en la competencia en conocimiento científico e interacción con el

9

mundo físico, como en la competencia en comunicación lingüística inglés13. Las diferencias

brutas en resultados, favorables a las escuelas concertadas, son incapaces por sí mismas de

ofrecer un diagnóstico sobre la calidad relativa de ambos tipos de centro escolar. Y es que la

comparación en resultados debe ser contrastada con la materia prima por excelencia de éstos:

el perfil de los alumnos. En este sentido, la tabla 1 es muy elocuente. En la práctica totalidad

de las variables extraídas de los cuestionarios de la ED 2010, las diferencias son favorables a las

escuelas concertadas: ocupación y estudios de los padres, estatus de inmigración, posesiones

del hogar, implicación familiar en la revisión de las tareas escolares, grado de cumplimiento y

éxito en la resolución del trabajo encargado por el profesor para realizar fuera del centro

escolar. Y lo más importante, las diferencias encontradas son, con contadas excepciones,

estadísticamente significativas. Esta realidad pone en evidencia la necesidad de aplicar en

nuestro estudio una estrategia de estimación que tenga en cuenta las diferencias existentes

entre el alumnado de las escuelas públicas y concertadas y permita identificar el efecto neto

atribuible al tipo de escuela sobre los resultados escolares. En la sección siguiente se explican

en detalle alguno de los métodos existentes en la actualidad para hacer frente a este reto.

4.‐ Cuestiones metodológicas

Las evaluaciones de impacto que utilizan, como es habitual en el terreno educativo, datos

procedentes de registros administrativos deben hacer frente, como se ha dicho, a un problema

metodológico intrínseco: el conocido como sesgo de selección o endogeneidad del predictor

principal. Con ello se hace referencia a la elevada probabilidad de que las estimaciones

obtenidas estén sesgadas, es decir, que no recojan el efecto real de la variable estudiada. Ello

ocurrirá siempre que el predictor principal no sea exógeno, es decir, siempre que la asignación

de los individuos a la intervención o tratamiento evaluado no sea aleatoria. Esta situación está

muy generalizada en el terreno educativo, donde la asignación de los participantes a los

diversos tratamientos es típicamente endógena. Piénsese, a modo de ejemplo, en el caso que

nos ocupa en este trabajo: la evaluación del impacto de la asistencia a un centro concertado

(potencial causa) sobre las competencias educativas adquiridas por los estudiantes (potencial

efecto). En la medida en que causa y efecto potenciales se ven afectados por variables

comunes (el nivel socioeconómico familiar, por ejemplo), una comparación de los resultados

de los alumnos de los centros públicos y concertados que no tenga en cuenta estas

interrelaciones conducirá a conclusiones erróneas sobre el efecto del tipo de escuela en el

rendimiento escolar. Y es que siempre que existan indicios razonables para suponer que los

individuos que reciben la intervención o tratamiento evaluado difieren de los no tratados en

13 La media de cada competencia para el total de centros es 500 y la desviación típica 100, dado que tal y como

establece el Informe General de la Evaluación de Diagnóstico en Aragón 2010 “la valoración de cada competencia en el conjunto de Aragón se establece en el nivel de la media de los resultados transformados a un valor de referencia que se ha fijado en 500 con una desviación típica en 100”. En este sentido, el planteamiento de la Evaluación de Diagnóstico española es similar al seguido en las evaluaciones del Proyecto PISA de la OCDE. En la tabla 1 la media difiere de 500 debido a que se han eliminado de la muestra los centros privados sin financiación pública y aquéllos en los que no existe alternativa de elección público/privada.

10

características que son relevantes en la obtención del resultado observado, la posibilidad de

atribuir un efecto causal se ve seriamente limitada14.

La búsqueda de estrategias de análisis que permitan hacer frente a esta problemática especial

ha dado lugar a la aparición de innovadoras propuestas metodológicas que disfrutan a día de

hoy de gran aceptación en la comunidad científica. La aportaciones proceden dos campos de

investigación diferentes pero íntimamente interrelacionados: el econométrico y el estadístico

(Guo y Fraser, 2010). El líder del primero es James Heckman cuyas aportaciones en este campo

le valieron la máxima distinción otorgada a los méritos científicos, el premio nobel en

Economía. En el ámbito estadístico las aportaciones se nutren del trabajo seminal de

Rosenbaum y Rubin de 1983.

La tradición estadística, menos conocida para los estudiosos de la Economía Pública en España,

toma como referencia de sus desarrollos lo que se considera con generalidad el estándar de

oro para la atribución de efectos causales: el experimento con asignación aleatoria de los

participantes al tratamiento evaluado. Sobre esta base se diseñan estrategias de análisis de los

datos que tratan de emular, mediante ajustes diversos, las condiciones ideales de la

investigación experimental controlada.

La piedra angular de estas estrategias es el conocido como modelo contrafactual de causalidad

o modelo de resultados potenciales desarrollado por Neyman (1923) y Rubin (1974 y 1978). La

importancia de este modelo en los desarrollos metodológicos que van a ser objeto de atención

en este trabajo nos lleva a dedicarle una atención especial.

4.1.‐ El modelo contrafactual: núcleo principal de la inferencia causal

Como hemos señalado anteriormente, el reto de mayor envergadura a que se enfrenta un

investigador que trabaja con datos procedentes de registros de hechos ocurridos de forma

natural es desligar la parte de un resultado observado que es atribuible inequívocamente a

una causa potencial de otras influencias posibles. Los desarrollos estadísticos que se han

elaborado sobre la base de lo que en esta literatura se denomina contrafactual han permitido

alcanzar notables avances en la superación de este reto.

Un contrafactual es una construcción teórica con la que se alude a un resultado potencial, es

decir, a lo que habría ocurrido en ausencia de la causa (Shadish et al., 2002, pág.506). Dicho de

otra forma, el contrafactual especifica el resultado que un individuo habría obtenido en el caso

de que hubiera estado sometido a la situación alternativa a la que ha experiementado. Para los

individuos que han recibido un tratamiento (los tratados), el contrafactual es el resultado que

estos mismos individuos habrían obtenido en caso de no haberlo recibido y en condiciones

14 Tres son los requisitos críticos que tradicionalmente se han exigido a las relaciones de causalidad: a) orden temporal (la variable causa debe preceder a la variable efecto); b) correlación empírica entre causa potencial y efecto, y c) la más importante, la correlación no puede ser explicada por una tercera variable que sea causa de las dos (Murname y Willett, 2011, pág. 27). Aunque los dos primeros requisitos no plantean demasiadas dificultades de comprobación, el tercero ha sido causa de numerosos quebraderos de cabeza para los investigadores de las ciencias sociales.

11

ambientales idénticas. De manera simétrica se define el contrafactual para los sujetos no

tratados (grupo de control).

Desde un punto de vista teórico, el contrafactual convierte en trivial el problema de la

inferencia causal. Y es que conceptualmente la mejor aproximación al efecto provocado por un

tratamiento en un individuo no es otra que la diferencia entre los resultados obtenidos bajo el

tratamiento (situación factual) y los que este mismo individuo habría obtenido ceteris paribus,

en ausencia del tratamiento (situación contrafactual). El promedio de estas diferencias para la

totalidad de los individuos de la muestra permitiría aproximar el efecto medio del tratamiento

(lo que en esta literatura es comúnmente conocido por la siglas ATE, average treatment

effect). Finalmente, la aplicación de los contrastes estadísticos pertinentes permitiría valorar si

el efecto atribuido al tratamiento es extrapolable a toda la población de la que ha sido extraída

la muestra (Murname y Willett, 2011, pág. 34).

El planteamiento, impecable a nivel teórico, se encuentra plagado de dificultades la hora de

ponerlo en práctica en un contexto real. Y es que un contrafactual es, por definición, un

resultado imaginario, imposible de observar y, por tanto, de cuantificar. Esta realidad da lugar

a lo que Holland (1986) denominó el problema fundamental de la inferencia causal. Su

superación pasa por el diseño de estrategias que permitan aproximar de manera razonable el

constructo hipotético denominado contrafactual (Shadish et al., 2002). Antes de explicar las

diferentes estrategias diseñadas a tal fin, expondremos de manera formalizada las ideas que

acaban de ser esbozadas. Tomaremos como referencia de nuestra exposición las aportaciones

sobre el tema desarrolladas por Morgan y Winship (2008), Guo y Fraser (2010) y Murname y

Willett (2011).

Supongamos que se trata de evaluar el impacto de una intervención W (la asistencia a una

escuela concertada, por ejemplo) sobre un resultado Y de interés (las puntuaciones de los

alumnos en unas pruebas estandarizadas). Por simplicidad supondremos que la intervención

admite dos únicas variantes: W= 1 (asistencia a escuela concertada) y W= 0 (asistencia a

colegio público). Los individuos para los que W= 1 conforman lo que se denomina el grupo

tratado (GT, a partir de ahora). Aquellos para los que W= 0 componen, por su parte, el grupo

de control (GC, a partir de ahora). A todo individuo i de la población estudiada se le pueden

atribuir a priori dos resultados potenciales: el que obtendría en caso de recibir la intervención

(Yi1) y el que obtendría en caso de no recibirla (Yi

0). El resultado real ( i) de cada individuo

puede expresarse, por tanto, de la manera siguiente:

i = Yi1 si Wi = 1 (1)

i = Yi0 si Wi = 0 (2)

o expresado de una manera más compacta:

i = Wi Yi1 + (1 –Wi) Yi

0 (3)

La ecuación 3 permite poner de manifiesto que la cuantificación del impacto de la intervención

evaluada (W) sobre el resultado obtenido (Y) precisa que se analice la relación que existe entre y W, no sólo en el escenario W = 1 sino también en el escenario W=0. En concreto, el impacto

de la intervención W sobre los resultados de cada individuo de la población viene dado por la

12

diferencia entre Yi1 e Yi

0. Es lo que en esta literatura se denomina efecto individual del

tratamiento (ITE).El promedio de estas diferencias permite aproximar el efecto medio del

tratamiento (ATE) en la población. Es decir:

ATE = E (Yi1 ‐ Yi

0) = E(Yi1) – E(Yi

0), i = 1,…, N (4)

donde el símbolo E denota al operador esperanza matemática y N el número de individuos de

la población objeto de interés.

De manera análoga se definen otros indicadores de interés en la evaluación del impacto de

una intervención. Nos referimos al efecto medio del tratamiento sobre los tratados (ATT) y al

efecto medio del tratamiento sobre los no tratados (ATU). La diferencia de su cálculo con

respecto al ATE radica en los individuos que se computan en el cálculo del indicador, sólo los

que han recibido la intervención en el cálculo del ATT y únicamente los que pertenecen al GC

en el cómputo del ATU. Es decir:

ATT = E (Yi1I W = 1) – E (Yi

0 I W = 1), i = 1,2,…N1 (5)

ATU = E (Yi1I W = 0) – E (Yi

0 I W = 0), i = 1,2,…N2 (6)

Donde N1 y N2 denotan el número de individuos pertenecientes al GT y al GC, respectivamente.

La imposibilidad de conocer los dos valores Yi1 e Yi

0 hace inviable el cálculo empírico de los

indicadores que se acaban de exponer. En efecto, las únicas magnitudes disponibles para el

evaluador una vez que la intervención ha sido aplicada son los resultados realmente obtenidos

por cada individuo: para los individuos de la muestra que han recibido el tratamiento (W =

1) e para los individuos de la muestra que conforman el grupo de control (W = 0). Los

valores Yi1 correspondientes al GC (W= 0) y los valores Yi

0 para el GT (W = 1), es decir, los

contrafactuales, son, por definición, desconocidos.

Llegados a este punto el problema a superar en las evaluaciones empíricas se concreta en

encontrar sustitutos adecuados a los contrafactuales teóricos que permitan cuantificar el

indicador de interés (Caliendo y Kopeinig, 2008). Las aportaciones de Rubin en la superación

de este problema son, sin lugar a dudas, decisivas (véase Rubin, 1973, 1974 y 1990, entre

otros).

En particular, este autor demostró que si la asignación de los individuos a la intervención que

se trata de evaluar es aleatoria, el resultado medio del contrafactual correspondiente al GT ‐

E(Yi0 I W = 1)‐ puede ser aproximado mediante el valor medio de los resultados reales

obtenidos por el GC ‐E ( I W = 0)‐ el cual es perfectamente observable en la muestra que

representa a la población de interés.

Si este es el caso, el efecto de una intervención dada sobre el resultado alcanzado por los

individuos que conforman el GT puede aproximarse por lo que se conoce como el estimador

estándar del ATT cuya definición es la siguiente:

1 0 (7)

13

donde los valores con circunflejo e representan, respectivamente, los resultados reales

obtenidos por los individuos del GT (W = 1) y los correspondientes a los individuos de la

muestra que conforman el GC (W = 0). De manera análoga se definen los estimadores de los

indicadores ATE y ATU anteriormente explicados15.

La relación entre el estimador estándar del ATT y el verdadero indicador ATT puede obtenerse

de manera sencilla (Angrist y Pischke, 2008, pág. 12). En efecto, dado que, como hemos visto

anteriormente, los resultados reales de un individuo i pueden expresarse en función de los

resultados potenciales:

= Wi Yi1 + (1 –Wi) Yi

0, (8)

la expresión que cuantifica el estimador del ATT puede desarrollarse de la manera siguiente:

(9)

la cual sumando y restando un mismo término se convierte en:

(10)

Y reordenando sus términos en:

(11)

Es decir:

(12)

El estimador estándar del ATT no es otra cosa, por tanto, que la diferencia entre el verdadero

valor del ATT y un término que refleja, como vemos, la diferencia existente entre los

resultados potenciales esperados de los individuos que han experimentado la intervención

frente a los que no han pasado por ella. Este último término es el sesgo de selección (selection

bias). Un valor positivo de este sesgo indica que a priori los resultados potenciales de los

individuos tratados son en media superiores a los de los individuos del GC. En este caso, el

estimador estándar no aproximará correctamente el verdadero efecto del tratamiento

(ATT), sino que ofrecerá una sobreestimación del impacto real provocado por la intervención.

La causa del sesgo reside, por tanto, en la existencia de diferencias entre los individuos del GT

y del GC en características que condicionan los resultados que potencialmente cada uno de

ellos puede obtener. Si éste es el caso, la diferencia entre los resultados medios brutos

obtenidos por cada uno de los grupos no es, por tanto, imputable a la intervención en

cuestión.

15 En lo que sigue centraremos la atención en el ATT, dado que, como explica Heckman (2005) es el que presenta mayor interés en la mayoría de las evaluaciones de impacto.

14

En el caso de que la asignación de los individuos a la intervención evaluada sea aleatoria, el

valor de este sesgo será nulo. Ello se debe a que la asignación aleatoria garantiza que, con la

excepción de la intervención objeto de interés, todos los factores individuales (tanto las

características observables como las no observables) están igualmente distribuidos en la

población. Por ello, en términos medios, los resultados potenciales de los GT y GC en la

población son idénticos. Es lo que, en términos técnicos se denomina igualdad en expectación

entre los grupos (equal in expectation)16. Por esta razón, en los experimentos con asignación

aleatoria, la diferencia entre los resultados medios obtenidos en cada uno de los grupos

(tratados y no tratados) constituye una estimación correcta del verdadero impacto de la

intervención evaluada (Murname y Willett, 2011). Las potenciales explicaciones alternativas de

las diferencias encontradas entre los resultados medios de ambos grupos quedan anuladas por

la dinámica propia del proceso de asignación aleatoria. En estos casos, por tanto, el estimador

constituye una aproximación correcta al efecto medio de la intervención sobre los

individuos sometidos a ella (ATT).

En definitiva, cuando el investigador puede llevar a cabo un experimento con asignación

aleatoria de los participantes al tratamiento evaluado, la evaluación del impacto de dicho

tratamiento se reduce a una mera comparación de resultados medios. Este tipo de

experimentos son, sin embargo, muy difíciles de llevar a cabo en las ciencias sociales y, en

particular, en el ámbito educativo, dados los elevados costes que conllevan así como los

problemas éticos que pueden suscitar17.

Las indudables ventajas de los experimentos en la inferencia causal los han convertido en la

referencia básica de las estrategias de análisis que se han elaborado para obtener

estimaciones no sesgadas de impacto en los estudios que trabajan con datos procedentes de

registros de hechos ocurridos de forma natural. Dichas estrategias tratan de emular las

condiciones ideales de un experimento con asignación aleatoria, es decir, tratan de garantizar

que los resultados potenciales medios antes de la recepción de la intervención evaluada son

los mismos para los individuos tratados y no tratados. Con ello se pretende reducir al mínimo

las amenazas a la validez interna de las estimaciones18 (Campbell, 1957).

De todas las propuestas existentes en la literatura para afrontar el sesgo de selección19 este

trabajo opta por la técnica conocida como Propensity Score Matching (en adelante PSM). En el

apartado siguiente se exponen con detalle la lógica y el método de trabajo de esta

metodología.

16 Es decir, la asignación aleatoria del tratamiento garantiza que: E (Yi

0 I W = 1) = E (Yi0I W = 0) y que E(Yi

1I W = 0)= E(Yi

1I W = 1). Dado que los términos de la derecha de ambas identidades son observables, el problema de estimación del impacto del tratamiento W queda resuelto.

17 El número de experimentos controlados con asignación aleatoria ha experimentado un notable interés en el

sector educativo en la última década. Una muestra de ello es la Ley de Reforma de la Ciencia Educativa aprobada en 2002 por el Congreso de los Estados Unidos que obliga a realizar diseños experimentales y cuasiexperimentales para todo tipo de investigación educativa financiada por el Gobiernos Federal (Angrist y Pischke, 2008).

18 Con este término, ampliamente conocido como confoundedness, se hace alusión al riesgo de que la relación observada entre el predictor de interés y el resultado esté motivada por otras variables y no sea, por tanto, causal. En Shadish et al. (2002, página 55) se presenta una relación de los motivos que pueden amenazar la validez interna de una investigación causal.

19 Véase Guo y Fraser (2010).

15

4.2.‐ Propensity Score Matching (PSM)

Como se acaba de indicar, el desafío principal a que se enfrentan las evaluaciones del impacto

de cualquier intervención pública asignada de manera no aleatoria se concreta en aproximar

un valor creíble del contrafactual para cada uno de los individuos que han sido objeto de la

intervención. La imposibilidad material de disponer del valor del contrafactual teórico

convierte la cuantificación del ATT en un problema de falta de datos (missing values). Desde

esta perspectiva, el reto metodológico a superar se concreta en imputar a cada uno de los

individuos que han recibido la intervención (GT) un valor que refleje adecuadamente el

resultado que habría obtenido en ausencia de la intervención.

A la hora de poner en práctica una estrategia adecuada de imputación de esos valores

perdidos debe tenerse en cuenta que la única información disponible en la base de datos

sobre los resultados alcanzados en ausencia de intervención son los registros correspondientes

a los individuos del GC. Partiendo de esta consideración, el problema a superar se reconduce a

encontrar un procedimiento que permita asignar a cada individuo del GT uno o varios

individuos del GC que sean similares a él en todas las características relevantes en la

determinación del resultado evaluado20. El resultado obtenido por el/los individuo/s de la

submuestra del GC así delimitada constituye una buena aproximación al contrafactual de cada

uno de los individuos tratados, ya que una buena implementación de esta estrategia de

análisis garantiza que los resultados potenciales de los individuos de ambos grupos son

idénticos, es decir, que se cumple lo que se conoce en esta literatura como la hipótesis de

independencia condicional21. La comparación de los resultados obtenidos por los individuos

del GT y los pertenecientes a la submuestra de individuos similares a ellos en el GC puede

considerarse, por ello, que constituye una buena aproximación al impacto del predictor

principal. A continuación, explicaremos como las técnicas de matching y, en particular, el PSM

resultan de una gran utilidad en la identificación de la submuestra de individuos del GC

similares a los pertenecientes al GT y, por tanto, en el cálculo del ATT.

Las técnicas del matching constituyen uno de los tres procedimientos que se han propuesto en

la literatura al objeto de aislar la contribución neta de una variable (una intervención pública,

por ejemplo)22. Esta metodología fundamenta su cálculo del ATT en emparejamientos entre los

individuos del GT y los miembros del GC que presentan un perfil similar en todas aquellas

características observables (X) que son simultáneamente predictores del resultado objeto de

interés (Y) y del predictor principal objeto de estudio (W). En particular, con estos métodos

20 Obviamente lo ideal sería encontrar individuos idénticos en todas las características observables e inobservables, una especie de clones, algo empíricamente imposible. Como veremos, la técnica PSM permite alcanzar un grado importante de similitud en los aspectos observables entre los individuos del GT y del GC. En cuanto al problema de los inobservables, su resolución es más indirecta y pasa por la realización de análisis de sensibilidad ( veánse Altonji et al., 2008 y Rosenbaum, 2002).

21 Esta hipótesis señala que, una vez controladas todas las características observadas relevantes, los individuos sometidos a la intervención tienen en promedio el mismo resultado potencial que los pertenecientes al grupo de

control, es decir que: , 1 , 0 , siendo X el vector de variables observables. Esta

hipótesis es también conocida con el nombre de selección en observables.

22 Las otras técnicas son la regresión convencional y la estratificación (véase Guo y Fraser, 2011, capítulo 3).

16

cada individuo del GT (W = 1) es emparejado con uno o n individuos del GC (W = 0), tomando

como referencia del matching a las variables X. La media de las diferencias del valor real de Y

entre los individuos del GT y la submuestra de miembros del GC que el proceso del matching le

ha asignado constituye en este procedimiento la aproximación al ATT.

Las técnicas matching fundamentan, por tanto, el cálculo del efecto de una intervención en

dos procesos: a) la selección de los miembros del GC equiparables en las características X a los

individuos del GT, b) y la utilización de los valores de Y de esta submuestra del GC como

proxies del contrafactual de los sujetos que pertenecen al GT23.

Dentro de estas técnicas de matching ocupa un lugar preferente el PSM cuyos fundamentos se

encuentran en el trabajo seminal de Rosenbaum y Rubin (1983). La principal ventaja de esta

metodología reside en su capacidad para trabajar con un número de variables de control (X)

muy numeroso. Y es que la probabilidad de encontrar emparejamientos válidos entre el GT y el

CG es inversamente proporcional al número de variables del vector X. Es lo que se conoce

como el problema de la dimensionalidad del matching.

Rosenbaum y Rubin (1983) resolvieron este problema proponiendo una magnitud única, el

propensity score (ps a partir de ahora), sobre la que basar los emparejamientos necesarios

para el cálculo del ATT. El ps no es sino un indicador sintético de la información contenida en

las variables X de control que es calculado mediante un modelo de regresión logística o similar.

Sin embargo, a diferencia de otros indicadores sintéticos, como los resultantes del análisis

discriminante, el ps, lejos de ser un constructo estadístico carente de contenido, tiene un

significado muy claro. Y es que el ps no es sino la probabilidad condicional de participar en la

intervención evaluada que tiene cada individuo de la muestra, dadas sus características

observables X, es decir:

ps = P(W = 1 l X) (13)

Este significado confiere al ps un valor especial para de abordar la corrección del sesgo de

selección. En efecto, como ha sido destacado anteriormente, la identificación de un

contrafactual empírico válido requiere que los individuos del GT y GC presenten un algo grado

de similitud en las características individuales que afectan a los resultados. Sólo de esta

manera, puede garantizarse que las diferencias de resultados entre ambos grupos no están

contaminadas por las diferencias en las características observables de los miembros de cada

grupo. O, dicho de otra manera, que se cumple la hipótesis de independencia condicional

anteriormente aludida. En este sentido, el cálculo de la ps permitirá identificar las X que

determinan la participación en la intervención y que además influyen en la determinación del

resultado de interés (Y), es decir, las variables que pueden causar el sesgo de selección. La

comparación de los resultados obtenidos por los individuos del GT y GC que presentan valores

similares del ps no estará afectada, por tanto, por este sesgo.

La clave del funcionamiento del PSM reside, por tanto, en la realización de un buen matching,

es decir en encontrar a individuos del GC con una ps altamente similar a la de los individuos del

23 Es por ello que estas técnicas son en ocasiones consideradas como un método de remuestreo (véase Murname y Willett (2011).

17

GT. Dicho en términos formales, el reto de esta técnica reside en encontrar i W = 1 un

(unos) j W = 0 tal que Pi(W = 1) Pj(W = 0). Ello requiere que: P (W =1 l X) < 1 y P (W =1 l X) >

0 X, ya que es justamente el cumplimiento de estas dos relaciones lo que garantiza que en

los dos grupos (GT y GC) existen individuos similares en las características observables (es lo

que se conoce como hipótesis de soporte común). En efecto, si para alguna variable X el valor

de la ps es la unidad (P(W=1 l X) = 1), ello indicaría que todos los individuos que tienen un valor

idéntico en esa variable pertenecen al GT, es decir, que en la muestra de individuos del GC no

se localiza ningún individuo con esa característica que pueda ser emparejado alguno del GT. En

este caso, la estimación del ATT no podrá ser llevada a cabo con éxito. Análogo es el

razonamiento si P(W=1 l X) = 024.

Una vez seleccionada la submuestra de individuos comparables, el paso siguiente del PSM se

concreta en calcular el estimador del ATT el cual queda definido como:

(14)

donde el subíndice match indica que las estimaciones se refieren a la submuestra delimitada

mediante el PSM.

De esta manera se obtiene una estimación del efecto de la intervención W sobre los resultados

de interés (Y) liberada del problema del sesgo de selección. En efecto, en la medida en que los

sujetos que conforman la muestra matcheada son similares en todas las características (X) que

influyen simultáneamente en el resultado de interés (Y) y en la participación en la

intervención, se elimina el riesgo de que las diferencias entre los resultados del GT y del GC

sean debidas a diferencias sistemáticas en variables observables entre los dos grupos.

4.3.‐ Modelos lineales jerárquicos (HLM)

Como se acaba de indicar, la aplicación del PSM permite disponer de unas estimaciones

depuradas del ATT con respecto a las variables observables (X) que distinguen a los miembros

del GT y el GC y son potencialmente relevantes en la determinación del resultado de interés

(Y).

Sin embargo, las influencias potenciales sobre los resultados educativos abarcan,

habitualmente, más variables de las que influyen de manera simultánea en la participación en

una intervención educativa concreta, es decir, de aquéllas consideradas en la construcción del

ps. Dada esta situación, el cálculo del efecto neto de una intervención, como W, en el contexto

educativo precisa que se contraste la influencia de esos otros factores (X’) que son

potencialmente importantes en la determinación de Y. Para ello es fundamental llevar a cabo

un análisis post matching. Tres tipos de influencias merecen atención: características de las

escuelas en que se han formado los individuos, atributos de los estudiantes no incorporados al

cómputo del propensity score y diferencias entre los individuos del GT y GC en variables no

observables.

24 Lockwood Reynolds (2012) apuntan que el cumplimiento de P (W =1 l X) > 0 sólo es necesario cuando el objeto de cálculo es el ATE pero no cuando el objetivo de la investigación es, como en nuestro caso, el cómputo del ATT.

18

El contraste de la relevancia de los dos primeros aspectos puede ser llevado a cabo mediante

un modelo de regresión sobre la muestra matcheada. En efecto, en la medida en que la

submuestra delimitada mediante el PSM no se ve afectada por el problema del sesgo de

selección que afectaba a la muestra original, el análisis de regresión resulta ahora pertinente a

la hora de identificar el efecto de la intervención W sobre los resultados25.

De entre todos los modelos de regresión disponibles, los que mejor se adaptan a la estructura

de los datos suministrados por la Evaluación de Diagnóstico son los modelos jerárquicos

lineales o modelos multinivel (HLM, a partir de ahora)26. Su principal ventaja en el contexto

que nos ocupa es que permiten diferenciar las influencias que actúan a nivel de alumno

(primer nivel de análisis) de las que actúan a nivel de escuela y clase (segundo y tercer nivel).

Se trata, por tanto, de modelos especialmente adecuados para trabajar con datos anidados en

varios niveles, como los suministrados por la práctica totalidad de bases de datos educativas.

Estos modelos permiten analizar simultáneamente variables de diferentes niveles (individuos,

clases y escuelas, por ejemplo) e identificar la proporción de la varianza total de un resultado

que es atribuible a cada uno de los niveles especificados. En términos analíticos la ecuación de

nivel 1 viene dada por:

∑ ~ 0, (15)

donde es el resultado esperado del individuo i en la clase j de la escuela k; es una

variable explicativa p de nivel 1 para el individuo i de la clase j de la escuela k, son los

coeficientes de nivel 1 (p=0,1,…,P) y es el efecto aleatorio de nivel 1 para el que se asume

que sigue una distribución normal. A nivel 2 (clases), los coeficientes son tratados como

variables a estimar, por lo que tenemos:

∑ (16)

donde (q=0,1,…,Qp) son los coeficientes de nivel 2, es un predictor de nivel 2 y

es un efecto aleatorio. Asumimos que, para cada unidad j, el vector ( , , … , )’ se

distribuye según una normal multivariante donde cada elemento tiene una media de cero y

una matriz de covarianzas Τ con una dimensión máxima (P+1)x(P+1). Cada uno de los

coeficientes de nivel 2, , se convierte en las variables a explicar a nivel 3:

∑ (17)

donde (s=0,1,…,Spq) son los coeficientes de nivel 3, es un predictor de nivel 3 y

es un efecto aleatorio de nivel 3. Asumimos que el vector de efectos aleatorios se distribuye

25 Ello se debe a que una vez eliminado el sesgo de selección debido a observables, puede asumirse que los residuos de la regresión son independientes del tratamiento evaluado. Persiste en todo caso, la amenaza de que los individuos del GT y del GC difieran en características no observables. El análisis de esta cuestión va, en todo caso, más allá de los límites de esta comunicación, si bien pretende llevarse a cabo en un trabajo posterior. Posibles correcciones de esta problemática pueden verse en Caliendo y Kopeinig (2008).

26 Bryk and Raudenbusch (1988). Aplicaciones de esta metodología al contexto educativo pueden verse en Willms (2006), Somers et al (2004) y Mancebón et. al (2012), este último aplicado a datos españoles procedentes de PISA 2006.

19

como una normal multivariante donde cada elemento tiene una media de cero y una matriz de

covarianzas Τ con una dimensión máxima:

∑ 1 ∑ 1 . (18)

5.‐ Resultados

En esta sección se recogen los principales resultados obtenidos del análisis empírico realizado.

En primer lugar, se comentan las estimaciones obtenidas de la aplicación del PSM. A

continuación, expondremos las principales aportaciones a estas estimaciones que nos ofrece la

aplicación de los modelos lineales jerárquicos.

5.1.‐ Resultados del PSM

La estrategia de estimación del PSM se concreta, como se explicó en la sección anterior, en

encontrar un grupo de estudiantes de la escuela pública que sea comparable con los

estudiantes que asisten a una escuela concertada en todas aquéllas variables que

potencialmente pueden condicionar la elección de colegio y la obtención de buenas

puntuaciones en las competencias evaluadas en la Evaluación de la Diagnóstico. Para ello, se

debe estimar, en primer lugar, la ecuación de selección, es decir, la ecuación que permite

predecir el propensity score (ps) y, a continuación, equilibrar las muestras de alumnos

pertenecientes a los GT y GC en este indicador. La estimación de la ecuación de selección tiene

una importancia decisiva, ya que del atino en su especificación depende la obtención de

estimaciones creíbles y no sesgadas del impacto de la intervención evaluada. Un punto crucial

en la especificación de esta ecuación es considerar como predictores todas aquellas variables

que simultáneamente pueden influir en la elección de escuela y en la obtención de los

resultados evaluados (Caliendo y Kopeinig, 2008). La literatura econométrica ofrece diversos

métodos de estimación de la probabilidad condicional de recibir un tratamiento (en nuestro

caso, de asistir a un colegio concertado): regresión logística, modelos probit y análisis

discriminante (Guo y Fraser, 2011, pág. 135). Aunque la mayoría de los estudios empíricos

suelen hacer uso de modelos probit para estimar el ps, en nuestro trabajo hemos optado por

utilizar un modelo de regresión logística. Para especificar el modelo, se ha optado por utilizar

un GBM (boosted generalized regression), ya que su aplicación permite obviar el problema de

especificación de la forma funcional y capturar efectos no lineales entre los predictores

(McCaffrey, 2004). Por otra parte, el funcionamiento del algoritmo iterativo en que se basa

este método de estimación permite alcanzar estimaciones del ps que equilibran las

características observables de los grupos de individuos tratados (GT) y de control (GC)27, lo que

tiene un especial valor cuando el GBM se utiliza en el contexto del PSM, dado que el fin último

de éste es, como ya se ha explicado, equilibrar las muestras de ambos grupos de individuos en

las variables observables que influyen en el resultado objeto de evaluación. En este sentido, el

27 Ello se debe a que el ajuste que suministra es el que hace mínima la diferencia estándar de las medias de los predictores (ASAM) entre los individuos del GT y GC.

20

GBM constituye un método robusto de estimación de la ecuación de selección (Chowa et at.,

2012).

A la hora de interpretar los resultados que ofrece esta estimación debe tenerse en cuenta que

los modelos GBM no suministran coeficientes equivalentes a los de una regresión

convencional (s). Sus parámetros reflejan la influencia de cada predictor sobre el ps, es decir,

la contribución de cada variable a la explicación de la probabilidad condicionada de asistir a un

colegio concertado28.

Tabla 2. Results from GBM and estimation parameters

Variable Influence

JobMum2 1.76

JobMum2 1.23

JobMum4 2.73

JobDad2 2.84

JobDad3 6.76

JobDad4 1.01

YearsMum 16.02

YearsDad 21.08

ZonaGeo1 0.98

ZonaGeo2 0.76

ZonaGeo3 2.08

ZonaGeo4 2.07

ZonaGeo5 0.57

NumBooks 1.91

Habitacion 5.99

NumTVs 6.57

NumPCs 4.51

NumTvPag 3.58

NumConso 9.36

NumMP4 8.20

Best num iterations 16453.00

Train R2 0.084

Test R2 0.045

% correct prediction 68.4%

Train fraction 0.5

Bag 0.5

Shrinkage factor 0.0005

Distribution Logistic

Max num interactions 4

Max num iterations 20000

Seed 0

28 La especificación de este modelo tomó como referencia aquéllas variables de la base de datos que, a la luz de la

evidencia empírica previa sobre los determinantes de la elección de centro y sobre los determinantes de los resultados escolares, podían afectar simultáneamente a la elección de escuela concertada y al rendimiento escolar. Por tanto, al especificar la ecuación de selección no se tomaron en consideración ni las variables que potencialmente pueden contribuir a explicar las diferencias en las competencias cognitivas evaluadas en la prueba de diagnóstico, pero que no influyen en la elección de centro (los hábitos de estudio, por ejemplo), ni aquéllas que pudiendo ser determinantes de esa elección no influyen en las citadas competencias (la distancia al centro, por ejemplo). Este criterio es el recomendado unánimemente por toda la literatura especializada sobre el PSM.

21

La tabla 2 recoge los resultados de la estimación de la ecuación de selección, que permite

predecir un valor del ps para cada uno de los individuos de la muestra, lo que permitirá

acometer la segunda fase del PSM: la búsqueda de los emparejamientos óptimos entre los

individuos del GT y GC. Se observa que las variables que acaparan mayor grado de influencia

en la probabilidad de asistir a centro concertado son los años de estudio de las madres y

padres (16 y 21%, respectivamente), seguidos por las variables que aproximan el grado de

posesiones en el hogar. La influencia del trabajo de los padres también es importante. Las

dummies que aproximan el empleo de la madre suman un 5,7% y las del padre un 10,6%.

Aunque el R2 obtenido es bajo, en estos modelos es más importante el porcentaje de

predicciones correctas del modelo estimado, que en nuestro caso alcanza prácticamente un

70%, lo que se considera en la literatura un grado de fiabilidad bastante elevado. La última

parte de la tabla muestra varios parámetros utilizados en la estimación de los modelos gbm. En

las estimaciones se han eliminado aquellos individuos con datos missing en las variables,

siguiendo un procedimiento case‐wise deletion. En una fase posterior del trabajo, se replicarán

los análisis realizando previamente una imputación de los valores faltantes ya que éstos

pueden implicar un sesgo de las estimaciones realizadas sin imputar debido a que los valores

faltantes no estén distribuidos aleatoriamente.

Las figuras 1 y 2a muestran la distribución de los propensity scores estimados para los

individuos de centros públicos y concertados. Se observa claramente, tanto en el boxplot como

en el gráfico de la distribución, que existe una amplia zona de soporte común. Es decir, que

individuos del GT tienen individuos del GC con los que poder compararse por tener el mismo

ps.

Figura 1. Boxplot ps score

22

Figura 2. Ps score kernels

a. Full sample b. Matched sample

Una vez estimado el propensity score, se realiza el proceso de matching, que puede llevarse a

cabo mediante diferentes algoritmos: greedy matching, optimal matching y fine balance (Guo

y Fraser, 2011). En nuestro trabajo hemos optado por el primero de ellos, el cual puede

aplicarse mediante diversas variantes (Smith y Tood, 2005). Los dos algoritmos más

ampliamente utilizados en la literatura son el nearest neighbor matchig (vecino más próximo, a

partir de ahora NNM), que admite a su vez diversas variantes, y los métodos basados en kernel

(MK, a partir de ahora). El primero de ellos empareja cada individuo del GT con aquél/aquéllos

del GC que tenga/n el valor del ps más próximo. El kernel matching es un estimador de

matching no paramétrico que construye para cada individuo del GT un individuo ficticio de

comparación con una media ponderada de todas las unidades del GC, utilizando las mayores

ponderaciones para las unidades con ps más parecido al del que se compara. En nuestro

trabajo se aplicaron los dos algoritmos citados y varias de las opciones de las que admite el

NNM (con y sin reemplazamiento, con caliper y sin caliper, 1 a 1, 1 a 2 y 1 a 3). El MK fue, a su

vez, aplicado con diferentes bandwiths. Con ello se pretende contrastar la sensibilidad del

matching a las diferentes propuestas de estimación.

En esta comunicación optamos por el MK con tipo de kernel Epanechnikov con un bandwidth

de 0.03, ya que da el emparejamiento que logra la mayor reducción en los sesgos. La muestra

se ve reducida únicamente en 9 individuos del GC, que desaparecen ya que no son

emparejados con ningún individuo del GT. Los restantes individuos del GC reciben un peso en

función del número de veces que se utilizan para ser emparejados con individuos del GT. Este

peso deberá ser utilizado en los análisis posteriores. La figura 2b muestra la distribución de los

ps en la muestra emparejada. Se observa que hay un solapamiento casi perfecto entre la

distribución para los centros públicos y concertados, lo que nos da idea de que se cumple el

objetivo para el cual se utiliza el PSM, conseguir dos muestras comparables. La figura 3

muestra por bloques el emparejamiento realizado entre estudiantes de centros públicos y

concertados.

La tabla 3 muestra la comparación de los resultados en inglés y medio físico para la muestra

completa y la emparejada (ATT). Los resultados muestran un efecto positivo de los colegios

concertados sobre los resultados alcanzados por los estudiantes en las pruebas de diagnóstico

de las competencias científicas y de lengua extranjera‐inglés. En todo caso, en la medida en

23

que las únicas variables tomadas en consideración en el cálculo del estimador ATT que

suministra el PSM son aquéllas que influyen en la elección de centro, una estimación más

precisa del efecto precisa de la incorporación de otros predictores que pueden influir de

manera independiente en la determinación de las puntuaciones alcanzadas por los

estudiantes. Para ello, se llevó a cabo un análisis post matching cuyos resultados se exponen a

continuación.

Figura 3. Propensity score matching blocks

Tabla 3. Two‐Group t‐Test

Variable Sample Treated Controls Difference S.E. T‐stat

Medio físico Unmatched 526.27 501.97 24.30 2.43 9.99

ATT 526.27 519.15 7.11 2.72 2.62

Inglés Unmatched 531.50 499.18 32.32 2.40 13.49

ATT 531.50 518.97 12.53 2.68 4.68

La tabla 4 muestra las diferencias en medias en los ps y covariates para la muestra completa y

la muestra emparejada, así como la reducción en el sesgo conseguida en el emparejamiento.

La figura 4 muestra gráficamente el sesgo pre y post matching para cada una de las variables.

Tal como muestra la tabla 4, la muestra total no está balanceada para prácticamente ninguna

variable (excepto ZonaGeo3) ya que todas muestran diferencias significativas entre centros

públicos y concertados. Si estas diferencias no son tenidas en cuenta en la inferencia causal del

tipo de centro en los determinantes del rendimiento académico, los resultados pueden estar

sesgados. Esta tabla también ilustra cómo de bueno es el emparejamiento en la reducción del

sesgo entre grupos comparando las medias y observando el porcentaje de reducción del sesgo.

Se observa que en la muestra emparejada las variables no muestran diferencias significativas

entre centros públicos y concertados. El porcentaje de sesgo para cada variable se ha reducido

en gran medida, estando ahora en casi todos los casos por debajo del 5%. La figura 4 muestra

de una manera muy clara y gráfica la reducción en estos sesgos. Los círculos representan los

sesgos entre centros públicos y concertados en la muestra antes del emparejamiento,

mientras que las cruces representan los sesgos en las variables entre centros para la muestra

emparejada. Se observa claramente que las cruces se distribuyen cercanas a cero, mientras

que los círculos presentan valores bastante más elevados en bastantes de los casos.

24

Tabla 4. Diferencias en medias por tipo centro de las variables en las muestras pre y post

matching y reducción del sesgo.

Mean %reduct t‐test

Variable Treated Control %bias |bias| t p>|t|

Propensity score Unmatched 0.47 0.40 60.8 24.87 0.00

Matched 0.47 0.47 0.9 98.5 0.32 0.75

JobMum1 Unmatched 0.37 0.24 29.7 12.15 0.00

Matched 0.37 0.37 0.7 97.6 0.26 0.80

JobMum2 Unmatched 0.39 0.42 ‐5.4 ‐2.20 0.03

Matched 0.39 0.40 ‐2.0 62.5 ‐0.77 0.44


Matched 0.03 0.03 ‐1.7 77.5 ‐0.71 0.48


Matched 0.21 0.20 2.3 89.6 0.93 0.36

JobDad1 Unmatched 0.49 0.31 36.7 14.98 0.00

Matched 0.49 0.50 ‐1.2 96.8 ‐0.44 0.66

JobDad2 Unmatched 0.23 0.26 ‐6.5 ‐2.61 0.01

Matched 0.23 0.24 ‐2.0 68.8 ‐0.77 0.44


Matched 0.23 0.21 3.4 87.8 1.38 0.17


Matched 0.05 0.05 ‐0.3 97.2 ‐0.13 0.90

YearsMum Unmatched 12.34 10.78 33.9 13.66 0.00

Matched 12.34 12.49 ‐3.2 90.7 ‐1.26 0.21

YearsDad Unmatched 12.34 10.78 33.5 13.53 0.00

Matched 12.34 12.47 ‐2.9 91.4 ‐1.13 0.26

ZonaGeo1 Unmatched 0.91 0.84 21.0 8.36 0.00

Matched 0.91 0.91 0.9 95.8 0.38 0.70

ZonaGeo2 Unmatched 0.00 0.01 ‐9.3 ‐3.65 0.00

Matched 0.00 0.00 1.0 89.4 0.60 0.55


Matched 0.01 0.00 2.1 ‐101.6 0.89 0.37


Matched 0.03 0.04 ‐2.5 80.9 ‐1.06 0.29


Matched 0.04 0.04 0.2 97.8 0.10 0.92


Matched 0.01 0.01 ‐0.7 91.8 ‐0.30 0.76

NumBooks Unmatched 0.60 0.50 18.7 7.56 0.00

Matched 0.60 0.61 ‐2.0 89.4 ‐0.76 0.45

Habitacion Unmatched 0.96 0.94 8.1 3.23 0.00

Matched 0.96 0.96 ‐1.2 84.9 ‐0.51 0.61

Internet Unmatched 0.88 0.84 12.7 5.06 0.00

Matched 0.88 0.89 ‐3.4 73.4 ‐1.40 0.16

NumTVs Unmatched 2.15 2.08 9.8 3.96 0.00

Matched 2.15 2.15 0.8 92.1 0.30 0.77

NumPCs Unmatched 1.63 1.49 17.2 6.97 0.00

Matched 1.63 1.66 ‐4.1 76.2 ‐1.56 0.12

NumTvPag Unmatched 0.46 0.43 4.5 1.82 0.07

Matched 0.46 0.48 ‐3.4 24.1 ‐1.24 0.21

NumConso Unmatched 1.82 1.66 16.3 6.62 0.00

Matched 1.82 1.84 ‐1.9 88.6 ‐0.71 0.48

NumMP4 Unmatched 1.11 0.93 18.3 7.47 0.00

Matched 1.11 1.14 ‐3.0 83.4 ‐1.11 0.27

Abs(bias) Unmatched 17.7 617.20 0.00

Matched 1.9 31.47 0.09

25

Figura 4. Sesgos entre centros públicos y concertados pre y post matching

La figura 5 muestra la distribución de las variables utilizadas en el PSM por tipo de centro para

la muestra completa (figuras de la izquierda) y la muestra emparejada (figuras de la derecha).

En éstas últimas se observa claramente que la muestra emparejada contiene distribuciones de

las variables mucho más próximas, en muchos casos prácticamente idénticas, entre los dos

tipos de centros.

Figure 5. Distribución de las variables en las muestras completa y emparejada

Mother’s education (years) Full sample Matched sample

Father’s education (years) Full sample Matched sample

26

Mother’s Job Full sample Matched sample

Father’s Job Full sample Matched sample

Place of birth Full sample Matched sample

Number of books at home Full sample Matched sample

27

Own room to studyFull sample Matched sample

Number of Tv sets at home Full sample Matched sample

Number of PCs at home Full sample Matched sample

Number of Pay TVs at home Full sample Matched sample

28

Number of Game Consoles at homeFull sample Matched sample

Number of MP4s at home Full sample Matched sample

5.2.‐ Resultados del HLM

La delimitación de las dos submuestras de individuos comparables del GT y GC que suministra

el PSM permite eliminar de la muestra el sesgo de selección causado por las variables

observables. Sin embargo, y en la medida en que las competencias de los alumnos pueden

venir explicadas por otras variables observables no tenidas en cuenta en la estimación del

propensity score, una estimación más depurada del impacto de la asistencia a centro

concertado sobre las puntuaciones obtenidas por los estudiantes en la ED requiere que se

realice un análisis post matching. En esta sección se explican los resultados obtenidos de la

aplicación de modelo de regresión lineal jerárquico a los datos de las dos submuestras de

individuos del GT y GC obtenidas mediante el PSM.

Este tipo de modelos resultan muy pertinentes cuando los datos disponibles presentan, como

en nuestro caso, una estructura jerárquica, ya que, en estos casos, no se cumple el supuesto

de independencia de las variables entre las diferentes jerarquías a las que pertenecen los

individuos. En nuestro estudio, la información que suministra la Evaluación de Diagnóstico se

refiere a estudiantes que están anidados en clases que, a su vez, están anidadas en escuelas29.

Por ello, previsiblemente las características y resultados de los estudiantes que pertenecen a

diferentes clases y escuelas serán distintas y la correlación intragrupos también (Hox, 1995).

29 En nuestro caso se han estimado tanto el modelo a dos niveles (estudiantes‐escuelas) como el modelo a 3 niveles (estudiantes‐clases‐escuelas) con fines de comparación. Inicialmente podría considerarse como más adecuado el modelo a tres niveles ya que los peer effects quedarían mejor recogidos si disponemos de información a nivel de clase. Sin embargo, como se explica en el texto a para la competencia lingüística en inglés es más adecuado el modelo a 2 niveles.

29

Esta consideración, junto con el hecho de que en el modelo de 3 niveles la correlación

intraclases (ICC)30 de las competencias científicas y lingüísticas en inglés arroja unos valores de

12,3% y 4,0% para el nivel clase (nivel 2) y de 18,9% y 32,9% para el nivel escuela (nivel 3),

respectivamente, nos llevó a aplicar inicialmente un modelo HLM en tres niveles, siendo el

nivel 1, como es habitual, el estudiante31. Las tablas 5 y 6 muestran estas ICCs para los modelos

de 2 niveles y 3 niveles, respectivamente.

Además, HLM permite la identificación de la proporción de la varianza total en el resultado

académico que es atribuible a las variables, tanto a globalmente como por niveles. Los

resultados muestran que en las competencias científicas el modelo a tres niveles funciona

mejor que el de dos (el porcentaje de explicación de la varianza por parte de las variables

incorporadas es mayor, 25,3% frente a 23,5%). En las competencias lingüísticas en lengua

inglesa ocurre lo contrario. Mientras el modelo a dos niveles explica un 32,5 % de la varianza

total de los resultados, el modelo a tres niveles explica un 31,5%). Esta diferencia es

consistente con el hecho, como se muestra en la tabla 6, de que el porcentaje de la varianza

explicada por las variables a nivel de clase para inglés es negativo. Esto indica que al incluir las

variables, la varianza de los resultados a explicar ha aumentado frente al modelo nulo en el

cual no se incluía ninguna variable. Por lo tanto, para la competencia en lengua inglesa el

modelo HLM más adecuado será el de 2 niveles.

Estos primeros resultados nos llevan a seleccionar un modelo HLM en tres niveles para explicar

las competencias en medio físico y un modelo a dos niveles para explicar las competencias

lingüísticas en inglés. Los modelos fueron estimados imponiendo efectos fijos a los parámetros

(con excepción del término independiente), al rechazarse la hipótesis nula de que existieran

efectos aleatorios estadísticamente significativos. Por ello las ecuaciones (15)‐(17) pueden

expresarse ahora como32:

∑ (19)

∑ (20)

0 (21)

∑ (22)

00 (23)

30 La correlación intraclases es la proporción de la varianza total explicada por las diferencias entre clases (nivel 2) y entre escuelas (nivel 3). Si la ICC fuera cero el modelo HLM no sería necesario, ya que en este caso la varianza total en los resultados no quedaría explicada por las diferencias existentes entre los alumnos que asisten a distintas clases y/o escuelas.

31 Bryk y Raudenbusch (1988) recomiendan el uso de este tipo de modelos con carácter general en el análisis de los efectos de las escuelas sobre los resultados educativos.

32 En el caso del modelo a 2 niveles no se incluirían las ecuaciones (22) y (23)

30

Tabla 5. Multilevel regression: random effects (2‐levels)

Medio físico Inglés

Null model

Complete model

Null model

Complete model

Schools 2661.88 2393.96 3373.56 2172.77

Students 7470.67 5354.93 6466.98 4466.59

Total 10132.55 7748.90 9840.55 6639.36

ICC 26.3% 34.3%

% of total variance explained by variables

23.5%

32.5%

% of level 1 (students) variance explained by variables

28.3%

30.9%

% of level 2 (schools) variance explained by variables

10.1% 35.6%

Tabla 6. Multilevel regression: random effects (3‐levels)

Medio físico Inglés

Null model

Complete model

Null model

Complete model

Schools 1805.91 1639.54 3128.13 2061.81

Classes 1169.27 949.38 379.75 439.40

Students 6554.70 4528.35 5993.29 4010.39

Total 9529.88 7117.27 9501.16 6511.61

ICC(3) 18.9% 32.9%

ICC(2) 12.3% 4.0%

% of total variance explained by variables

25.3%

31.5%

% of level 1 (students) variance explained by variables

30.9%

33.1%

% of level 2 (classes) variance explained by variables

18.8%

‐15.7%

% of level 3 (schools) variance explained by variables

9.2% 34.1%

Las variables dependientes en la regresión son las puntuaciones alcanzadas por los estudiantes

de primaria de Aragón en las pruebas de evaluación de las competencias objeto de análisis en

la Evaluación de Diagnóstico de 2010: conocimiento científico e interacción con el mundo físico

y comunicación lingüística inglés. Los predictores de la regresión y resultados del HLM se

detallan en la tabla 7 agrupados por niveles. La parte izquierda de la tabla presenta los

resultados del modelo de 2 niveles, tanto para medio físico como para inglés, si bien ya se ha

comentado que este modelo lo consideramos más adecuado para la competencia en lengua

inglesa. La parte izquierda presenta los resultados para el modelo de 3 niveles, más adecuado

para la estimación de los determinantes del resultado en medio físico.

El predictor más relevante para nuestro estudio es el del efecto del tipo de centro en las

competencias estudiadas. Se observa que este efecto es positivo y significativo para medio

físico, mientras que para inglés no es estadísticamente significativo. El coeficiente estimado

para tipo de centro en medio físico es de 22 puntos, lo que indica que un estudiante que tenga

31

el resto de características idénticas tiene una puntuación en esa competencia de 22 puntos

superior en un centro concertado que en uno público.

El tamaño de la localidad y la asistencia a un centro de la ciudad de Zaragoza tienen un efecto

significativo para la competencia en inglés. El efecto neto de la asistencia a un centro

localizado en la ciudad de Zaragoza es +15,16 puntos (Población de Zaragoza x _

). Este resultado viene explicado por el mayor esfuerzo que en los últimos

años se ha realizado en programas de bilingüismo, que han estado centrados especialmente en

la ciudad de Zaragoza.

Se observa que no existen peer effects para los estudiantes de cuarto de primaria. Únicamente

la media de años de estudio de las madres a nivel de centro tiene efectos positivos y

significativos sobre la competencia de inglés.

Las variables a nivel de estudiante muestran resultados habituales en la literatura sobre los

determinantes del rendimiento educativo. Las niñas obtienen mejores resultados en la

competencia de inglés, mientras que los niños destacan en medio físico. La ocupación y nivel

de estudios de los padres tienen el efecto esperado. A mayor nivel ocupacional y educativo (en

este último caso el relevante es el de la madre), mejores resultados escolares en ambas

competencias. En el caso de la variable que aproxima el efecto de la inmigración (residencia en

España superior a 5 años) el efecto es el esperado en las competencias científicas (positivo y

significativo), mientras que es negativo (aunque no significativo) en las competencias en

lengua inglesa. Ello podría ser indicativo de la mayor facilidad que pueden tener los alumnos

de procedencia extranjera para adaptarse a nuevos entornos lingüísticos. Otra variable que

presenta el efecto esperado es el número de libros existente en el hogar: los hogares que

manifiestan disponer de más de 100 libros inciden positivamente en la adquisición de

competencias educativas. A este resultado hay que sumar un efecto positivo y

estadísticamente significativo de los libros por parte del niño: los alumnos que manifiestan

utilizar con frecuencia libros de lectura, muestran unos mejores resultados académicos.

De los diferentes ítems utilizados en la ED para aproximar la riqueza familiar sólo en número

de televisiones en casa demuestra influir de manera significativa en los resultados (influencia

negativa)

El efecto mostrado por el tiempo de dedicación a las tareas escolares fuera del colegio influye

negativamente en el rendimiento. Los niños que declaran dedicar más de dos horas diarias a

estas tareas muestran peores resultados que aquellos que dedican menos de 2 horas. Los

“deberes” no parecen constituir una buena estrategia de estímulo de las capacidades de los

niños de 10 años. Otra posible interpretación de este efecto podría ser que los niños que

dedican más tiempo al trabajo escolar fuera de las aulas, sean aquellos que tienen más

dificultades en el aprendizaje. Una misma interpretación merecen los resultados que

presentan las variables ayuda en el estudio y revisión de las tareas por parte de padres o

profesores particulares.

La actitud, aproximada por la variable “realizo las tareas”, muestra un efecto positivo en

ambas competencias, pero no significativo en inglés. En el caso de la aptitud, aproximada por

32

la variable “tengo bien los deberes cuando los corregimos en clase”, presenta a su vez un

efecto positivo en los resultados.

Adicionalmente, la regresión incorpora información sobre tres factores extraídos de un análisis

de factores principales aplicado a los datos del cuestionario de entorno escolar que completan

los niños evaluados. El primer factor contiene información sobre la valoración que hace el niño

de su centro escolar (el centro tiene actividades culturales y deportivas, uso la biblioteca del

centro, las instalaciones están bien cuidadas, etc.). El factor 2 sintetiza la información que

ofrecen variables relacionadas con la autopercepción de sus capacidades académicas

(comprendo lo que leo, me expreso bien, redacto correctamente, se me dan bien los idiomas,

etc.). El factor 3, finalmente refleja las percepciones subjetivas del ambiente escolar (hay un

buen ambiente en mi clase, mis compañeros se ayudan entre sí, me llevo bien con mis

profesores, los profesores nos animan, etc). Los resultados varían en función de la

competencia evaluada. Mientras que en inglés el factor 1 presenta un efecto positivo y

significativo, en medio físico el efecto es negativo pero no significativo. Los otros dos factores

influyen de manera estadísticamente significativa en ambas competencias. La autoconfianza

(factor 2) de manera positiva, mientras que la percepción del ambiente escolar (factor 3) lo

hace de manera negativa.

Tabla 7. Estimation of fixed effects with robust standard error in the HLM

Modelos 2 niveles Modelos 3 niveles

School variables (Level 2) Medio físico Inglés School variables (Level 3) Medio físico Inglés

Intercept 474.33 *** 976.69 *** Intercept 517.63 *** 964.42 ***

(167.3) (192.4) (172.9) (192.1)

SCHTYPE 19.29 ** 7.57 SCHTYPE 22.68 *** 19.77 ***

(8.1) (7.6) (7.8) (7.9)

Prov. Teruel 4.95 11.97 Prov. Teruel 2.77 9.1

(11.1) (17.2) (12.0) (17.6)

Prov. Zaragoza ‐10.43 12.27 Prov. Zaragoza ‐10.44 4.73

(16.7) (14.9) (16.1) (15.1)

TAM_LOC 0.0 0.00 *** TAM_LOC 0.00 0.00 ***

(0.0) (0.0) (0.0) (0.0)

Zaragoza capital 21.62 ‐813.51 *** Zaragoza capital ‐41.17 ‐851.53 ***

(279.4) (315.8) (290.4) (319.9)

Class variables (Level 2)

PCTGIRLS ‐34.03 7.52 PCTGIRLS ‐32.34 22.2

(37.1) (36.1) (43.9) (24.3)

PCTREPET ‐71.97 54.86 PCTREPET 6.8 32.78

(52.9) (74.3) (53.9) (43.8)

PCTMAS5Y 25.15 51.11 PCTMAS5Y ‐21.14 ‐32.33

(52.3) (43.2) (45.3) (46.4)

PJOBMUM1 30.03 49.56 PJOBMUM1 10.62 64.53 ***

(49.3) (49.2) (23.6) (21)

PJOBMUM2 17.59 ‐30.19 PJOBMUM2 ‐4.01 36.81 *

(43.2) (37.6) (25.8) (21.9)

PJOBMUM3 24.21 ‐86.35 PJOBMUM3 ‐85.6 2.84

(99.5) (90.0) (64.4) (50.5)

MYEARMUM 0.10 8.43 ** MYEARMUM 1.19 2.34

(3.8) (3.9) (3.2) (2.3)

Student variables (Level 1) Student variables (Level 1)

GENERO ‐11.88 *** 20.3 *** GENERO ‐11.19 *** 20.45 ***

(2.5) (2.4) (2.4) (2.4)

33

REPETID ‐29.61 *** ‐39.73 *** REPETID ‐28.72 *** ‐39.88 ***

(6.0) (6.1) (6.2) (5.8)

JOBMUM1 11.11 *** 11.13 *** JOBMUM1 11.52 *** 11.22 ***

(4.4) (3.9) (4.3) (3.8)

JOBMUM2 1.01 0.88 JOBMUM2 1.15 ‐0.13

(3.6) (3.2) (3.5) (3.1)

JOBMUM3 ‐2.33 2.05 JOBMUM3 0.2 0.73

(7.7) (9.0) (7) (8.3)

JOBDAD1 ‐0.44 9.19 * JOBDAD1 1.6 10.25 *

(6.6) (5.4) (6.5) (5.5)

JOBDAD2 ‐3.6 1.71 JOBDAD2 ‐2.01 1.84

(6.5) (5.6) (6.6) (5.8)

JOBDAD3 ‐0.96 3.4 JOBDAD3 1.24 3.54

(6.2) (5.1) (6.2) (5.1)

YEARSMUM 1.54 *** 1.42 *** YEARSMUM 1.47 *** 1.33 ***

(0.3) (0.3) (0.3) (0.3)

MAS5YEAR 16.57 *** ‐8.94 MAS5YEAR 18.74 *** ‐8.31

(6.7) (6.1) (6.6) (6)

NUMBOOKS 13.71 *** 7.22 ** NUMBOOKS 13.26 *** 7.58 **

(2.9) (3.1) (2.8) (3.1)

USOBOOKS 12.73 *** 13.75 *** USOBOOKS 13.76 *** 15.69 ***

(3.4) (3.0) (3.2) (3)

NUMTVS ‐7.33 *** ‐5.24 *** NUMTVS ‐6.42 *** ‐5.19 ***

(1.9) (1.6) (1.7) (1.5)

STUDTIM1 ‐14.51 *** ‐3.54 STUDTIM1 ‐10.48 *** ‐3.37

(3.8) (3.4) (3.5) (3.3)

STUDTIM2 ‐14.73 *** ‐11.88 *** STUDTIM2 ‐12.77 *** ‐12.13 ***

(2.9) (2.6) (2.6) (2.5)

AUTOEST ‐27.53 *** ‐23.15 *** AUTOEST ‐27.68 *** ‐23.57 ***

(3.5) (3.1) (3.5) (3.1)

REVPAD1 ‐10.94 ** ‐2.87 REVPAD1 ‐11.38 ** ‐3.69

(5.3) (4.8) (5.2) (4.9)

REVPAD2 ‐9.69 ** ‐0.59 REVPAD2 ‐10.11 ** ‐2.46

(4.3) (3.8) (4.2) (4)

REVPAD3 ‐16.83 *** ‐10.92 *** REVPAD3 ‐17.28 *** ‐11 ***

(3.7) (3.1) (3.6) (3.1)

REVPROF ‐18.03 *** ‐18.3 *** REVPROF ‐19.97 *** ‐18.12 ***

(4.8) (4.7) (4.6) (4.5)

ACTITUD 13.99 * 9.87 ACTITUD 17.51 ** 10.46 *

(8.5) (6.6) (7.4) (6.5)

APTITUD 17.03 *** 11.79 *** APTITUD 17.49 *** 11.9 ***

(4.1) (4.5) (4.2) (4.3)

RELCEN 2.28 4.67 *** RELCEN ‐0.12 4.04 ***

(1.9) (1.0) (1.4) (1)

AUTOCONF 18.99 *** 21.89 *** AUTOCONF 18.87 *** 22.03 ***

(1.8) (1.4) (1.5) (1.5)

PERCAMB ‐5.83 *** ‐4.09 *** PERCAMB ‐8.27 *** ‐4.37 ***

(1.4) (1.3) (1.3) (1.3)

6.‐ Conclusiones

El análisis realizado en este trabajo ha puesto de manifiesto la existencia de cierta

ventaja de los colegios concertados de Aragón frente a las escuelas públicas en la

34

promoción de algunas competencias educativas; en particular en las que tienen que

ver con el dominio de las destrezas para resolver problemas y cuestiones relacionadas

con el Conocimiento del Medio. Incluso una vez tomadas en consideración las

diferencias en el entorno sociocultural de los estudiantes que asisten a ambos tipos de

escuela (diferencias que favorecen a las escuelas concertadas), la asistencia a una

organización educativa favorece la obtención de mejores resultados en la Evaluación

de Diagnóstico realizada en 2010 por los estudiantes de la comunidad autónoma de

Aragón.

En el caso de las competencias en lengua inglesa, segunda materia evaluada en la

edición de 2010 de la ED, el estudio realizado no permite establecer relaciones de

causalidad entre el tipo de escuela, pública o concertada, y las destrezas adquiridas

por los estudiantes aragoneses.

Estos resultados no hacen sino evidenciar la dificultad de establecer un efecto causal

claro entre el modelo de gestión escolar y los logros académicos. En efecto,

comenzábamos nuestro trabajo poniendo de manifiesto la falta de consenso existente

en la literatura sobre la calidad diferencial de los centros educativos públicos y

concertados, encontrándose estudios con conclusiones contradictorias. Nuestro

trabajo supone una nueva aportación que añade un nuevo factor al estado de

confusión general que rodea a esta cuestión: el ámbito competencial objeto de

análisis. En ciertas competencias educativas el modelo de gestión de las escuelas

concertadas presenta ventajas, mientras que en otras las aportaciones de este tipo de

centros escolares son similares a las de los centros públicos.

A pesar del esfuerzo realizado para obtener una estimación depurada del impacto de

los colegios concertados, en nuestro trabajo persisten ciertas limitaciones a las que

trataremos de atender en extensiones futuras del mismo. En particular, nos gustaría

contrastar la sensibilidad de los resultados al tratamiento de los valores missings de la

base de datos y a las variables inobservables que potencialmente pueden ser causa

adicional del sesgo de selección.

References:

Altonji, J. G., Elder, T.E. y Taber, C. R. (2008): “Using selection on observed variables to assess bias from unobservables when evaluating Swan‐Ganz catheterization”, American Economic Review, 98 (2), pp. 345‐350.

Anand, P., Mizala, A. y Repetto, A. (2009): “Using school scholarships to estimate the effect of private education on the academic achievement of low‐income students in Chile”, Economics of Education Review, 28, (3),pp. 370‐381.

Angrist, J. D. y Pischke, J. S. (2008): Mostly Harmless Econometrics: An Empiricist's Companion. Priceton University Press. USA.

35

Batlagi, D.H. (1999): Econometrics, 2nd edition, Springer: Berlin.

Bifulco, R. y Ladd, H.F. (2006): “The Impacts of Charter Schools on Student Achievement: Evidence from North Carolina”, Education Finance and Policy, 1( 1),pp. 50‐90.

Brewer, D.J. y McEwan, P.J. (2010): Economics of Education. Elsevier. Academic Press.

Bryk A.S. y Raudenbusch S.W. (1988): “Toward a More Appropriate Conceptualization of Research on School Effects: A Three‐Level Hierarchical Linear Model”, American Journal of Education, 97 ( 1), pp. 65‐108.

Burgess, S. y Briggs, A. (2010): “School assignment, school choice and social mobility”. Economics of Education Review, 29, pp. 639–649.

Calero, J. y Escardibul, J.O. (2007): “Evaluación de servicios educativos: el rendimiento en los centros públicos y privados medido en PISA‐2003”. Hacienda Pública Española. Revista de Economía, 183 (4), pp. 33‐66.

Caliendo, M. y Kopeinig, S. (2008): “Some Practical Guidance for the Implementation of Propensity Score Matching”, Journal of Economic Surveys, 22(1), pp. 31‐72.

Campbell, D. T. (1957): “Factors relevant to the validity of experiments in social settings”, Psychological Bulletin, 54(4), pp. 297‐312.

Chowa, G., Masa, R. D., Wretman, C.J. y Ansong, D. (2013): “The impact of household possessions on youth's academic achievement in the Ghana Youthsave experiment: A propensity score analysis”, Economics of Education Review, 33, pp. 69‐81

Chudgar y Quin (2012): “Relationship between private schooling and achievement: Results from rural and urban India”, Economics of Education Review, 31 (4), pp. 376‐390.

Coleman, J., Hoffer, T., y Kilgore, S. (1982): Secondary school achievement. Public, catholic and private schools compared. New York: Basic Books, Inc. Publishers.

Cordero, J.M., Crespo,E. y Pedraja, F. (2013): “Rendimiento educativo y determinantes según PISA: Una revisión de la literatura en España”, Revista de Educación, 362, en prensa. DOI:10.4438/1988‐592X‐RE‐2011‐362‐161.

Crespo, E. y Santín, D. (2013): “Does school ownership matter? An unbiased efficiency comparison for regions of Spain”, Journal of Productivity Analysis, DOI 10.1007/s11123‐013‐0338.

Doncel, L.M., Sainz, J. y Sanz, I. (2012): “An estimation of the advantage of charter over public schools”, Kyklos, 65 (4), pp. 442‐463.

Escardíbul, J.O., y Villarroya A. (2009): “The inequalities in school choice in Spain in accordance to PISA data”. Journal of Education Policy, 24, (6), pp. 673‐695.

Figel, J. (2010): Informe Educación y Atención a la Primera Infancia en Europa: un medio para reducir las desigualdades sociales y culturales. Agencia Ejecutiva en el ámbito Educativo, Audiovisual y Cultural (EACEA P9 Eurydice). Ed. Ministerio de Educación y Ciencia. Disponible también en http://www.eurydice.org.

36

Gallego, F.A. y Hernando, A. (2010): “School Choice in Chile: Looking at the Demand Side”, Documento de Trabajo número. 356, Universidad Pontificia Católica de Chile

Greene, K.V. y Kang, B. (2004): “The effect of public and private competition on high school outputs in New York State”. Economics of Education Review, 23, pp. 497‐506.

Gronberg, T.J. y Jansen, D. (2001): Navigating newly chartered waters. An analysis of charter school performance. Austin, TX. Texas Public Policy Foundation.

Guo, S. y Fraser, M.W. (2010): Propensity Score Analysis. Statistical Methods and Applications. SAGE publications. London.

Hanushek, E. Machin, S. y Woessmann, L. (2011): Handbook of the Economics of Education (4). Elsevier. Amsterdam.

Heckman, J. J. (2005): “The scientific model of causality”,Sociological Methodology, 35, pp. 1–97.

Holland, P. (1986): “Statistics and causal inference (with discussion)”, Journal of the American Statistical Association, 81, pp. 945‐970.

Hox, J. (1995): Applied Multilevel Analysis. TT‐Publikaties. Amsterdam.

Hsieh, C. T. y Urquiola, M. (2006): “The effects of generalized school choice on achievement

and stratification: Evidence from Chile's voucher program”, Journal of Public Economics, 90,

(8–9), pp. 1477‐1503.

Kim, Y.J. (2011): “Catholic schools or school quality? The effects of Catholic schools on labor market outcomes”, Economics of Education Review, 30 (3), pp. 546‐558.

Lefebvre, P., Merrigan, P. y Verstraete, M. (2011): “Public subsidies to private schools do make a difference for achievement in mathematics: Longitudinal evidence from Canada”, Economics of Education Review, 30 (1), pp. 79‐98.

Mancebón, M.J. y Muñíz, M.A. (2008): “Public High Schools in Spain. Disentangling managerial and program efficiencies”, Journal of the Operational Research Society, 59, pp. 892‐ 901.

Mancebón, M.J. y Pérez‐Ximénez de Embún (2011): “Equality of school choice: a study applied to the Spanish region of Aragon”, Education Economics, DOI: 10.1080/09645292.2010.545197.

Mancebón, M.J., Calero, J., Choi, A. y Pérez‐Ximénez de Embún, D. (2012): “The Efficiency of Public and Publicly‐Subsidized High Schools in Spain. Evidence from PISA‐2006”, Journal of the Operational Research Society, 63, pp. 1516‐1533.

Morgan, S. L. y Winship, C. (2008): Counterfactuals and Causal Inference: Methods and Principles for Social Research. Cambridge University Press. UK.

Murname, R.J. y Willett, J.B. (2011): Methods matter. Oxford University Press. New York.

Neyman, J.S. (1923): “Statistical problems in agricultural experiments”, Journal of the Royal Statistical Society, Series B, 2, pp. 107‐180.

37

Perelman, S. y Santin, D. (2008): “Measuring educational efficiency at student level with parametric stochastic distance functions: an application to Spanish PISA results”. Education Economics, 19 (1), pp. 29‐49.

Reynolds, C.L. (2012): “Where to attend? Estimating the effects of beginning college at a two‐year institution”, Economics of Education Review, 31 (4), pp. 345‐362.

Rosenbaum, P. R. y Rubin, D.B. (1983): “The central role of propensity score in observational studies for causal effects”, Biometrika, 70, pp. 41‐55.

Rosenbaum, P. R. (2002): Observational Studies. Springer, New York.

Rubin, D. B. (1974): “Estimating causal effects of treatments in randomized and non‐randomized studies”, Journal of Educational Psychology, 66, pp. 688‐701.

Rubin, D. B. (1990): “Bayesian inference for causal effects : the role of randomization”, Journal of Statistical Planning and Inference, 25, pp. 279‐292.

Rubin, D. B. (1978): “Formal models of statistical inference for causal effects : the role of randomization”, Annals of Statistics, 6, pp. 34‐58.

Salinas, J. y Santín, D. (2012): “Selección escolar y efectos de la inmigración sobre los resultados académicos españoles en PISA 2006”, Revista de Educación. 358, pp. 382‐405.

Shadish, W. R., Cook, T.D. y Campbell, D. T. (2002): Experimental and Quasi‐Experimental Designs for Generalized Causal Inference. Houghton Mifflin Company. Boston.

Smith, H. L. y Tood, P. E. (2005): “Does matching overcome LaLonde’s critique of non‐experimental estimators?”, Journal of Econometrics, 125, pp. 305‐353.

Somers M.A. , McEwan P.J. y Willms J.D. (2004): “How Effective Are Private Schools in Latin America?”, Comparative Education Review, 48, (1), pp. 48‐69.

Tamm, M. (2008): “Does money buy higher schooling?: Evidence from secondary school track choice in Germany”, Economics of Education Review, 27( 5), pp. 536‐545.

Willms J.D. (2006): Learning divides: Ten policy questions about the performance and equity of schools and schooling systems. UIS Working Paper, número 5. UNESCO Institute for Statistics: Montreal.

Witte, J.F., Weimer, D. Shober, A. y Schlomer, P. (2007): “The performance of charter schools in Wisconsin”, Journal of Policy Analysis and Management, 26, pp. 574‐575.

EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE...

Documents

Transcript of EDUCACIÓN PÚBLICA Y EDUCACIÓN …2013.economicsofeducation.com/user/pdfsesiones/177.pdf · DESDE...