Métodos Experimentales &
No-experimentales I
Alessandro Maffioli
Taller de evaluación de impacto de programas de ciencia, tecnología e innovación17-18 de Junio 2014, Ciudad de México
Efectividad en el Desarrollo
Hasta qué punto se cumplieron o se espera que se cumplan los
objetivos de las intervenciones para
el desarrollo, tomando en cuenta
su importancia relativa.
“Hacer las cosas correctas”
Dar prioridad a las políticas en relación con las principales necesidades
establecidas por el país
“Hacer las cosas correctamente”
¿Qué tanto del valor previsto se entregó realmente?
(Gestión, Monitoreo y Evaluación)
Las evaluaciones de impacto (EI) son una herramienta fundamental en la valoración de si se están haciendo correctamente las cosas.
2
2
Problema/Retos del Desarrollo
Obj de Desarrollo Resultadosesperados
Causas y Determinantes
Productos Esperados
Actividades
Diagnóstico: no sólo una descripción del problema, debe ser analítico y presentar causas solucionables
Supuestos y
Riesgos
Población Objetivo Focalización
Modelo deIntervención
Mecanismosde Ejecución
La lógica de diseño
3
Problema/Retos del Desarrollo
Obj de Desarrollo Resultadosesperados
Causas y Determinantes
Productos Esperados
Actividades
Relevancia
Supuestos y
Riesgos
Población Objetivo Heterogeneidad
Evaluación deimpacto
Monitoreo y Evaluación de
Procesos
La lógica de evaluación
4
Objetivos del Monitoreo
• Monitoreo: está el programa avanzando de acuerdo con lo planeado?– Insumos – Actividades – Productos – Resultados– ¿Se están moviendo los indicadores en la dirección
correcta?– No hay preocupación por la causalidad ni atribución
• El monitoreo es el punto de partida un proceso de aprendizaje– Ilustra en qué ha consistido la intervención (fidelidad)– Genera datos
5
Evaluación de impacto: Conceptos clave
• Una EI busca determinar si un proyecto funciona, concentrándose en susindicadores de resultados.
• Atribución o causalidad es el concepto clave en EI ¿Hasta qué punto loscambios observados en el indicador de interés son atribuibles a laintervención o a otros factores?
• La definición de causalidad está basada en el concepto del contrafactual.El impacto o efecto causal de un proyecto es la diferencia entre:
- Los resultados que los beneficiarios alcanzan después departicipar en el programa.
- Los resultados que esos mismos beneficiarios hubieran alcanzadodespués del programa si no hubieran participado en éste.
• Esta definición de causalidad introduce un problema empírico porque elresultado contrafactual, por definición, no se observa. Este es elproblema fundamental de la inferencia causal (Holland 1986).
3
Contrafactual observable….
7
Porque se necesita un contrafactual
tiemp
o
Y
8
Cual es el verdadero impacto?
• Supongamos que después del programa observamos una diferencia en los indicadores de resultados entre el grupo de participantes y el grupo de control
• Pregunta crucial: ¿Esta diferencia se debe al programa o a algo más?
• Algo más puede ser:– Diferencias pre-existentes entre los dos grupos– Eventos que ocurrieron después de que el programa
comenzó y que afectaron a los dos grupos de distinta forma o manera
9
Contrafactuales y el problema de la atribución
• Para estimar el efecto promedio de un proyecto, una EI construye uncontrafactual artificial mediante la identificación de un grupo de control.
• Este enfoque funciona si el grupo de control es una buena aproximacióndel contrafactual verdadero. De otro modo los resultados estaránsesgados:
• La calidad (validez interna) de una EI depende de los supuestos necesariospara asegurar que no hay sesgo de selección ( ).
• La ausencia de sesgo de selección está garantizada en un diseñoexperimental.
5
Lo que queremos medir (efecto promedio en los tratados):
Lo que observamos (diferencia promedio entre los tratados y el grupo de control):
La diferencia potencial entre lo que observamos y lo que queremos medir es el llamado “sesgo de selección”.
1 0Y Y
1 0Y C
1 0 1 0
0 0
Y Y Y C
C Y
0 0 0C Y
Alternativas para construir el contrafactual
• “Contrafactuales” debiles1 - Comparar la situación antes y después del programaProblema: muchos otros factores que afectan el resultado pueden haber cambiado2- Comparar un grupo con programa y otro sin programaProblema: supone que los grupos eran iguales antes del programa y que estuvieron expuestos a los mismos factores
• Para generar un grupo de comparación válido, hay dos opciones principales:– Métodos experimentales– Métodos no-experimentales
11
Preguntas de evaluación e implicaciones de
política¿Qué preguntas puede contestar la EI y qué implicaciones de políticasproduce?
6
Preguntas de evaluación Implicaciones de política
¿El proyecto es eficaz en el alcance de sus objetivos de desarrollo (finales e intermedios)?
Expansión, terminación o modificación de la política
¿Los efectos son distintos para distintas categorías de beneficiarios?
Focalización de beneficiarios
¿Los efectos dependen de la intensidad del tratamiento?
Dimensionamiento del tratamiento
¿En cuánto tiempo se pueden observar los efectos del proyecto y cómo varían en el tiempo?
Definición de flujos de beneficios (ACB & ACE)
¿Los efectos son diferentes si se combinan con otras intervenciones?
Coordinación de políticas públicas
¿El programa produce externalidades positivas (o negativas) y/o efectos de equilibrio general?
Definición de los flujos de beneficios (ACB & ACE)
Pasos clave en la definición de una EI
7
Comprender la teoría del cambio
Comprender el mecanismo de
ejecución
Definir las preguntas clave
para la evaluación
Revisar qué dice la literatura
Identificar (producir) datos
Analizar
Comunicar los resultados
Retroalimentación de lecciones en las
políticas
Métodos Experimentales
• Experimentos aleatorios: individuos, productores o empresas que aplican a un programa son asignados aleatoriamente a uno o más grupos de tratamiento y un grupo de control
• Es también una manera transparente y justa de asignar beneficios cuando no hay presupuesto para todos, y la mejor manera de determinar si el programa funciona.
• Como todo método, tienen limitaciones: solo efecto promedio, no hay placebo, hay desertores, externalidades…
• Los métodos no-experimentales buscan replicar estos experimentos
14
Experimentos: porque funcionan?
• Resultado promedio para el grupo con tratamiento
• Resultado para el grupo control
• Diferencia entre ambos grupos
= promedio [yT(i)] = promedio [yC(i) + d(i)] = promedio[yC(i)] + promedio[d(i)]
= promedio[yC(i)]
= promedio[d(i)] = Efecto promedio del Tratamiento
Esto funciona por dos razones:
1. Aritmética:
promedio (A + B) = promedio(A) + promedio(B)
2. Selección Aleatoria:
promedio[yC(i)|i=tratados] = promedio[yC(i)|i=controles]
15
¿Qué aprendemos de los experimentos?
• Podemos medir el impacto promedio del programaporque:
promedio[yC(i)|control] = promedio[yC(i)|tratamiento]
• La selección aleatoria garantiza que, en promedio, losvalores de cualquier variable son iguales para ambosgrupos
• Sin embargo, tenemos una sola muestra para cada grupo,por lo cual los valores pueden diferir en las muestras. Decada veinte variables, es posible que una o dos sean“distintas”. Por ello se necesita hacer cálculos de potenciaestadística y tener muestras lo suficientemente grandes
16
Pasos claves en un experimento
• Definir la teoría de cambio (diagnóstico, lógica, elegibilidad) • Diseñar el mecanismo de ejecución• Identificar las preguntas de evaluación mas relevantes• Recolectar información de línea de base• Asignar aleatoriamente a grupos de tratamiento y control• Verificar asignación aleatoria • Monitorear para asegurar la integridad del proceso completo• Recolectar datos de indicadores para ambos grupos un tiempo
después de la intervención• Estimar el impacto de la intervención comparando los
indicadores entre ambos grupos• Determinar si el impacto de la intervención es estadística y
substantivamente significativo
17
Métodos no-experimentales
• Como se mencionó, la asignación aleatoria no siempre es factible
• Cuando los individuos no son asignados altratamiento por un proceso aleatorio no se tieneun grupo de control experimental
• Es esencial entender y modelar el proceso deasignación al tratamiento:
• Autoselección (decisión individual)
• Selección administrativa (individuos asignadossegún criterios específicos)
• Combinación de ambas
18
El problema de la Evaluación de Impacto
en diseños no- experimentales
A = empresas que reciben el programa
B = empresas que no reciben el programa
Y = indicador = productividad
ATT = ( | A participa) – ( | A no participa)
( | B participa) – ( | B no participa) = ATT + (Diferencia A,B)
Se puede usar B como contrafactual solo si (Diferencia A,B) = 0 (en
promedio)
AY AY
BY
No observable
BY
Sesgo de selecciónNo observable
19
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables.
HH Tratamiento Educación Ingreso MATCH Ingreso AIngreso
ContrafactualDIF
1 B 2 60
2 B 3 80
3 B 5 90
4 B 12 200
5 A 5 100
6 A 3 80
7 A 4 90
8 A 2 70
ATT
20
Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables.
Emparejamiento estadístico (PSM)
HH Tratamiento Educación Ingreso MATCH Ingreso AIngreso
ContrafactualDIF
1 B 2 60
2 B 3 80
3 B 5 90
4 B 12 200
5 A 5 100 [3]
6 A 3 80 [2]
7 A 4 90 [2,3]
8 A 2 70 [1]
ATT
21
Si se tiene información de A (tratados) y B (no tratados) antes
del programa, es posible estimar la probabilidad de
participación, y luego usarla para comprar a cada beneficiario
con un no beneficiario que tenía la misma probabilidad de
participar, eliminando así sesgos por características
observables.
Emparejamiento estadístico (PSM)
HH Tratamiento Educación Ingreso MATCH Ingreso AIngreso
ContrafactualDIF
1 B 2 60
2 B 3 80
3 B 5 90
4 B 12 200
5 A 5 100 [3] 100 90 10
6 A 3 80 [2] 80 80 0
7 A 4 90 [2,3] 90 (80+90)/2=85 5
8 A 2 70 [1] 70 60 10
ATT 6.25
22
Emparejamiento estadístico (PSM)
Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables.
HH TratamientoProb
(participar)Ingreso MATCH Ingreso A
Ingreso
ContrafactualDIF
1 B 0.3 60
2 B 0.4 80
3 B 0.7 90
4 B 0.1 200
5 A 0.7 100
6 A 0.45 80
7 A 0.35 90
8 A 0.32 70
ATT
23
HH TratamientoProb
(participar)Ingreso MATCH Ingreso A
Ingreso
ContrafactualDIF
1 B 0.3 60
2 B 0.4 80
3 B 0.7 90
4 B 0.1 200
5 A 0.7 100 3
6 A 0.45 80 2
7 A 0.35 90 1,2
8 A 0.32 70 1
ATT
Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables.
Emparejamiento estadístico (PSM)
24
HH TratamientoProb
(participar)Ingreso MATCH Ingreso A
Ingreso
ContrafactualDIF
1 B 0.3 60
2 B 0.4 80
3 B 0.7 90
4 B 0.1 200
5 A 0.7 100 3 100 90 10
6 A 0.45 80 2 80 80 0
7 A 0.35 90 1,2 90 70 20
8 A 0.32 70 1 70 60 10
ATT 10
Si se tiene información de A (tratados) y B (no tratados) antes
del programa, es posible estimar la probabilidad de
participación, y luego usarla para comprar a cada beneficiario
con un no beneficiario que tenía la misma probabilidad de
participar, eliminando así sesgos por características
observables.
Emparejamiento estadístico (PSM)
25
PSM: supuestos básicos
• Supuesto de Independencia Condicional (CIA): dado un conjunto devariables observables X, que no son afectadas por el tratamiento, losoutcomes potenciales son independientes del status de tratamiento.
• En la práctica, condicionando en características observables,matching remueve el sesgo asociado a diferencias pre-tratamientoentre los grupos tratado y no tratado.
• Útil cuando la información de características observables pre-tratamiento es abundante
• Limitación: si el status de tratamiento depende de características noobservables, el estimador es sesgado !
26
PSM: intuición
• Propensity Score Matching: estimación de un “modelo de
participación” que reduce el problema de matching a una sola
dimensión (propensity score)
• Los propensity scores (probabilidades predichas) son usados para
juntar (matchear) a las unidades tratadas con las no tratadas
Hay que tener individuos no tratados con características similares a los
individuos tratados
Condición de superposición en PSM
27
PSM: condición de superposición
Densidad
0 1Propensity score
Región de soporte común
Densidad de participantes
Alta probabilidad de participar dado X
28
PSM: implementación
• Identificar el soporte común
• Elegir el algoritmo de matching
• Evaluar la calidad del matching
Correr un modelo de elección discreta (por ej. Probit o Logit)
• Variable dependiente: Y=1 si participa; Y = 0 si no
• Elegir variables apropiadas para condicionar
• Obtener el propensity score: probabilidad predicha
Estimar el impacto en base a la nueva muestra
Juntar a cada participante con uno o más no participantes según su propensity score
29
PSM: identificación del soporte común
Se pueden usar varias estrategias para identificar el soporte común:
• Análisis visual: graficar las densidades de los propensity scores para ambos
grupos y superponer los gráficos
• Criterio del máximo y mínimo: eliminar las observaciones con propensity
score menor al mínimo y mayor al máximo del grupo opuesto
• “Recorte”: excluir las observaciones en áreas donde el propensity score de
algún grupo es cero
• Similitud estadística de las distribuciones de los p-scores: test de
igualdad de distribuciones
30
Ej. Criterio de máximo y mínimo
Densidad
0 1Propensity score
Región de soporte común
Densidad de los participantes
Alta probabilidad de participar dado X
31
PSM: elección del algoritmo de matching
Modelo Descripción Alternativas Factor clave SES EFI
Vecino más
cercano
Elegir el / los
controles con menor
distancia
• Sin reposición
• Con reposición
• Oversampling
• Orden del
matching
• Peores parejas
• Peores parejas
Calibre y
Radio
Elegir controles
dentro de una cierta
distancia
• Calibre
• Radio
• Nivel de tolerancia
• Definición del
radio
Estratificación Dividir el soporte
común en estratos
• No. de estratos • Elección del the
No. de estratos
Kernel Promedio
ponderado de todas
las observaciones
en el SC
• Función de
Kernel
• Ancho de banda
• Definición del SC
32
PSM: Resumiendo
Cuando un evaluador usa una metodología PSM, queremos
chequear:
Información disponible de características observables
Qué variables se incluyen en el modelo de participación y porqué
Identificación del soporte común
Qué algoritmo de matching se usa y por qué (realizar chequeosde robustez)
El balance entre características relevantes (y de lasdistribuciones del PS)
33
• Carboni (2008) estudia el efecto de subsidios públicos en gasto privado en I&D de empresas manufactureras en Italia
• Los autores encuentran grandes diferencias (ex-ante) entre empresas subsidiadas y no subsidiadas: los grupos no son comparables
• Se recurre a PSM para seleccionar a empresas similares
PSM
34
PSM
35
PSM
Modelo de Participación
36
PSM
Resultados
37
• Evaluación del balanceo de la muestra: distribución de los propensityscores entre grupos
PSM
antes del
matching
después del
matching
38
Top Related