Download - Métodos Experimentales & No-experimentales I · variables observables X, que no son afectadas por el tratamiento, los outcomes potenciales son independientes del status de tratamiento.

Métodos Experimentales &

No-experimentales I

Alessandro Maffioli

Taller de evaluación de impacto de programas de ciencia, tecnología e innovación17-18 de Junio 2014, Ciudad de México

Efectividad en el Desarrollo

Hasta qué punto se cumplieron o se espera que se cumplan los

objetivos de las intervenciones para

el desarrollo, tomando en cuenta

su importancia relativa.

“Hacer las cosas correctas”

Dar prioridad a las políticas en relación con las principales necesidades

establecidas por el país

“Hacer las cosas correctamente”

¿Qué tanto del valor previsto se entregó realmente?

(Gestión, Monitoreo y Evaluación)

Las evaluaciones de impacto (EI) son una herramienta fundamental en la valoración de si se están haciendo correctamente las cosas.

2

2

Problema/Retos del Desarrollo

Obj de Desarrollo Resultadosesperados

Causas y Determinantes

Productos Esperados

Actividades

Diagnóstico: no sólo una descripción del problema, debe ser analítico y presentar causas solucionables

Supuestos y

Riesgos

Población Objetivo Focalización

Modelo deIntervención

Mecanismosde Ejecución

La lógica de diseño

3

Problema/Retos del Desarrollo

Obj de Desarrollo Resultadosesperados

Causas y Determinantes

Productos Esperados

Actividades

Relevancia

Supuestos y

Riesgos

Población Objetivo Heterogeneidad

Evaluación deimpacto

Monitoreo y Evaluación de

Procesos

La lógica de evaluación

4

Objetivos del Monitoreo

• Monitoreo: está el programa avanzando de acuerdo con lo planeado?– Insumos – Actividades – Productos – Resultados– ¿Se están moviendo los indicadores en la dirección

correcta?– No hay preocupación por la causalidad ni atribución

• El monitoreo es el punto de partida un proceso de aprendizaje– Ilustra en qué ha consistido la intervención (fidelidad)– Genera datos

5

Evaluación de impacto: Conceptos clave

• Una EI busca determinar si un proyecto funciona, concentrándose en susindicadores de resultados.

• Atribución o causalidad es el concepto clave en EI ¿Hasta qué punto loscambios observados en el indicador de interés son atribuibles a laintervención o a otros factores?

• La definición de causalidad está basada en el concepto del contrafactual.El impacto o efecto causal de un proyecto es la diferencia entre:

- Los resultados que los beneficiarios alcanzan después departicipar en el programa.

- Los resultados que esos mismos beneficiarios hubieran alcanzadodespués del programa si no hubieran participado en éste.

• Esta definición de causalidad introduce un problema empírico porque elresultado contrafactual, por definición, no se observa. Este es elproblema fundamental de la inferencia causal (Holland 1986).

3

Contrafactual observable….

7

Porque se necesita un contrafactual

tiemp

o

Y

8

Cual es el verdadero impacto?

• Supongamos que después del programa observamos una diferencia en los indicadores de resultados entre el grupo de participantes y el grupo de control

• Pregunta crucial: ¿Esta diferencia se debe al programa o a algo más?

• Algo más puede ser:– Diferencias pre-existentes entre los dos grupos– Eventos que ocurrieron después de que el programa

comenzó y que afectaron a los dos grupos de distinta forma o manera

9

Contrafactuales y el problema de la atribución

• Para estimar el efecto promedio de un proyecto, una EI construye uncontrafactual artificial mediante la identificación de un grupo de control.

• Este enfoque funciona si el grupo de control es una buena aproximacióndel contrafactual verdadero. De otro modo los resultados estaránsesgados:

• La calidad (validez interna) de una EI depende de los supuestos necesariospara asegurar que no hay sesgo de selección ( ).

• La ausencia de sesgo de selección está garantizada en un diseñoexperimental.

5

Lo que queremos medir (efecto promedio en los tratados):

Lo que observamos (diferencia promedio entre los tratados y el grupo de control):

La diferencia potencial entre lo que observamos y lo que queremos medir es el llamado “sesgo de selección”.

1 0Y Y

1 0Y C

1 0 1 0

0 0

Y Y Y C

C Y

0 0 0C Y

Alternativas para construir el contrafactual

• “Contrafactuales” debiles1 - Comparar la situación antes y después del programaProblema: muchos otros factores que afectan el resultado pueden haber cambiado2- Comparar un grupo con programa y otro sin programaProblema: supone que los grupos eran iguales antes del programa y que estuvieron expuestos a los mismos factores

• Para generar un grupo de comparación válido, hay dos opciones principales:– Métodos experimentales– Métodos no-experimentales

11

Preguntas de evaluación e implicaciones de

política¿Qué preguntas puede contestar la EI y qué implicaciones de políticasproduce?

6

Preguntas de evaluación Implicaciones de política

¿El proyecto es eficaz en el alcance de sus objetivos de desarrollo (finales e intermedios)?

Expansión, terminación o modificación de la política

¿Los efectos son distintos para distintas categorías de beneficiarios?

Focalización de beneficiarios

¿Los efectos dependen de la intensidad del tratamiento?

Dimensionamiento del tratamiento

¿En cuánto tiempo se pueden observar los efectos del proyecto y cómo varían en el tiempo?

Definición de flujos de beneficios (ACB & ACE)

¿Los efectos son diferentes si se combinan con otras intervenciones?

Coordinación de políticas públicas

¿El programa produce externalidades positivas (o negativas) y/o efectos de equilibrio general?

Definición de los flujos de beneficios (ACB & ACE)

Pasos clave en la definición de una EI

7

Comprender la teoría del cambio

Comprender el mecanismo de

ejecución

Definir las preguntas clave

para la evaluación

Revisar qué dice la literatura

Identificar (producir) datos

Analizar

Comunicar los resultados

Retroalimentación de lecciones en las

políticas

Métodos Experimentales

• Experimentos aleatorios: individuos, productores o empresas que aplican a un programa son asignados aleatoriamente a uno o más grupos de tratamiento y un grupo de control

• Es también una manera transparente y justa de asignar beneficios cuando no hay presupuesto para todos, y la mejor manera de determinar si el programa funciona.

• Como todo método, tienen limitaciones: solo efecto promedio, no hay placebo, hay desertores, externalidades…

• Los métodos no-experimentales buscan replicar estos experimentos

14

Experimentos: porque funcionan?

• Resultado promedio para el grupo con tratamiento

• Resultado para el grupo control

• Diferencia entre ambos grupos

= promedio [yT(i)] = promedio [yC(i) + d(i)] = promedio[yC(i)] + promedio[d(i)]

= promedio[yC(i)]

= promedio[d(i)] = Efecto promedio del Tratamiento

Esto funciona por dos razones:

1. Aritmética:

promedio (A + B) = promedio(A) + promedio(B)

2. Selección Aleatoria:

promedio[yC(i)|i=tratados] = promedio[yC(i)|i=controles]

15

¿Qué aprendemos de los experimentos?

• Podemos medir el impacto promedio del programaporque:

promedio[yC(i)|control] = promedio[yC(i)|tratamiento]

• La selección aleatoria garantiza que, en promedio, losvalores de cualquier variable son iguales para ambosgrupos

• Sin embargo, tenemos una sola muestra para cada grupo,por lo cual los valores pueden diferir en las muestras. Decada veinte variables, es posible que una o dos sean“distintas”. Por ello se necesita hacer cálculos de potenciaestadística y tener muestras lo suficientemente grandes

16

Pasos claves en un experimento

• Definir la teoría de cambio (diagnóstico, lógica, elegibilidad) • Diseñar el mecanismo de ejecución• Identificar las preguntas de evaluación mas relevantes• Recolectar información de línea de base• Asignar aleatoriamente a grupos de tratamiento y control• Verificar asignación aleatoria • Monitorear para asegurar la integridad del proceso completo• Recolectar datos de indicadores para ambos grupos un tiempo

después de la intervención• Estimar el impacto de la intervención comparando los

indicadores entre ambos grupos• Determinar si el impacto de la intervención es estadística y

substantivamente significativo

17

Métodos no-experimentales

• Como se mencionó, la asignación aleatoria no siempre es factible

• Cuando los individuos no son asignados altratamiento por un proceso aleatorio no se tieneun grupo de control experimental

• Es esencial entender y modelar el proceso deasignación al tratamiento:

• Autoselección (decisión individual)

• Selección administrativa (individuos asignadossegún criterios específicos)

• Combinación de ambas

18

El problema de la Evaluación de Impacto

en diseños no- experimentales

A = empresas que reciben el programa

B = empresas que no reciben el programa

Y = indicador = productividad

ATT = ( | A participa) – ( | A no participa)

( | B participa) – ( | B no participa) = ATT + (Diferencia A,B)

Se puede usar B como contrafactual solo si (Diferencia A,B) = 0 (en

promedio)

AY AY

BY

No observable

BY

Sesgo de selecciónNo observable

19

Emparejamiento estadístico (PSM)

Si se tiene información de A (tratados) y B (no tratados) antes del programa, es posible estimar la probabilidad de participación, y luego usarla para comprar a cada beneficiario con un no beneficiario que tenía la misma probabilidad de participar, eliminando así sesgos por características observables.

HH Tratamiento Educación Ingreso MATCH Ingreso AIngreso

ContrafactualDIF

1 B 2 60

2 B 3 80

3 B 5 90

4 B 12 200

5 A 5 100

6 A 3 80

7 A 4 90

8 A 2 70

ATT

20




ContrafactualDIF

1 B 2 60

2 B 3 80

3 B 5 90

4 B 12 200

5 A 5 100 [3]

6 A 3 80 [2]

7 A 4 90 [2,3]

8 A 2 70 [1]

ATT

21

Si se tiene información de A (tratados) y B (no tratados) antes

del programa, es posible estimar la probabilidad de

participación, y luego usarla para comprar a cada beneficiario

con un no beneficiario que tenía la misma probabilidad de

participar, eliminando así sesgos por características

observables.



ContrafactualDIF

1 B 2 60

2 B 3 80

3 B 5 90

4 B 12 200

5 A 5 100 [3] 100 90 10

6 A 3 80 [2] 80 80 0

7 A 4 90 [2,3] 90 (80+90)/2=85 5

8 A 2 70 [1] 70 60 10

ATT 6.25

22



HH TratamientoProb

(participar)Ingreso MATCH Ingreso A

Ingreso

ContrafactualDIF

1 B 0.3 60

2 B 0.4 80

3 B 0.7 90

4 B 0.1 200

5 A 0.7 100

6 A 0.45 80

7 A 0.35 90

8 A 0.32 70

ATT

23

HH TratamientoProb


Ingreso

ContrafactualDIF

1 B 0.3 60

2 B 0.4 80

3 B 0.7 90

4 B 0.1 200

5 A 0.7 100 3

6 A 0.45 80 2

7 A 0.35 90 1,2

8 A 0.32 70 1

ATT



24

HH TratamientoProb


Ingreso

ContrafactualDIF

1 B 0.3 60

2 B 0.4 80

3 B 0.7 90

4 B 0.1 200

5 A 0.7 100 3 100 90 10

6 A 0.45 80 2 80 80 0

7 A 0.35 90 1,2 90 70 20

8 A 0.32 70 1 70 60 10

ATT 10

Si se tiene información de A (tratados) y B (no tratados) antes

del programa, es posible estimar la probabilidad de

participación, y luego usarla para comprar a cada beneficiario

con un no beneficiario que tenía la misma probabilidad de

participar, eliminando así sesgos por características

observables.


25

PSM: supuestos básicos

• Supuesto de Independencia Condicional (CIA): dado un conjunto devariables observables X, que no son afectadas por el tratamiento, losoutcomes potenciales son independientes del status de tratamiento.

• En la práctica, condicionando en características observables,matching remueve el sesgo asociado a diferencias pre-tratamientoentre los grupos tratado y no tratado.

• Útil cuando la información de características observables pre-tratamiento es abundante

• Limitación: si el status de tratamiento depende de características noobservables, el estimador es sesgado !

26

PSM: intuición

• Propensity Score Matching: estimación de un “modelo de

participación” que reduce el problema de matching a una sola

dimensión (propensity score)

• Los propensity scores (probabilidades predichas) son usados para

juntar (matchear) a las unidades tratadas con las no tratadas

Hay que tener individuos no tratados con características similares a los

individuos tratados

Condición de superposición en PSM

27

PSM: condición de superposición

Densidad

0 1Propensity score

Región de soporte común

Densidad de participantes

Alta probabilidad de participar dado X

28

PSM: implementación

• Identificar el soporte común

• Elegir el algoritmo de matching

• Evaluar la calidad del matching

Correr un modelo de elección discreta (por ej. Probit o Logit)

• Variable dependiente: Y=1 si participa; Y = 0 si no

• Elegir variables apropiadas para condicionar

• Obtener el propensity score: probabilidad predicha

Estimar el impacto en base a la nueva muestra

Juntar a cada participante con uno o más no participantes según su propensity score

29

PSM: identificación del soporte común

Se pueden usar varias estrategias para identificar el soporte común:

• Análisis visual: graficar las densidades de los propensity scores para ambos

grupos y superponer los gráficos

• Criterio del máximo y mínimo: eliminar las observaciones con propensity

score menor al mínimo y mayor al máximo del grupo opuesto

• “Recorte”: excluir las observaciones en áreas donde el propensity score de

algún grupo es cero

• Similitud estadística de las distribuciones de los p-scores: test de

igualdad de distribuciones

30

Ej. Criterio de máximo y mínimo

Densidad

0 1Propensity score

Región de soporte común

Densidad de los participantes

Alta probabilidad de participar dado X

31

PSM: elección del algoritmo de matching

Modelo Descripción Alternativas Factor clave SES EFI

Vecino más

cercano

Elegir el / los

controles con menor

distancia

• Sin reposición

• Con reposición

• Oversampling

• Orden del

matching

• Peores parejas

• Peores parejas

Calibre y

Radio

Elegir controles

dentro de una cierta

distancia

• Calibre

• Radio

• Nivel de tolerancia

• Definición del

radio

Estratificación Dividir el soporte

común en estratos

• No. de estratos • Elección del the

No. de estratos

Kernel Promedio

ponderado de todas

las observaciones

en el SC

• Función de

Kernel

• Ancho de banda

• Definición del SC

32

PSM: Resumiendo

Cuando un evaluador usa una metodología PSM, queremos

chequear:

Información disponible de características observables

Qué variables se incluyen en el modelo de participación y porqué

Identificación del soporte común

Qué algoritmo de matching se usa y por qué (realizar chequeosde robustez)

El balance entre características relevantes (y de lasdistribuciones del PS)

33

• Carboni (2008) estudia el efecto de subsidios públicos en gasto privado en I&D de empresas manufactureras en Italia

• Los autores encuentran grandes diferencias (ex-ante) entre empresas subsidiadas y no subsidiadas: los grupos no son comparables

• Se recurre a PSM para seleccionar a empresas similares

PSM

34

PSM

35

PSM

Modelo de Participación

36

PSM

Resultados

37

• Evaluación del balanceo de la muestra: distribución de los propensityscores entre grupos

PSM

antes del

matching

después del

matching

38