Evaluaciones de Impacto (Notas)

5
Notas basadas en Research Methods Knowledge Base (William Trochim, 2006) http://www.socialresearchmethods.net/kb/ Los diseños experimentales son los más robustos en términos de su validez interna para establecer causalidad. Pero esto viene con un costo: su misma estructura trae una serie de amenazas potenciales que es preciso controlar a través de la organización y la gestión del tratamiento. Se debe controlar que el tratamiento sea el mismo o que sea equivalente y que sea consistente en el tiempo; que no haya contaminación de los grupos de tratamiento y control por el cruce de miembros de un grupo a otro (tratados dejan el tratamiento y luego vuelven, mientras que controles obtiene algo del tratamiento); y que no hayan respuestas compensatorias por parte de los ejecutores de las actividades o administradores de los servicios. También están las barreras éticas, que bloquean principio la creación inducida de grupos tratados y de control (¿es correcto hacer este tipo de estudios?, ¿es correcto negar a algunos que tienen derecho a un tratamiento de acuerdo con la ley y las condiciones del tratamiento en sí [entitlement] sólo para probar que el tratamiento funciona?) . En este mismo plano está el hecho de que los tratados deben participar voluntariamente (consentimiento informado), pero esto genera una respuesta conductual que puede afectar la validez interna (el efecto pre-tratamiento). Una solución al ataque político: en vez de que una agencia estatal (municipalidad, oficina descentralizada de programa) entregue un tratamiento aleatoriamente que lo haga una entidad privada, así se evita que se boicotee la asignación por no ser universal, al menos durante un tiempo. se hacen cuando los programas se aproxime a este del costado (P-P NEG Q-E) sería importante en principio tener líneas de base actualizadas con indicadores de resultado. Una vez teniendo las líneas de base sería más fácil crear aleatoriamente grupos de tratados y controles para establecer causalidad.

description

Evaluaciones de Impacto

Transcript of Evaluaciones de Impacto (Notas)

Notas basadas en Research Methods Knowledge Base (William Trochim, 2006)

http://www.socialresearchmethods.net/kb/

Los diseos experimentales son los ms robustos en trminos de su validez interna para establecer causalidad.

Pero esto viene con un costo: su misma estructura trae una serie de amenazas potenciales que es preciso controlar a travs de la organizacin y la gestin del tratamiento. Se debe controlar que el tratamiento sea el mismo o que sea equivalente y que sea consistente en el tiempo; que no haya contaminacin de los grupos de tratamiento y control por el cruce de miembros de un grupo a otro (tratados dejan el tratamiento y luego vuelven, mientras que controles obtiene algo del tratamiento); y que no hayan respuestas compensatorias por parte de los ejecutores de las actividades o administradores de los servicios.

Tambin estn las barreras ticas, que bloquean principio la creacin inducida de grupos tratados y de control (es correcto hacer este tipo de estudios?, es correcto negar a algunos que tienen derecho a un tratamiento de acuerdo con la ley y las condiciones del tratamiento en s [entitlement] slo para probar que el tratamiento funciona?).

En este mismo plano est el hecho de que los tratados deben participar voluntariamente (consentimiento informado), pero esto genera una respuesta conductual que puede afectar la validez interna (el efecto pre-tratamiento).

Una solucin al ataque poltico: en vez de que una agencia estatal (municipalidad, oficina descentralizada de programa) entregue un tratamiento aleatoriamente que lo haga una entidad privada, as se evita que se boicotee la asignacin por no ser universal, al menos durante un tiempo.

La imagen siguiente muestra los resultados de un diseo como el segundo. La diferencia entre los NEG tratado (azl) y no tratado (verde) es de 5 puntos (55 vs. 50) antes del tratamiento, o sea, cuando se traza la lnea de base. La medicin despus del tratamiento revela que la diferencia entre ambos grupos es 15 (65 vs. 50).

NEG QE

Qu otras cosas, adems del tratamiento podran haber causado la diferencia?

Sesgo de seleccin o autoseleccin: los tratados reunan las mejores condiciones para producir resultados siguiendo el tratamiento (los ms motivados, los que ms invirtieron previamente en s mismos, los que buscaron ms informacin y llegaron antes, etc., factores todos que estn correlacionados).

Diferentes historias o eventos externos: diferentes factores pudieron hacer que los tratados reaccionaran de manera diferente que los no tratados incluso en ausencia del tratamiento. Enterarse de estar en el programa puede ser suficiente para gatillar una reaccin diferente. La misma informacin vista por los no tratados puede desencadenar una reaccin conductual: puede que se desanimen y eso los lleve a peores resultados que al inicio, o puede que redoblen el esfuerzo y eso los haga mejorar incluso sin recibir el tratamiento.

Diferencias en maduracin: los grupos pueden estar en diferentes etapas de sus procesos de evolucin natural y, por ende, los tratados habran evolucionado mejor que los no tratados an sin tratamiento.

Diferente posicin con respecto a la media poblacional: ambos grupos bien pueden ser submuestras que estn en diferentes partes de la distribucin con respecto a la media y, por lo tanto las diferencias de sus medias (muestrales) reflejarn esa posicin relativa, no necesariamente los efectos del programa.

Diferencia en historias o en tendencias a la media

(history threat or regression to the mean threat)

Diferencias en fases o tasas de maduracin

Diferencia en tendencias a la media

(regression to the mean threat)

Diferencias en posicin en la distribucin o en tendencias a la media (regression to the mean threat)

El nico patrn que revelara de manera categrica que el tratamiento tiene un efecto es cualquier patrn donde las medidas pre y post-test en ambos grupos se cruzan.

Diferencias en maduracin es una hiptesis dbil porque si se asumen se tendra que los controles dejaron de madurar o que lo hicieron ms lentamente hasta detener ese proceso, habra que asumir que los tratados no cesaron de madurar.

La hiptesis de diferentes tendencias a la media tambin es dbil porque las medias post-test son diferentes y deberan ser (estadsticamente) iguales.

En NEG tales como se usan las dos muestras para correr un modelo lineal con una dummy que capture la diferencia post-test, controlando la diferencia pre-test:

Ojo, este modelo implica que los grupos tratado y no tratado se distribuyen normalmente y que tienen las mismas varianzas.

Pero si no tienen distribuciones normales (al menos uno de ellos) o tienen varianzas estadsticamente diferentes donde la mayor varianza es ms de 4 veces la menor, entonces no se puede aplicar ANOVA.

Soluciones:

http://www.basic.northwestern.edu/statguidefiles/oneway_anova_alts.html

transformacin de los datos (por ejemplo, a logaritmos, lo que reduce la asimetra).

mtodos no paramtricos, por ejemplo, el test de rango Kruskal-Wallis (KW), que no requiere ninguno de tales supuestos.

Una solucin que se aplica en el muestreo es la estratificacin de la muestra con afijacin ptima (considerando el costo de la recoleccin) o con afijacin de mnima varianza de Neyman (http://todoestadistica.blogspot.com/2009/05/muestre-estratificado-afijacion.html), para lograr una varianza uniforme.

APPAM

On the Frontier of the "Why" and "When" of Social Experiments

https://www.youtube.com/watch?v=QAWyXrjSLvo&list=PL1ZRz82rFkPbQ-qr8m0U6svVeIyuW6CfR

Cost Analysis in Program Evaluation

https://www.youtube.com/watch?v=-BP0BcfTjyw

Talk: On the Frontier of the "Why" and "When" of Social Experiments

The Association for Public Policy Analysis and Management

https://www.youtube.com/watch?v=QAWyXrjSLvo&list=PL1ZRz82rFkPbQ-qr8m0U6svVeIyuW6CfR

Una vez teniendo las lneas de base sera ms fcil crear aleatoriamente grupos de tratados y controles para establecer causalidad.

Para que el diseo anterior se aproxime a este del costado (P-P NEG Q-E) sera importante en principio tener lneas de base actualizadas con indicadores de resultado.

Este ltimo es el diseo que siguen las evaluaciones que se hacen en el Per (porque se hacen cuando los programas ya empezaron o incluso cuando culminaron).