Clase1 STATA

download Clase1 STATA

of 30

Transcript of Clase1 STATA

  • 7/31/2019 Clase1 STATA

    1/30

    Centro de Microdatos

    2011

    Anlisis de DatosMagister en Polticas Pblicas

    Javiera Vsquez

  • 7/31/2019 Clase1 STATA

    2/30

    Introduccin

    La mayora de las decisiones en economa y polticas pblicas depender de cun bien podamos

    entender, las relaciones entre las variables que nos rodean.

    Al momento de disear una poltica pblica se debe tener una pregunta concreta en trminoscuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para

    afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas

    cuantitativas, y adicionalmente, debemos tener clara cul es la causalidad de la relacin entre las

    variables.

    Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:

    El cuidado prenatal lleva a tener hijos ms saludables? La Reforma Previsional, mejor la calidad de vida de los adultos mayores? EL programa de Subsidio a la Contratacin de Trabajadores Jvenes, incrementar la

    formalizacin del trabajo juvenil?

    Hay discriminacin por gnero en el mercado laboral?Hay discriminacin por aparienciafsica en el mercado laboral?

    Cul es el impacto de las restricciones a los fumadores sobre el hbito de fumar? Qu impacto ha tenido el programa Chile Crece Contigo? Existe mayor vulnerabilidad econmica en los hogares monoparentales? Cmo afecta la disponibilidad de salas cunas a la tasa de participacin femenina?

    Para que los datos nos entreguen respuestas concretas y tiles a estas preguntas debemos

    aprender a trabajar con ellos, para esto es importante adquirir prctica en organizar la

    informacin y presentarla de manera informativa, entender la aleatoriedad y cuando lo que

    encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos

    pueden ser usados para interpretar la informacin emprica.

    Datos Experimentales versus No Experimentales

    El escenario ideal para estimar el efecto de un tratamiento o de una poltica es hacer cambios

    experimentales (controlados) sobre una variable y observar los cambios en la variable de inters.

    Adems para tener una base de comparacin necesitamos un grupo de control. Esto es lo que

    generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de

    tratamiento y un grupo de control con caractersticas similares, y slo a los del grupo de

    tratamiento se le entrega la droga y a los del grupo de control unplacebo, luego podemos analizar

    simplemente comparando ambos grupos cuales son los efectos de la droga.

    En polticas pblicas la asignacin aleatoria de un tratamiento o poltica es algo bastante ms

    complejo, ya que una poltica es diseada para la poblacin o un grupo de ellas y a veces no es

    tico darle prioridad aleatoria a un grupo versus otro. Adems implementar un experimento en

  • 7/31/2019 Clase1 STATA

    3/30

    polticas pblicas es mucho ms costoso porque requiere la implementacin del programa

    propiamente tal a una escala menor. De esta forma, en la mayora de los casos que estudiemos no

    disponemos de Datos Experimentales sino de Datos Observados o No Experimentales.

    Cuando los datos son de naturaleza experimental, el efecto causal de la poltica (o tratamiento) se

    puede obtener tomando la diferencia de promedios de la variable de resultados entre el grupo detratamiento y control, por ejemplo, tomando el peso al nacer promedio de bebes de madres con

    cuidado prenatal y restndole el peso al nacer promedio de bebes de madres sin cuidado prenatal.

    Sin embargo, si los datos no son experimentales debemos utilizar tcnicas economtricas para

    estimar el efecto causal, estas herramientas se preocupan de aislar el efecto que otras variables,

    distintas al tratamiento, pueden tener sobre el resultado (outcome).

  • 7/31/2019 Clase1 STATA

    4/30

    Tipos de Datos

    Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de

    Tiempo, y Datos de Panel (o Longitudinales).

    Corte Transversal

    Los datos de corte transversal se caracterizan por recopilar informacin para varias unidades en un

    momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas,

    regiones, etc.

    Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN.

    La Figura 1 muestra un ejemplo de una base de corte transversal de pases, que muestra la tasa de

    mortalidad, expectativa de vida, y otras variables para el ao 2005.

    Figura 1

    Datos de tipo Corte Transversal

  • 7/31/2019 Clase1 STATA

    5/30

    Series de Tiempo

    Las series de tiempo representan observaciones para una sola unidad en varios momentos del

    tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc.

    Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del ProductoInterno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver

    Figura 2.

    Figura 2

    Datos de tipo Serie de Tiempo

    Datos de Panel o Longitudinales

    Los datos longitudinales corresponden a observaciones de varias unidades en distintos momentosdel tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, nmero de alumnos, nmero de

    profesores, para varios colegios entre los aos 2000 y 2008.

    La ventaja de los datos de panel es que observamos la mima unidad en diferentes momentos del

    tiempo lo que nos permite estudiar la dinmica en el comportamiento de diversas variables.

  • 7/31/2019 Clase1 STATA

    6/30

    La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios pases entre el ao

    2004 y 2009.

    Figura 3

    Datos de tipo Datos de Panel

  • 7/31/2019 Clase1 STATA

    7/30

    Una primera inspeccin de los datos

    Lo primero que debe hacer todo investigador que trabaja con una base de datos, ya sea de

    creacin propia o externa, antes de aplicar modelos estadsticos, es inspeccionar y explorar los

    datos de modo correcto.

    Qu debemos tener presente cuando inspeccionamos los datos?

    A qu nivel de agregacin queremos trabajar y presentar los datos: individuos, hogar,comunas, regiones, etc.

    Qu tipo de grfico me permite mostrar de manera clara y ordenada los resultados,incluso es relevante fijarse en las escalas de los ejes de los grficos que los haga

    comparable entre ellos, y relevantes para el anlisis.

    Seleccin correcta de la informacin que se mostrar, no siempre es preferible ms amenos, no es recomendable presentar muchos datos ni grficos, sino saber elegir los

    correctos.

    Para revisar algunos conceptos relacionados con la inspeccin de los datos utilizaremos la

    Encuesta CASEN 2009 (http://www.mideplan.gob.cl/casen/index.html), especficamente

    trataremos de producir estadsticas descriptivas y grficos en STATA que nos permitan analizar la

    situacin de los ingresos, pobreza, y desigualdad en Chile.

    Para nuestro primer anlisis utilizaremos como medida el ingreso autnomo per-cpita del hogar1,

    el que puede ser generado a partir de la informacin disponible en la encuesta:

    1El Ingreso Autmomo se define como aquel por concepto de sueldos y salarios, ganancias provenientes del

    trabajo independiente, autoprovisin de bienes producidos por el hogar, bonificaciones, gratificaciones,

    rentas, intereses, as como jubilaciones, pensiones, montepos y transferencias entre privados.

    use casen2009.dta, clear

    egen hogarid=group(segmento folio)

    g s=1 if pco1!=14

    replace s=0 if pco1==14

    egen n=sum(s), by(hogarid)

    gen yauthpc=yauthaj/n

    http://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.html
  • 7/31/2019 Clase1 STATA

    8/30

    histogram yauthpcif yauthpc

  • 7/31/2019 Clase1 STATA

    9/30

    histogram yauthpc if yauthpc

  • 7/31/2019 Clase1 STATA

    10/30

    histogram yauthpc if yauthpc

  • 7/31/2019 Clase1 STATA

    11/30

    kdensity yauthpc if yauthpc

  • 7/31/2019 Clase1 STATA

    12/30

    necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver

    grficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de

    tendencia central y las medidas de dispersin.

    Medidas de Tendencia Central

    Las medidas de tendencia central, tal como lo dice su nombre hablan del punto medio de la

    distribucin.

    Una medida de tendencia central es la media aritmtica (o promedio), la que representa elpunto

    de equilibrio de la distribucin:

    Por ejemplo, el promedio entre los nmeros 1 y 9 es 5, ya que de esta manera se equilibra ladistribucin de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre

    9 y 5.

    Veamos otro ejemplo, supongamos los siguientes nmeros: 1, 2, 3, 4, y 5. La media aritmtica de

    estos nmeros es 3, ya que de esta manera equilibramos la distribucin de estos nmeros.

    Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3)

    es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales

    a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que

    estn sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la

    media, lo que tambin suma 3. De esta forma, vemos que la media es el nmero que logra

    equilibrar la distribucin de los nmeros observados.

    Tabla 1

    Ejemplo media aritmtica

    Nmeros

    Diferencia absoluta con

    respecto a la media

    Suma antes y despus de la

    media

    1 2

    2 1

    3 0 3

    4 1

    5 2 3

    La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 nmeros cuya media aritmtica es

    26.75. Slo dos de los ocho nmeros estn sobre la media aritmtica y los restantes seis estn bajo

    la media, podemos ver que la suma de la diferencia absoluta de cada uno de los nmeros que

  • 7/31/2019 Clase1 STATA

    13/30

    estn bajo la media con respecto a la media es exactamente igual a la suma de las diferencias

    absolutas de los nmeros que estn sobre la media.

    Tabla 2

    Ejemplo media aritmtica

    Nmeros

    Diferencia absoluta con

    respecto a la media

    Suma antes y despus de la

    media

    10 16.75

    11 15.75

    12 14.75

    13 13.75

    13 13.75

    15 11.75 86.5

    40 13.25

    100 73.25 86.5

    Veamos un caso an ms extremo, la Tabla 3 nos muestra un listado de 12 nmeros, los primeros

    11 nmeros son bastante pequeos (menores o iguales a 1), pero el ltimo nmero es un nmero

    bastante grande, lo que hace que para equilibrar estos nmeros el promedio va a ser un nmero

    bastante ms grande que los primeros 11 nmeros, en efecto el promedio de estos 12 nmeros es

    8.79, y 11 de los 12 nmeros estn bajo el promedio, mientras que 1 slo est sobre el promedio.

    Tabla 3

    Ejemplo media aritmtica

    Nmeros

    Diferencia absoluta con

    respecto a la media

    Suma antes y despus de la

    media

    0 8.79

    0.1 8.69

    0.2 8.59

    0.3 8.49

    0.4 8.39

    0.5 8.29

    0.6 8.19

    0.7 8.090.8 7.99

    0.9 7.89

    1.0 7.79 91.21

    100 91.21 91.21

  • 7/31/2019 Clase1 STATA

    14/30

    Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como

    una medida de tendencia central, esta medida es bastante sensible a valores extremos en la

    distribucin de nmeros.

    En el caso del ingreso autnomo per-cpita de la encuesta CASEN 2009, la media de esta variable

    es $130,992.7:

    De las 244,511 observaciones, 162,504 (66.5%) estn bajo la media y 82,007 (33.5%) estn sobre la

    media.

    Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la

    mitad de la distribucin, es decir, si ordenamos las observaciones de menor a mayor valor de lavariable, la mediana es el valor de la observacin que est justo en la mitad, dejando la misma

    cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida

    de tendencia central ms robusta que la media, en el sentido que no es afectada por valores

    extremos.

    En el ejemplo de la Tabla 1 tenemos 5 nmeros, donde el nmero 3 corresponde al que est justo

    en la mitad de estos 5 nmeros, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2

    tenemos 8 nmeros, no existe un nico nmero que este en la mitad, en este caso tenemos que

    considerar los nmeros en la posicin 4 y 5 para calcular la mediana, como ambos nmeros son

    iguales a 13, la mediana de estos nmeros es 13. Finalmente, en la Tabla 3 tenemos 12 nmeros,nuevamente al ser un nmero par no existe un nico nmero en la mitad, tenemos que considerar

    los nmeros en la posicin 6 y 7 para calcular la mediana, la que corresponde al promedio de estos

    dos nmeros, 0.55.

    La mediana del ingreso autnomo per-cpita es $93,361.7, bastante menor a la media ya que esta

    medida no es sensible a los valores extremos, ingresos elevados.

    La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a travs del

    comando summarize con la opcin detail.

  • 7/31/2019 Clase1 STATA

    15/30

    histogram yauthpc if yauthpc

  • 7/31/2019 Clase1 STATA

    16/30

    Simetra de una distribucin

    Se dice que una distribucin es simtrica con respecto a la media3 si existe el mismo nmero de

    valores a la derecha de la media que a la izquierda de la media, esto significa que el lado derecho

    de la distribucin es un espejo del lado izquierdo de la distribucin.

    Por ejemplo, la siguiente variable es simtrica en torno a su media que es igual a 3

    Grfico 6

    Histograma de variable simtrica en torno a la media

    Para saber de manera ms objetiva si la variable es simtrica o no, y no simplemente utilizando la

    inspeccin grfica, podemos calcular el coeficiente de asimetra. Si este coeficiente es igual a cero

    se dice que la variable tiene una distribucin simtrica en torno a la media, en este ejemplo el

    coeficiente de asimetra es -0.0054. Si el coeficiente de asimetra es positivo la variable tiene una

    distribucin que concentra ms observaciones a lado izquierdo de la distribucin (bajo la media),

    por el contrario si el coeficiente de asimetra es negativo hay ms observaciones en el lado

    derecho de la distribucin (sobre la media).

    3La simetra se puede definir tambin con respecto a la mediana o cualquier otro punto de inters, por

    ejemplo, el punto ms alto de la distribucin.

    0

    .1

    .2

    .3

    .4

    -3 -2 -1 0 1 2 3 4 5 6 7 8 9

  • 7/31/2019 Clase1 STATA

    17/30

    g lyauthpc=ln(yauthpc)

    (8829 missing values generate)

    histogram yauthpc if yauthpc>0 & yauthpc

  • 7/31/2019 Clase1 STATA

    18/30

    Grfico 7

    El coeficiente de asimetra de la variable en logaritmo es bastante ms pequeo:

    0

    5

    10

    15

    0 200000 400000 600000 800000 1000000Ingreso Autnomo per-cpita del hogar

    Fuente: Elaboracin propia en base a Encuesta CASEN 2006

    Distribucin Emprica

    Ingreso Autnomo per-capita

    0

    2

    4

    6

    8

    10

    Porcentaje

    4 6 8 10 12 14Ingreso Autnomo per-cpita del hogar

    Fuente: Elaboracin propia en base a Encuesta CASEN 2006

    Distribucin Emprica

    Logaritmo Ingreso Autnomo per-capita

  • 7/31/2019 Clase1 STATA

    19/30

    Medidas de dispersin

    Tal como dice su nombre las medidas de dispersin tienen que ver con que tan dispersas estn las

    observaciones, o que tan concentradas estn.

    Una medida de dispersin es la varianza (2):

    Varianza poblacional:

    Varianza muestral:

    La varianza corresponde el promedio de las desviaciones al cuadrado de cada observacin con

    respecto a la media de la variable. Notemos que nos interesan las desviaciones, razn por la cual

    se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la

    medida de dispersin le da ms peso a las observaciones ms distantes en el promedio. Otra

    consecuencia de que se midan las desviaciones al cuadrado es que la medida quedara expresada

    en el cuadrado de la unidad en la que medida la variable, lo cual dificulta bastante la

    interpretacin. Por esta razn usualmente se utiliza la desviacin estndar que consiste en tomar

    raz cuadrada de la varianza, por lo cual la medida de dispersin queda expresada en la mismaunidad de la variable estudiada.

    Desviacin estndar muestral:

    La desviacin estndar del ingreso autnomo per-cpita es de $130,662.

    El siguiente grfico nos muestra variables generadas aleatoriamente con distribucin normal con

    media 1, pero diferentes varianzas (desviaciones estndar).

  • 7/31/2019 Clase1 STATA

    20/30

    clear

    set obs 10000

    matrix desv1=1

    matrix desv2=sqrt(2)

    matrix desv3=sqrt(3)

    matrix desv4=2

    drawnorm var1, m(1) sd(desv1)

    drawnorm var2, m(1) sd(desv2)

    drawnorm var3, m(1) sd(desv3)

    drawnorm var4, m(1) sd(desv4)

    histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1) saving(var1,

    replace)

    histogram var2, percent fcolor(purple) xtitle(media=1 varianza=2) saving(var2,

    replace)

    histogram var3, percent fcolor(purple) xtitle(media=1 varianza=3) saving(var3,

    replace)

    histogram var4, percent fcolor(purple) xtitle(media=1 varianza=4) saving(var4,

    replace)

    graph combine var1.gph var2.gph var3.gph var4.gph, xcommon

    Grfico 8

    0

    2

    4

    6

    8

    -10 -5 0 5 10

    media=1 varianza=1

    0

    2

    4

    6

    8

    Percent

    -10 -5 0 5 10

    media=1 varianza=2

    0

    2

    4

    6

    8

    -10 -5 0 5 10

    media=1 varianza=3

    0

    2

    4

    6

    8

    Percent

    -10 -5 0 5 10

    media=1 varianza=4

  • 7/31/2019 Clase1 STATA

    21/30

    graph box yauthpc if yauthpc>0 & yauthpc

  • 7/31/2019 Clase1 STATA

    22/30

    Grfico 9

    La lnea dentro de la caja corresponde a la mediana de la variable (medida de tendencia central), la

    parte superior de la caja representa el percentil 75 y la parte baja de la caja el percentil 25, por lo

    cual la altura de la caja representa el rango inter-cuartil (medida de dispersin). La lnea que esta

    por sobre la caja define la cantidad de valores extremos en la variable, todas las observaciones

    sobre esta lnea son valores extremos o outliers. Esta lnea se est definida por el percentil 75 ms1.5 veces el rango inter-cuartil, de manera equivalente la lnea que est bajo la casa corresponde

    al percentil 25 menos 1.5 veces el rango inter-cuartil.

    Medidas de desigualdad

    Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la lnea de

    indigencia y pobreza definida segn el consumo de una canasta bsica por MIDEPLAN. Para el ao

    2009 se tienen los siguientes valores de lnea de indigencia y pobreza:

    Tabla 4Lnea de indigencia

    Urbana 32,067

    Rural 24,710

    Lnea de pobreza

    Urbana 64,134

    Rural 43,242

    0

  • 7/31/2019 Clase1 STATA

    23/30

    **Ingreso total per-cpita

    g ingpc=ytothaj/n

    ***Ingreso del trabajo del hogar****

    g ytrab= ytrabhaj

    replace ytrab=. if ytrab==0

    ***Ingreso Autonomo ditisntos del trabajo, del hogar***

    g yaut2=yauthaj-ytrab

    replace yaut2=. if yaut2==0

    ***Ingresos de subsidios del hogar***

    g ysub=ysubhaj

    replace ysub=. if ysub==0

    ***Alquiler imputado***

    g alq=yaimhaj

    replace alq=. if alq==0

    ***Ingreso Autonomo Percapita del hogar***

    g yaupc=yauthaj/nreplace yaupc=. if yaupc==.

    Para definir si un individuo tiene un ingreso bajo o sobre la lnea de pobreza o indigencia, se

    calcula su ingreso per-cpita del hogar, tomando el ingreso total del hogar y dividindolo por el

    nmero de personas en el hogar, excluyendo el servicio domstico.

    Los ingresos totales del hogar se pueden dividir en:

    Ingreso autnomo del hogaro Ingresos laboraleso Otras fuentes de ingresos (rentas, pensiones, etc.)

    Ingresos por subsidios monetarios Alquiler imputado

    Dos medidas de desigualdad ampliamente utilizadas son la razn entre el ltimo y primer quintil, y

    la razn entre el ltimo y primer decil.

    A continuacin tomaremos las diferentes medidas de ingreso para analizar las medidas de

    tendencia central, dispersin, y desigualdad.

  • 7/31/2019 Clase1 STATA

    24/30

  • 7/31/2019 Clase1 STATA

    25/30

    sum yaut2 [w=expr] if o==1 & quintil_au2==1

    matrix MED[2,5]=r(mean)

    sum yaut2 [w=expr] if o==1 & quintil_au2==5

    matrix MED[2,6]=r(mean)

    sum yaut2 [w=expr] if o==1 & decil_au2==1

    matrix MED[2,7]=r(mean)

    sum yaut2 [w=expr] if o==1 & decil_au2==10

    matrix MED[2,8]=r(mean)

    sum ysub [w=expr] if o==1, detail

    matrix MED[3,1]=r(mean)

    matrix MED[3,2]=r(sd)

    matrix MED[3,3]=r(p25)

    matrix MED[3,4]=r(p75)

    sum ysub [w=expr] if o==1 & quintil_sub==1matrix MED[3,5]=r(mean)

    sum ysub [w=expr] if o==1 & quintil_sub==5

    matrix MED[3,6]=r(mean)

    sum ysub [w=expr] if o==1 & decil_sub==1

    matrix MED[3,7]=r(mean)

    sum ysub [w=expr] if o==1 & decil_sub==10

    matrix MED[3,8]=r(mean)

    sum alq [w=expr] if o==1, detail

    matrix MED[4,1]=r(mean)

    matrix MED[4,2]=r(sd)

    matrix MED[4,3]=r(p25)

    matrix MED[4,4]=r(p75)

    sum alq [w=expr] if o==1 & quintil_alq==1

    matrix MED[4,5]=r(mean)

    sum alq [w=expr] if o==1 & quintil_alq==5

    matrix MED[4,6]=r(mean)

    sum alq [w=expr] if o==1 & decil_alq==1

    matrix MED[4,7]=r(mean)sum alq [w=expr] if o==1 & decil_alq==10

    matrix MED[4,8]=r(mean)

  • 7/31/2019 Clase1 STATA

    26/30

    sum yaupc [w=expr] if o==1, detail

    matrix MED[5,1]=r(mean)

    matrix MED[5,2]=r(sd)

    matrix MED[5,3]=r(p25)

    matrix MED[5,4]=r(p75)

    sum yaupc [w=expr] if o==1 & quintil_aupc==1

    matrix MED[5,5]=r(mean)

    sum yaupc [w=expr] if o==1 & quintil_aupc==5

    matrix MED[5,6]=r(mean)

    sum yaupc [w=expr] if o==1 & decil_aupc==1

    matrix MED[5,7]=r(mean)

    sum yaupc [w=expr] if o==1 & decil_aupc==10

    matrix MED[5,8]=r(mean)

    sum ingpc [w=expr] if o==1, detailmatrix MED[6,1]=r(mean)

    matrix MED[6,2]=r(sd)

    matrix MED[6,3]=r(p25)

    matrix MED[6,4]=r(p75)

    sum ingpc [w=expr] if o==1 & quintil_totpc==1

    matrix MED[6,5]=r(mean)

    sum ingpc [w=expr] if o==1 & quintil_totpc==5

    matrix MED[6,6]=r(mean)

    sum ingpc [w=expr] if o==1 & decil_totpc==1

    matrix MED[6,7]=r(mean)

    sum ingpc [w=expr] if o==1 & decil_totpc==10

    matrix MED[6,8]=r(mean)

    local i=1

    while `i'

  • 7/31/2019 Clase1 STATA

    27/30

    La razn de deciles y quintiles nos permiten estudiar la distribucin o desigualdad en las distintas

    medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil ms alto obtienen

    ingresos del trabajo que son en promedio ms de 37 veces los ingresos de las personas del decil

    ms bajo. Esto puede ser de alguna manera compensado (al menos en trminos relativos) con los

    subsidios, ya que la razn entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con

    respecto a la razn de quintiles, las personas que estn en el 20% de mayores ingresos del trabajo

    tienen ingresos por este tem promedio que son 16.2 veces los ingresos de trabajo de las personasque estn en el 20% inferior.

    En trminos de ingreso autnomo per-cpita la desigualdad de ingresos nos muestra que las

    personas del decil ms alto tienen un ingreso 78.7 veces el ingreso de las personas del decil ms

    bajo. En trminos de quintiles la razn (desigualdad) es menor, nos muestra que las personas en el

    quintil ms acomodado tiene un ingreso autnomo 24 veces el ingreso del primer quintil. Pero si

    nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autnomos ms

    los subsidios monetarios y alquiler imputado, se tiene que la razn de deciles es poco menos de la

    mitad de la misma medida para el ingreso autnomo, y la razn de quintiles es 15.8.

    Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de

    Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en

    manos del porcentaje acumulado de la poblacin. La Figura 5 nos muestra la Curva de Lorenz en

    rojo, en el eje horizontal nos va mostrando la proporcin de la poblacin que va desde cero a 1, y

    en el eje vertical la proporcin del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la

    poblacin acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de

  • 7/31/2019 Clase1 STATA

    28/30

    lorenz yaupc

    lorenz mayor es la desigualdad, y mientras ms recta sea la curva menor es la desigualdad, en el

    extremo no existe desigualdad en la lnea negra (45).

    Figura 5

    Grfico 10

  • 7/31/2019 Clase1 STATA

    29/30

    inequal yaupc

    Esta medida de desigualdad es grfica y dificulta la comparacin con otras variables. El coeficiente

    de Gini es un indicador ms objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un

    nmero que est entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a

    perfecta desigualdad.

    El Coeficiente de Gini se obtiene de dividir el rea que hay entre la lnea de perfecta igualdad y laCurva de Lorenz (a), y el rea total bajo la lnea de perfecta igualdad (a+b).

    Figura 6

    Coeficiente de Gini

    Para obtener el coeficiente de GINI del ingreso autnomo per-cpita podemos utilizar el comando

    inequal de STATA:

    El coefiente del Gini del ingreso autnomo per-cpita es 0.513 o 51.3%.

  • 7/31/2019 Clase1 STATA

    30/30

    La interpretacin del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la

    diferencia en ingresos autnomos per-cpita de estas dos personas como proporcin del ingreso

    promedio:

    Es el doble del coeficiente de GINI, es decir, en este caso 102.6%.

    Todos los indicadores que hemos presentados: medidas de tendencia central, medidas de

    dispersin, y medidas de desigualdad, lo hemos mostrando pensando en el anlisis de una sola

    variable. Sin embargo, en muchos casos nos interesar hacer comparaciones entre estadsticos de

    diferentes variables o para diferentes grupos, por ejemplo, podramos comparar los ingresos

    promedios entre hombre y mujeres.

    Una forma de compararlos sera simplemente tomar la diferencia entre el ingreso promedio de los

    hombres y el ingreso promedio de las mujeres, esto nos entregar un nmero. Pero no sabremos

    si decir si ese nmero es grande o pequeo, o afirmar que realmente la diferencia existe, para esto

    necesitamos determinar si el valor encontrado es estadsticamente diferente de cero.

    A continuacin comenzaremos a desarrollar el marco conceptual que ms adelante nos permitir

    responder esta pregunta.