Métodos para el análisis de datos...

31
Métodos para el análisis de datos biográficos Daniel Courgeau* En este artículo se presentan tres enfoques para analizar datos biográficos. E l enfoque no paramétrico permite tratar las interacciones de varios fenómenos demográficos y con- duce a diversos tipos de dependencia entre ellos. E l enfoque paramétrico busca introdu- cir en el análisis la heterogeneidad observada en el seno de la población, relacionando los comportamientos temporales con diversas características dependientes o indepen- dientes del tiempo. En enfoque semiparamétrico hace posible un tratamiento simultáneo de las interacciones y de la heterogeneidad. La cuestión de la heterogeneidad no obser- vada en los datos se aborda también. Estos diversos métodos se ilustran por medio de ejemplos de aplicación con datos provenientes de encuestas. Introducción Mientras el análisis longitudinal clásico privilegió el estudio de un evento, los demás fueron considerados perturbadores. Ante esta si- tuación, el análisis de datos biográficos trata de ver la manera cómo diversos eventos de la existencia influyen sobre el desarrollo posterior de la vida del individuo, y cómo algunas características llevan al indi- viduo a comportarse de una manera diferente de los demás. Este cambio de perspectiva conduce a formular las bases del aná- lisis de datos biográficos en términos del análisis de procesos estocas- ticos complejos. Trabajos en probabilidad, realizados sobre todo en Francia, permitieron establecer firmemente este análisis sobre la teo- ría de las martingalas (Dellacherie y Meyer, 1980), la integración es- tocástica (Kunita y Watanabe, 1967; Dellacherie, 1980) y los procesos de conteo, countingprocesses (Bremaud y Jacod, 1977). No obstante, sólo presentamos aquí una visión simplificada de estos métodos y re- mitimos al lector interesado en sus fundamentos teóricos a la muy completa obra de Andersen el al. (1993). Trataremos primero de ver cómo un evento familiar, económico o de otro tipo experimentado por un individuo modifica las probabi- lidades de ocurrencia de otros eventos de su existencia. Trataremos de examinar, por ejemplo, cómo el matrimonio puede influir sobre la carrera laboral, la vida familiar y la movilidad espacial. Estos nos * Institut National d'Etudes Démographiques. [599]

Transcript of Métodos para el análisis de datos...

Page 1: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

Métodos para el análisis de datos biográficos

Daniel Courgeau*

En este artículo se presentan tres enfoques para analizar datos biográficos. E l enfoque no paramétrico permite tratar las interacciones de varios fenómenos demográficos y con­duce a diversos tipos de dependencia entre ellos. E l enfoque paramétrico busca introdu­cir en el análisis la heterogeneidad observada en el seno de la población, relacionando los comportamientos temporales con diversas características dependientes o indepen­dientes del tiempo. En enfoque semiparamétrico hace posible un tratamiento simultáneo de las interacciones y de la heterogeneidad. La cuestión de la heterogeneidad no obser­vada en los datos se aborda también. Estos diversos métodos se ilustran por medio de ejemplos de aplicación con datos provenientes de encuestas.

Introducción

M i e n t r a s el análisis l o n g i t u d i n a l clásico privilegió e l es tudio de u n evento, los demás f u e r o n considerados per turbadores . A n t e esta si­tuación, el análisis de datos biográficos trata de ver la m a n e r a c ó m o diversos eventos de la existencia in f luyen sobre el desarrol lo poster ior de la v ida de l i n d i v i d u o , y c ó m o algunas características l levan al i n d i ­v iduo a comportarse de u n a manera di ferente de los demás.

Este cambio de perspectiva conduce a f o r m u l a r las bases de l aná­lisis de datos biográficos en términos de l análisis de procesos estocas-ticos complejos . Trabajos en p r o b a b i l i d a d , realizados sobre t o d o en Francia, p e r m i t i e r o n establecer firmemente este análisis sobre la teo­ría de las mart ingalas (Del lacherie y Meyer, 1980), la integración es-tocástica ( K u n i t a y Watanabe, 1967; Del lacherie , 1980) y los procesos de conteo , countingprocesses ( B r e m a u d y Jacod , 1977) . N o obstante , sólo presentamos aquí u n a visión s impl i f i cada de estos métodos y re­m i t i m o s al l e c t o r interesado en sus f u n d a m e n t o s teóricos a l a m u y completa obra de Andersen el al. (1993).

Trataremos p r i m e r o de ver c ó m o u n evento fami l ia r , e c o n ó m i c o o de o t r o t i p o exper imentado p o r u n i n d i v i d u o mod i f i ca las p r o b a b i ­l idades de o currenc ia de otros eventos de su existencia. Tra taremos de examinar , p o r e jemplo , c ó m o el m a t r i m o n i o puede i n f l u i r sobre la carrera l a b o r a l , la v ida f a m i l i a r y la m o v i l i d a d espacial. Estos nos

* Institut National d'Etudes Démographiques.

[599]

Page 2: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

600 E S T U D I O S DEMOGRÁFICOS Y URBANOS

llevará a general izar el análisis demográf ico clásico al es tudio de las interacciones de los eventos, gracias al método de análisis no paramé-trico.

Es preciso considerar luego la heterogene idad en el seno de las poblaciones, la cual inf luye sobre las probabi l idades de o currenc ia de u n evento dado. Por e jemplo , se puede pensar que el n ive l educativo de u n i n d i v i d u o o el o r d e n de n a c i m i e n t o entre h e r m a n o s i n f l u y e n sobre la p r o b a b i l i d a d de a b a n d o n a r el agro , según la c o n d i c i ó n de empresario o de trabajador agrícola. Esto nos llevará a general izar los métodos de regresión, de larga tradición en econometría, a los méto­dos de análisis paramétrico, que p e r m i t e n i n c l u i r la heterogene idad de las poblaciones de manera dinámica, en vez de estática.

Pero estos métodos conducen también a u n a representación pa-ramétrica de l t i e m p o de permanenc ia de los indiv iduos en diferentes estados; por lo tanto sus resultados no son completamente satisfacto­rios. Preferimos u n método que sintetice los dos análisis anteriores: el análisis semiparamétrico. E n efecto, esta técnica permi te conservar la es­timación n o paramétrica de los t iempos de p e r m a n e n c i a , al t i e m p o que incluye el efecto paramétrico de diversas características. Veremos en p a r t i c u l a r que este m é t o d o p e r m i t e resolver en parte los p r o b l e ­mas ligados a la heterogeneidad n o observada. I lustraremos esta pre ­sentación con aplicaciones a la encuesta Biografía Famil iar , Labora l y M i g r a t o r i a ( d e n o m i n a d a más senci l lamente 3B) , que se llevó a cabo en Francia durante 1981.

£1 análisis no paramétrico

C o m o lo indicamos antes, el desarrol lo de l análisis de datos biográfi­cos considerados como u n proceso estocástico conduce a u n a f o r m u ­lación probabilística, de la cual carecía completamente el análisis l o n ­g i t u d i n a l clásico. Para presentar este enfoque es pre fer ib le comenzar p o r e l caso más s imple , d o n d e se estudia, al i gua l que en e l análisis clásico, la ocurrenc ia de u n solo evento.

Formulación probabilística para un solo evento

Supongamos que estemos siguiendo u n a muestra de mujeres nacidas entre 1911 y 1935, como en la encuesta 3B, y que se observan las p r i m e -

Page 3: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 601

ras uniones que o curren durante el transcurso de l t i empo . 1 Es evidente que se p u e d e n extraer u n g r a n n ú m e r o de muestras d i ferentes que arro jan fechas de m a t r i m o n i o distr ibuidas de diferentes maneras. Sin e m b a r g o , la distribución t e m p o r a l de estas fechas n o será c o m p l e t a ­mente aleatoria, ya que proviene de una misma población. Se conside­ra entonces la edad al m a t r i m o n i o de estas mujeres como u n a variable aleatoria que puede tomar diversos valores (15, 16, 17 . . . ) , desconocidos a priori, pero sobre los cuales la observación de u n a muestra nos s u m i ­nistra u n a información cuya precisión trataremos de medir .

E l s iguiente paso consiste en formal izar esta información con u n a terminología probab i l i s ta . L a medic ión de la edad o de la durac ión en t i e m p o c o n t i n u o o discreto d ist ingue dos casos.

T i e m p o c o n t i n u o

Sea T u n a v a r i a b l e a l e a t o r i a p o s i t i v a o n u l a y c o n t i n u a ( p a r a este e j e m p l o : e l m o m e n t o d e l m a t r i m o n i o , m e d i d o c o n g r a n prec is ión con respecto al n a c i m i e n t o ) . Es posible d e f i n i r varias func iones aso­ciadas a esta variable a leator ia , algunas ya conocidas en demograf ía clásica.

L a función de permanenc ia (en estado de celibato) general iza la función de sobrevida o función de riesgo: es la p r o b a b i l i d a d de que el i n d i v i d u o n o haya e x p e r i m e n t a d o el evento (el m a t r i m o n i o e n este caso) antes de u n a fecha dada t

Se c o m p r u e b a fácilmente que S(0)=1 (todas las mujeres son solte­ras a la fecha de nac imiento ) y que S(°<>)>0 (algunas mujeres perma­necen solteras durante toda su v ida) . Sin embargo , s iempre se puede colocar a r t i f i c i a l m e n t e u n a masa en el i n f i n i t o (las mujeres solteras durante toda su v i d a ) , para que S(°°) =0.

L a densidad de probabilidad de l evento estudiado es la derivada con respecto al t i e m p o de S(t):

S(t)=P(T>t)

f(t) =\im At—> 0

P(t<T< t+At)

At

dS(t)

dt

1 Aquí se supone que el único evento posible es el matrimonio; obviamente el imi­naremos esta hipótesis más adelante.

Page 4: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

602 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

N o existe n ingún e q u i v a l e n t e de esta d e n s i d a d e n d e m o g r a f í a clásica.

Se pre f i e re la dens idad c o n d i c i o n a l , más c o m ú n m e n t e l l a m a d a en demografía cociente instantáneo:

k(t)Aim P ( T < t + A t l 7 ^ t ) - /(*)-_ d[logS(t)] A ^ O A i S(t) dt

Por def inic ión, este coc iente n o es necesar iamente m e n o r que u n o .

F ina lmente , i n t r o d u c i m o s el cociente acumulado, que t a m p o c o tie­ne equivalente en demografía clásica, pero que es indispensable para trabajar con eventos múltiples (abandono de l cel ibato p o r m a t r i m o ­n i o o por unión l ib re , p o r e j emplo ) :

H(t) = dlog S(x)

h(x)dx=

x = 0 0

dx=-\og S(t) dx

Se puede apreciar que u n a de estas diversas funciones basta para p o d e r calcular las otras.

T i e m p o discreto

Sea T u n a variable aleatoria discreta que puede tomar los valores tb ¿2 • • en los cuales p u e d e n o c u r r i r los eventos:

f(tl)=P(T=tl)

h(ti)= P(T=ti\T> t{) S(ti)

p o r l o tanto :

s(to- n [i-h(tj)]

Page 5: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 603

luego:

HftO—logSftO

U n a vez más, el cociente acumulado H^no t iene equivalente en demografía clásica.

Estimación para un solo evento

G e n e r a l m e n t e , la observación de la o c u r r e n c i a de u n evento n o es comple ta y algunos ind iv iduos p u e d e n dejar de ser observados antes de haber e x p e r i m e n t a d o el evento . E n el caso de l m a t r i m o n i o , p o r e jemplo , algunas mujeres solteras p u e d e n salir de observación, y a pe­sar de e l lo , casarse después de la encuesta. E n tales casos, hablaremos de datos censurados. N o discutiremos aquí los diversos tipos de censu­ra, p o r l o que r e m i t i m o s al lector interesado a la obra de A n d e r s e n et al (1993: 135-168).

Empecemos p o r suponer que se trabaja en t i e m p o discreto y que se observa en el m o m e n t o í¿, a ^ i n d i v i d u o s , de los cuales ¿¿¿experi­m e n t a n el evento y mt son censurados. Aquí se supone que los even­tos se p r o d u c e n antes de la salida de observación (censura).

Para estimar el cociente h(ti) correspondiente , se calcula la vero­s i m i l i t u d como función de l cociente y se t o m a como estimación e l va­l o r de l cociente que max imiza d i cha v e r o s i m i l i t u d . Su expresión es:

Se aprecia fácilmente que el máximo de L¿se presenta en los mis­mos valores de h(t¿) que el máximo de l o g (L¿). Por lo tanto , es más sencillo max imizar la expresión:

Se obt iene el máximo al anular la derivada con respecto a h(ti), lo que conduce al siguiente estimador:

Ni-di

logL i =d i logtAfí j ; ] + ( i V j - d j ) l o g [ l

h(h) = A d¡

Page 6: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

604 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

Su varianza se calcula gracias a las propiedades asintóticas de

^ÍÑ'i(h(ti)-h(ti))

Se trata de l inverso de la matr iz de información de Fisher, que en este caso es d iagonal :

dANi-dA var [&(*,•) =

D e allí se d e d u c e el e s t i m a d o r S(£¿), d e n o m i n a d o de K a p l a n y Meier :

•fíe * S U ) = 1 1 ( 1 — ) i-1

y el de /¿Yí¿/):

H(t,)=-log[S(t,)]

L a varianza as intot ica de S(t{) puede calcularse m e d i a n t e la fór­m u l a de Greenwood:

var[S(í,-)] = ( S ( í < ) ) 2 £ ^

y la de H(ti) con:

var [#(*,•)] = ¿ d j

Si trabajamos en t i e m p o c o n t i n u o , se r e q u i e r e n hipótesis suple­mentarias. Sigamos suponiendo que se observan ¿¿eventos y m¿salidas de observación en el i n t e r v a l o a n u a l [ £¿^,£¿1. Supongamos además

Page 7: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 605

que los cocientes instantáneos permanecen constantes en este i n t e r ­valo, t an t o para el evento estudiado h(ti), c o m o para la salida d e ob ­servación C(t{), y que los dos eventos sean independientes . C o n esto podemos calcular las contr ibuc iones a la v e r o s i m i l i t u d de los g r u p o s de ind iv iduos siguientes:

- los que per tenecen todavía a la muestra al final de l i n t e r v a l o , s in haber exper imentado el evento;

- los que exper imentan el evento; - los que salen de observación.

La maximización de l l o g a r i t m o de la v e r o s i m i l i t u d con respecto a h(ti)y a C(tt) conduce a u n sistema de ecuaciones de dos incógnitas, que p e r m i t e est imar de la m a n e r a s iguiente el cociente instantáneo (Courgeau y Leliévre, 1989: 60-61; 1992: 69-71).

h(tl)=-—^ l o g ( l d l + m i - d l

dl + mt N¡ A f - _ L W + m¿)

H a y que tener en cuenta que este cociente instantáneo n o es el m i s m o coc iente demográ f i c o clásico, el cua l m i d e la p r o b a b i l i d a d cond i c i ona l de exper imentar el evento a lo largo de l intervalo e n au­sencia de censuras:

qftj-l-expf-hfti)) = d

Ni 2 mi

Desde luego, es posible estimar S(t¿) y H(t^, así como las varianzas respectivas de los diferentes estimadores.

Se p u e d e n e l i m i n a r las hipótesis que sustentan estas es t imac io ­nes, con el propósito de obtener estimadores más satisfactorios, que p e r m i t a n analizar varios eventos en competic ión (riesgos múltiples).

Eventos competitivos

Supongamos a h o r a que u n i n d i v i d u o expuesto al riesgo p u e d a salir d e l estado i n i c i a l c on d i f e rentes a l ternat ivas : m o r t a l i d a d p o r cau-

Page 8: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

606 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

sas, salida d e l estado de so l tero hac ia la un ión l i b r e o e l m a t r i m o ­n i o , etcétera.

Si se calculan los estimadores de Kaplan y Meier para cada causa, considerando a las otras causas como censuras, tenemos que suponer la i n d e p e n d e n c i a entre los di ferentes riesgos; g e n e r a l m e n t e esta h i ­pótesis no se c u m p l e . Para evitar este inconven iente se p u e d e re for -m u l a r el p r o b l e m a en términos de procesos de conteo. Estos procesos p e r m i t e n estudiar ind iv iduos expuestos a riesgos múltiples e n t i e m p o c o n t i n u o .

E l proceso mul t i var iado N=((Nl (t),N2(t),...Nk(t);t)es u n a colec­ción de k procesos de conteo que pueden ser mutuamente dependien­tes. Para cada proceso estocástico Nj(t) se define u n proceso de intensi­d a d A i ( t), c o m o la p r o b a b i l i d a d de o c u r r e n c i a d e l evento i en e l intervalo (t, t + At), que conoce el pasado del proceso, F(t). Por lo tanto:

A t)=lim E[Nl(t+At)-Nl(t)\F(t))

¿¿-•o At

A a l e n (1978) desarrolló el m o d e l o de in tens idad m u l t i p l i c a t i v a , que expresa el proceso de intens idad de la siguiente manera :

A,(t)=hi(t) Y¡(t)

d o n d e Y¿(t) representa, p o r e jemplo , la población expuesta al riesgo de e x p e r i m e n t a r el evento i y h^t)!^ in tens idad de este evento para u n i n d i v i d u o dado. Anotemos aquí que es posible d e f i n i r Yi(t)áe ma­nera más compleja , p o r e jemplo cuando se estudia la migración entre áreas de u n m i s m o país; en ese caso, Y¿(t)puede representar el p r o ­duc to de las poblaciones de las dos áreas.

L a intens idad acumulada está dada p o r la fórmula:

Hi(t)= ¡ hi(x)dx

Se puede estimar esta in tens idad acumulada bajo hipótesis m u y poco restrictivas, u t i l i zando la teoría de las martingalas y los procesos de conteo (para mayores detalles sobre esta estimación, véase A n d e r -sen et al, 1993: 176-331). Si tñ < ti2 < .. .son las fechas observadas para la

Page 9: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 607

ocurrenc ia de l evento i en la población, el est imador de Nelson-Aalen de la in tens idad acumulada es e l s iguiente:

1

IT,-(*(,)]

y el est imador de su varianza es:

Var(Ht(t))^ —

Si varios eventos o c u r r e n en el instante £¿y(en esas condic iones ya no se t iene u n proceso de c onteo ) , se general izan estas estimaciones remplazando el u n o de l n u m e r a d o r p o r el número de eventos. Estas intensidades siempre están b i e n definidas, aun cuando los riesgos n o sean i n d e p e n d i e n t e s , y se puede c o m p r a r en t re ellas las gráficas de los e s t imadores de N e l s o n - A a l e n p a r a los diversos riesgos ( A a l e n , 1982:10-11) . S in e m b a r g o , se t r a t a de riesgos en u n c o n t e x t o e n el que las otras posibil idades de salida de l estado in i c ia l están presentes; g e n e r a l m e n t e es i m p o s i b l e ca lcular riesgos c u a n d o las otras causas h a n desaparecido (Courgeau y Leliévre, 1996: 649) .

C o m o veremos más ade lante , estas gráficas también son útiles cuando se desea probar la validez de diversos modelos paramétricos.

Interacciones entre eventos

Consideremos ahora el caso más general en el cual dos o más eventos p u e d e n o c u r r i r e interactuar . Examinaremos el caso bivariado y r e m i ­t imos al l e c tor interesado en los casos más comple jos a C o u r g e a u y Leliévre (1989: 85-91; 1992: 99-106).

T o m e m o s como e jemplo e l caso de las dependencias que pueden existir entre la salida del agro y el m a t r i m o n i o de empresarios o trabaja­dores agrícolas. Otros estudios efectuados en Francia han mostrado que, c on respecto a los demás, e l ce l ibato es m u c h o más c o m ú n e n t r e los hombres del agro. Cabe la duda de si los hombres que abandonan el me­dio agrícola conservan este celibato, o por el contrario , adoptan el com­portamiento del resto de la población. O t r a posible pregunta es si las m u ­jeres casadas abandonan más frecuentemente el agro que las solteras. La respuesta a este t ipo de preguntas requiere u n estudio biográfico.

Page 10: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

608 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

E n todos los casos se observan dos f enómenos que i n t e r v i e n e n en d o m i n i o s di ferentes de la v ida de l i n d i v i d u o , f enómenos cuyo o r d e n de o c u r r e n c i a n o está fijado de a n t e m a n o : el m a t r i m o n i o es pos ib le antes de dejar la act iv idad agrícola, o lo c o n t r a r i o , se puede abando­nar la a g r i c u l t u r a antes de casarse. Por lo tanto , t rataremos de ver si u n cambio de estado m a t r i m o n i a l o residencial mod i f i ca la p r o b a b i l i ­d a d de ocurrenc ia del o t r o evento.

C o n el propós i to de f o rma l i zar la situación, la i lus t ramos c o n el s iguiente esquema:

ESQUEMA 1 Representación de la interacción entre el matrimonio y el abandono de la agricultura

Solteros

En la agricultura No(0

(t)

r

Fuera de la agricultura N2(t)

h0l(t)

/¿2i (t\v)

Casados

N2(t)

A l comienzo, todos los ind iv iduos están en la situación 0 (solteros en la a g r i c u l t u r a ) ; de acuerdo con su evolución, ellos p u e d e n dec id i r pasar a la situación 1 (casados en la a g r i c u l t u r a ) o a la situación 2 (solteros fuera de la a g r i c u l t u r a ) , para poder l legar a la situación final (casados fuera de la a g r i c u l t u r a ) , alcanzada sólo p o r algunos m i e m ­bros de la población i n i c i a l . 2

Introduzcamos ahora dos variables T ¡ y T2, las edades de ocurren­cia de l m a t r i m o n i o y de la salida del agro. Se observa que los cocientes se pueden expresar como las siguientes probabilidades condicionales:

h0l(t)-Um P ^ A t l T ^ T ^ t ) A ¿ - > 0 At

2 En este ejemplo se descartan los casos de simultaneidad.

Page 11: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 609

h21(t\v)= lim — — 1 donde v<t A / - > O A T

Para h02 (t) y h12 (71 u), tenemos fórmulas análogas.

Supongamos ahora que los cocientes h21 y hl2 n o dependen de la edad de o c u r r e n c i a de l o t r o evento . 3 Se puede así demostrar q u e si los eventos correspondientes a los d i ferentes cocientes son iguales a n 0 1 (t), n02(t),n21 (t),nl2(t), entonces se t i e n e n los est imadores si­guientes:

h0l (t) = ; h2l (t) = N0(t)_l(n0l(t)+n02(t)) N2(t)_i(n2l(t)-n02(t))

2 2

con fórmulas análogas para h02(t) y h12 (t). A p a r t i r de esta serie de diferentes cocientes, nos interesa probar ,

p o r e jemplo , la igualdad de h 01 (t) y de h2l (t), o la de los cocientes acu­mulados correspondientes . Si se c u m p l e para todo t , podremos con­c lu i r que la salida de la actividad agrícola n o inf luye para nada en las probabi l idades de m a t r i m o n i o de los indiv iduos ; en caso c o n t r a r i o , se podrá probar el signo de la di ferencia . Para el lo , podemos calcular la cant idad :

D = -h01(t) -h2l(t)

h oí (0 h\ W —7 + — I

V Y0(t) Y2(t)

A A A A

donde F 0 ( t ) y Y2(t)son los denominadores de h0l (t) y h2l(t)dados anter i o rmente .

A A

Si h01 (t)no d i f iere signif icativamente de (t) , entonces la varia­ble D tendrá una distribución n o r m a l de media 0 y desviación estándar 1. Se puede operar de la misma manera con los cocientes acumulados.

3 Es fácil eliminar esta hipótesis y calcular las series de cocientes para las diferen­tes edades de ocurrencia del otro evento.

Page 12: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

610 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

Como ejemplo, inc lu imos en las gráficas 1 y 2 las curvas que repre­sentan los cocientes acumulados de nupc ia l idad de las mujeres según su situación labora l (en la a g r i c u l t u r a o fuera de ella) y los cocientes acumulados de salida de la agricultura, según su estado civil . Se aprecia claramente, y las pruebas lo c on f i rman , que la salida de l agro no tiene n i n g u n a incidencia sobre la nupc ia l idad , sino que por el c ontrar i o , las mujeres casadas en el m e d i o agrícola t i enen mayores probab i l idades de permanecer en él. Se trata, por lo tanto, de una dependencia unidirec­cional que evidencia u n a estrategia: el m a t r i m o n i o con u n a g r i c u l t o r determina la permanencia en el m u n d o agrícola. También es interesan­te observar (Courgeau y Leliévre, 1986) que para los hombres, la depen­dencia unilateral es opuesta a la de las mujeres: la probabi l idad de casar­se se dupl ica cuando dejan el agro; po r el contrar io , el hecho de ser o no casado no influye sobre la salida de la agricultura.

GRÁFICA 1 Cocientes acumulados de nupcialidad de las mujeres según su situación laboral

Edad Agricultores No agricultores

Page 13: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 611

GRÁFICA 2 Cocientes acumulados de salida de la agricultura de las mujeres según su estado civil

20 25 30 35 40 45 50 55 Edad

Solteras Casadas

Otros tipos de dependencia pueden aparecer en estos análisis. L a más frecuente es la dependencia bidireccional: el haber exper imentado u n evento afecta la probab i l idad de exper imentar o t ro y viceversa. Esto es lo que ocurre con la dependencia entre fecundidad y migración hacia las metrópolis (Courgeau, 1987, 1989). Para los nacimientos de o r d e n mayor que 2, la encuesta 3B muestra que la migración hacia la metró­p o l i reduce la p robab i l i dad de tener u n h i j o más, mientras que la m i ­gración e n sent ido c o n t r a r i o la i n c r e m e n t a . U n a dependencia a priori también puede aparecer en algunos casos. Cuando se aisla a la pobla­ción que emigrará hacia la metrópoli antes de los 50 años, aparece u n a baja fecundidad, tanto antes como después de la migración. Por l o tan­to, estamos ante u n fenómeno de selección, en la población no metropo ­l itana, de personas con baja fecundidad que emigran hacia las grandes ciudades sin cambiar su patrón de fecundidad. A la inversa, cuando se

Page 14: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

612 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

aisla en u n a metrópol i a la poblac ión f e m e n i n a que emigrará, se e n ­c u e n t r a que, antes de emigrar , estas mujeres t i e n e n u n a f e c u n d i d a d igua l a la de las que permanecen, pero después de la migración, la fe­c u n d i d a d aumenta. Esta vez estamos frente a u n f enómeno de adapta­ción provocada por la migración, ya que estas mujeres adoptan el c om­por tamiento de las sedentarias del med io no metropo l i tano .

Las numerosas interacciones estudiadas en la encuesta 3B n o arro­j a r o n ningún caso de independencia total entre eventos. Esto demuestra el pe l i g ro que se corre cuando se t ratan fenómenos demográficos se­paradamente , según la hipótesis de independenc ia m u t u a .

E l análisis paramétríco

L a heterogene idad de las poblaciones i n t r o d u c e u n a propens ión d i ­ferencia l al exper imentar los diferentes eventos demográficos. Según el n ive l educativo, el o r d e n de nac imiento entre hermanos , e l tamaño de la fami l ia de o r igen , etc., los ind iv iduos pueden tener p r o b a b i l i d a ­des diferentes de casarse, migrar , cambiar de empleo , etc. Por lo t a n ­to , se podría tratar de resolver este p r o b l e m a descomponiendo la po ­b l a c i ó n e n g r u p o s c a d a vez más h o m o g é n e o s ( p o r s e x o , n i v e l educativo y región de or igen , etc.) pero , en contrapart ida , e l número de casos en cada g r u p o se irá reduc iendo . Este p r o c e d i m i e n t o c o n d u ­ce rápidamente a unas poblac iones expuestas al riesgo m u y peque ­ñas, desde luego, a resultados n o significativos.

L o anter ior plantea la necesidad de i n t r o d u c i r diversas caracterís­ticas indiv iduales en u n m o d e l o de t i p o regresivo, s in de jar p o r e l lo de trabajar con el c on j unto de la población o con u n subgrupo lo su­ficientemente n u m e r o s o . A h o r a b i e n , en este m o d e l o se debe t a m ­bién i n t r o d u c i r el t i empo , por m e d i o de u n a función base paramétri-ca q u e a p r o x i m e c o r r e c t a m e n t e la d i s t r ibuc ión n o p a r a m é t r i c a es t imada p a r a e l c o n j u n t o de la p o b l a c i ó n . U n m é t o d o semejante p e r m i t e i n c l u i r u n g r a n número de características, pero será necesa­r i o verif icar las hipótesis en las cuales se f u n d a m e n t a el m o d e l o .

Algunos modelos paramétricos

E n t r e los numerosos modelos paramétricos que p e r m i t e n descr ib i r correctamente el c o m p o r t a m i e n t o de u n a población o de algún sub-

Page 15: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 613

grupo de ella, conviene escoger aquellos que dependen de u n mínimo de parámetros, pero p e r m i t e n al mismo t iempo u n buen ajuste a la dis­tribución no paramétrica que se puede estimar. Presentaremos aquí al­gunos de ellos y r e m i t i m o s al l e c tor interesado en u n a presentación más detallada a Courgeau y Leliévre (1989: 95-125; 1992: 109-144).

Distribución exponenc ia l

Esta es la distribución más s imple que se obt iene cuando el cociente instantáneo permanece constante a lo largo de l t i empo . E n este caso, tenemos:

h(t)=p ;S(t)=exp(-p t) f(t)=p exp(-pt);H(t)=pt

U n a p r u e b a fácil de esta distribución consiste en representar el cociente acumulado n o paramé tr i co en función de l t i empo . Esta cur­va debe aproximarse a u n a recta si la distribución es exponenc ia l .

Es m u y f r e c u e n t e que u n a distr ibución e x p o n e n c i a l se ajuste b i en a u n número reduc ido de periodos, a pesar de que n o sea válida para e l c o n j u n t o de ellos. E n estos casos es posible descomponer la distribución y estimar los parámetros p correspondientes.

Distribución de Gompertz

Esta distribución se aplica f recuentemente en demografía, tanto para la m o v i l i d a d espacial y l abora l , c o m o para la m o r t a l i d a d (en edades avanzadas). E l cociente instantáneo es u n a función exponenc ia l de l t i empo . Se expresa como sigue:

h(t)=Xp exp(pt);S(t) = exp (X [ l - e x p ( p t) ] f(t) = Xp e x p { p ¿ + A [l-exp(pt)]};H(t)=X [ e x p ( p ¿ ) - l ]

Los cocientes son u n i f o r m e m e n t e crecientes (p >0), o u n i f o r m e ­mente decrecientes (p <0). U n a prueba de esta distribución se obt ie ­ne con la representación de l l o g a r i t m o de l cociente en función de L Cuando se trabaja con migraciones de diversos rangos o con la mov i ­l i d a d labora l , el parámetro p es generalmente negativo. E n este caso u n a parte de la población (exp X ) sigue siendo sedentaria.

E l parámetro p es positivo cuando se considera la m o r t a l i d a d de las personas de edad. E n este caso toda la población desaparece.

Page 16: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

614 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

Distribución log-logística

Frecuentemente , esta distribución es u n a me jor alternativa que la dis­tribución l o g - n o r m a l , cuyos parámetros son más difíciles de estimar. E n estos casos se t iene:

A(í)=Ap {pt)x~l [\+pt)xY;{S(t) = [\ + {pt)x y1

f(t) = Xp (pt)x-l[l + {pt)x ] " 2 ; H(t)=log[Upt)x]

Por lo t a n t o , u n a p r u e b a de esta distribución consiste en r e p r e ­sentar l og (exp (H(t))-l)en función de log t. U n a relación l i n e a l c om­prueba que la distribución log-logística es válida. Este t ipo de d i s t r i b u ­c ión se ut i l iza a m e n u d o para la nupc ia l idad y la f e c u n d i d a d según el rango de nac imiento , ya que si X> \ la curva de nac imientos t iene u n máximo.

Modelos de regresión

Incluyamos ahora diversas características de los ind iv iduos , que pode­mos representar con u n vector Z:

Z = ( Z „ . . . , Z „ )

F r e c u e n t e m e n t e , estas características son variables cual i tat ivas c on valores d i co tómicos (1 si e l i n d i v i d u o posee la característica, 0 de l o c o n t r a r i o ) , p e r o también p u e d e n ser var iables c u a n t i t a t i v a s (número de hermanos y hermanas , número de migrac iones realiza­das d u r a n t e la in fanc ia , etc . ) . Estas características p u e d e n depender de l t i e m p o (variable igua l a 0 mientras que el i n d i v i d u o n o posee la característica, para convertirse en 1 desde el m o m e n t o de su a d q u i ­s ic ión) .

Dos grandes grupos de modelos describen el efecto que e jercen estas características sobre los cocientes instantáneos.

Modelos de riesgos proporc ionales

L a hipótesis que f u n d a m e n t a estos modelos es la s iguiente : las d i fe ­rentes características indiv iduales actúan en f o r m a m u l t i p l i c a t i v a so­bre u n cociente base, el mismo para toda la población, y al cual se le

Page 17: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 615

dará u n a f o r m a paramétrica. Esto conduce a u n cociente instantáneo de la f o r m a :

h(t;Z)=h0(t)(p (Z,P)

donde h0(t)es u n a función paramétrica de t, que depende de u n cier­to n ú m e r o de parámetros aunque i n d e p e n d i e n t e de las característi­cas Z, y (p (Z,P)es u n a función de las características Z cuyos paráme­tros ¡3 s o n i n d e p e n d i e n t e s de t. L a f u n c i ó n u t i l i z a d a c o n m a y o r frecuencia es exponencia l :

q> (Z,p) = exp(Zp)=exp(Z1pl+Z2p2+...+ Znpr)

Se observa fácilmente que cuando todas las variables Z son nulas, el m o d e l o se reduce a la expresión paramétrica de l cociente base:

h(t;0)=h0(t)

si sólo la variable Z 2 es igua l a 1 siendo todas las demás 0, se observa que:

h(t;0)=h0(t)exppl

De allí se deduce la relación siguiente:

h(t;Z) • = e x p pl9

h(t;0) que es p o r lo tanto independ iente de la duración. Así se puede com­probar la validez de l m o d e l o de riesgos proporc ionales . Basta d i v i d i r la pob lac ión en dos subpoblaciones, u n a que posea la característica Z j y o t ra que n o la posea, para luego estimar de manera n o paramé­tr i ca para cada u n a de ellas h ( t) o me jo r aún H ( t). Las gráficas de l o g ( H(t))en función de t deben ser paralelas para que el m o d e l o se cumpla. De esta manera se puede probar el modelo de riesgos propor ­cionales para cada una de las características consideradas por separado.

L a gráfica 3 representa los l ogar i tmos de los cocientes acumula ­dos de l p r i m e r cambio de residencia después de la salida de l hogar de los padres, según que la vivienda in i c ia l sea o no gratui ta (encuesta 3 B ) . L a comprobac i ón exitosa de l parale l ismo de las curvas p e r m i t e ut i l i zar e l m o d e l o de riesgos proporcionales .

Page 18: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

616 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

GRÁFICA 3 Logaritmos de los cocientes acumulados del primer cambio de residencia después de la salida del hogar de los padres

0.05 I > * « i 1 1 i 1 « 1 i 1 1—i

0 10 20 30

Viviendas gratuitas Otras viviendas

Modelos con t i e m p o de salida acelerado

Supongamos ahora que las características inf luyen directamente sobre la función de permanencia , en vez de sobre el cociente instantáneo. E n ese caso, u n i n d i v i d u o t i p o con todas sus variables Z nulas t iene u n a función de permanenc ia igual a S0 (t); e\ i n d i v i d u o que posea todas las características Z tendrá la siguiente función de permanencia :

S(t;Z)=SQ(texp Z/3)

Se puede demos t rar que en este caso la expresión d e l coc iente instantáneo es:

h(t;Z)=h0(texp Z/?)exp Zp

Si h 0 (t) es u n a distribución de Gompertz se t iene:

h(t;Z)=Xp e x p ( p ¿ e x p Zp) e x p Zp=Áp exp(Z /3 +p ¿ e x p Zp)

Page 19: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 617

mientras que para u n m o d e l o de riesgos proporc ionales la expresión será:

h(t;Z)=Áp exp(Z/5+pt)

Por consiguiente , los dos cocientes n o t i enen la misma f o r m a . Este m o d e l o puede expresarse también en términos de variables

aleatorias:

T=T0exp(-Zp)

donde T 0 es la duración de la permanencia de u n ind iv iduo con carac­terísticas todas nulas. Esta relación puede expresarse también así:

l o g r = l o g T o - Z 0

Estimación de los modelos paramétricos

Para est imar correc tamente el m o d e l o es necesario i n c l u i r de nuevo los datos censurados. C o n este propósito representamos el c o n j u n t o de los datos recolectados bajo la f o r m a de u n a tríada:

(t ¿,5¿, Z¿) ¿=1,..., n

d o n d e t • es la duración de la observación, ya sea hasta la o c u r r e n c i a de l evento, en caso de que éste se observe (8¡ =1 ) , o b i en hasta e l m o ­m e n t o de la censura, antes de que el evento o curra (8 j= 0 ) .

Cálculo de la v e r o s i m i l i t u d

Consideremos el caso en que la censura es i n d e p e n d i e n t e de que el i n d i v i d u o haya e x p e r i m e n t a d o o n o el evento: esto es l o que de he­cho sucede cuando se realiza u n a encuesta retrospectiva, ya que la fe­cha de la encuesta es independ iente de la h istor ia de vida i n d i v i d u a l . In troduzcamos la variable aleatoria T 5 , que corresponde a la censura, cuya función de permanenc ia es Orft) y densidad de probab i l idad q^t). Esta variable es i n d e p e n d i e n t e de la fecha de o currenc ia de l evento estudiado T, cuya función de p e r m a n e n c i a es S ( í ;Z¿ )y dens idad de p r o b a b i l i d a d f (t ;Zt). L a variable observada es T° - m i n (T^,T).

Page 20: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

618 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

Calculemos la p r o b a b i l i d a d siguiente para los i n d i v i d u o s que h a n e x p e r i m e n t a d o el evento:

P ( í < T - < £ + A / , 5 i = l ; Z í ) = 0 z ( 0 / ( t ; Z ¿ ) A £

Para los ind iv iduos que n o l o hayan hecho tenemos:

P(t<T:<t+At,8l = 0;Zl) = ql(t)S(t;Zl)At

C o m o Q(t)y qi(t)no suminis tran n i n g u n a información sobre ¡3, se puede considerar que la v e r o s i m i l i t u d es p r o p o r c i o n a l al valor :

n n

L(P)=Ylf(tf,Zt)8' S(í i ; Z¡) ^^TlHtfo)*' S(/,-;Z,.),

i = 1 i = 1

d o n d e h ( t; Z ) es e l cociente instantáneo de o currenc ia d e l evento. E n estas condic iones se vuelve posible , gracias al m é t o d o de má­

x i m a v e r o s i m i l i t u d , es t imar los diversos parámetros, t a n t o los de la distribución paramétrica supuesta, c omo los efectos de las di ferentes características individuales .

Estimación y prueba de los parámetros

Expresemos ahora la v e r o s i m i l i t u d de las observaciones e n su f o r m a logarítmica:

l o g L ( j 8 ) = £ ( S . - l o g A ^ / Z ^ + l o g S a . / Z , . ; ; i= 1

E l método consiste en dar a los parámetros ¡3 los valores que ma-x i m i z a n la v e r o s i m i l i t u d . Para el lo , basta calcular las derivadas de l o g L( j8 ) con respecto a los diferentes parámetros e igualarlas a 0. Se t en ­drá entonces u n sistema con tantas incógnitas c o m o ecuaciones. Se demuestra entonces que, bajo unas condiciones simples genera lmen­te satisfechas (L( jS)debe ser tres veces di ferenciable y deben c u m p l i r ­se ciertas condiciones límites en la tercera der ivada) , este sistema t ie ­ne s o luc i ón . L a est imación de parámetros que se o b t i e n e de esta manera es asintóticamente insesgada y de varianza mínima. L a d i s t r i ­buc ión asintótica de l est imador es u n a n o r m a l con tantas variables co-

Page 21: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 619

m o parámetros p o r estimar. L a med ia de esta ley es el verdadero va lor de /?. Si se calcula el negativo de la matr iz de las segundas derivadas de L o g Up), l lamada matr iz de información de Fisher, se demuestra que d i cha m a t r i z es u n est imador de la matr i z de covarianza de los pará­metros p.

L a solución de l sistema:

g = c/( /?)=0 dP

se compl ica rápidamente con el aumento de l número de parámetros, y puede carecer de u n a solución analítica simple. Por esta razón se u t i l i ­zan métodos numéricos para obtener soluciones aproximadas. E l algo­r i t m o de Newton-Raphson 4 es entonces u n método de uso común.

Hab iendo resuelto el sistema se pueden realizar diferentes pruebas sobre los parámetros estimados /?. Se puede probar , p o r e j emplo , que los parámetros estimados son diferentes de los valores P0 que se habían escogido a priori. Si se designa a la m a t r i z de covarianza c o m o V(fi),

podemos plantear el estadístico siguiente (el superíndice Trepresen­ta el vector transpuesto) :

Cuando los parámetros P no son signif icativamente di ferentes de P0, este estadístico t iene distribución x2 con tantos grados de l i b e r t a d como parámetros p o r estimar.

También se puede ut i l i zar d irectamente la veros imi l i tud al calcu­lar la fracción:

Se demuestra en efecto que la distribución asintotica de ( - 2 l og R(P0)) es u n a X2 c o n tantos grados de l i b e r t a d como parámetros. F i ­n a l m e n t e , también es posible emplear U(p0). Cuando P=PQ, e l esta­dístico U(p0) es asintot icamente n o r m a l , de med ia Oy varianza V(p0). E n estas condic iones, el estadístico:

4 Para mayores detalles sobre este método, véase Courgeau y Leliévre (1989: 137; 1992: 157-158).

Page 22: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

620 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

UT(P0) V(p0)~lU(p0)

es asintóticamente d i s t r i b u i d o c omo u n a % 2 c on tantos grados de l i ­b e r t a d como parámetros.

Traigamos como e jemplo e l estudio de la duración de p e r m a n e n ­cia e n la vivienda de hombres nacidos entre 1931 y 1935, proveniente también de la encuesta 3B (Courgeau, 1985). E n este caso se est iman diferentes modelos de Gompertz , que inc luyen u n número creciente de características. E l n ú m e r o de durac iones de p e r m a n e n c i a es de 2 523, de las cuales 493 se m a n t i e n e n todavía en el m o m e n t o de la en ­cuesta en 1981.

Comparemos con el m o d e l o exponencia l (mode lo de Gompertz , en e l cual p = Oy Xp - > C ¿ ) . U n mode lo de este t ipo conduce a u n co­ciente constante, estimado en 0.1237, con - 6273.15 como valor máxi­m o de veros imi l i tud . Incluyamos ahora los diferentes grupos de edad, así como la duración de permanencia. Esto conduce a u n nuevo máxi­m o igua l a - 5 991.65. U t i l i z a n d o la fracción de las veros imi l i tudes se obt iene - 2 l og R = 562.96, lo cual muestra que los efectos de la edad y de la duración de permanencia son efectivamente significativos.

E l cuadro 1 cont iene la estimación de los di ferentes parámetros /?, c o n sus desviaciones estándar, el estadístico que p e r m i t e p robar los efectos de diferentes parámetros

CUADRO 1 Estimación de los parámetros P, de la desviación estándar, prueba del %2

con un grado de libertad de la nulidad de los (3 y estimación de exp )

y los valores de exp ( j3 ¿). v(Pù

Característica considerada

A

Pi °(Pi) 2

E x p j B ¿

20-24 años 25-29 años 30-34 años 35-39 años 40-44 años

Constante Menos de 20 años

-2 .727 1.131 1.410 0.892 0.626 0.135

-0.177

0.2880 0.2920 0.2912 0.2940 0.2978 0.3064 0.3292

89.187 15.008 23.460 9.203 4.417 0.194 0.127

0.0654 3.100 4.097 2.440 1.870 1.145 0.889

Page 23: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 621

E l cuadro muestra u n efecto m u y significativo de todos los grupos de edad infer iores a 35 años sobre la p r o b a b i l i d a d de migrar . L a cur­va que d a el efecto m u l t i p l i c a t i v o de cada edad es idéntica a la curva clásica de migración p o r edad. También existe u n efecto signif icativo de la duración de permanenc ia con u n parámetro p - - 0.0629 y u n a desviación estándar igua l a 0.0045. Así, la p r o b a b i l i d a d de m i g r a r se reduce casi a la m i t a d después de 10 años.

La adición de nuevas características mejora la calidad del mode lo : características familiares ( log L = -5963.17), estatus de ocupación de la v i ­vienda ( log L = - 5755.45), características laborales ( log L = - 5685.59), acontecimientos políticos y or igen de los padres ( log L = - 5637.67). De esta manera se llega a u n mode lo que recurre a 32 características d i fe ­rentes para explicar el comportamiento migrator io de esta población.

Se podr ía pensar que algunas características incorporadas e n el c a m i n o , corre lac ionadas c o n la edad , e x p l i c a n m e j o r e l c o m p o r t a ­m i e n t o que la edad de p o r sí. E n este caso, el efecto de la edad se ve­ría atenuado en los modelos donde se inc luyen de manera más p r e c i ­sa las demás características. E n efecto, la m o v i l i d a d de u n i n d i v i d u o casado se reduce a 8 0 % de lo que es para u n i n d i v i d u o soltero, y más j o v e n en p r o m e d i o ; la m o v i l i d a d de u n i n d i v i d u o que posee su v iv ien ­da se reduce a 2 0 % de lo que era para u n arrendatar io , también más j o v e n en p r o m e d i o , etcétera.

Cuando el m o d e l o incluye todas las características, el efecto de la edad ya n o es significativo, como lo muestra el cuadro 2.

CUADRO 2 Efecto de los grupos de edad al comienzo de la permanencia, cuando el modelo incluye simultáneamente todas las variables

A A r A i 2 Grupos de edad Pi Pi E x p £ ¿

° ( & ) m

Menos de 20 años 0.234 0.298 0.619 1.264 20-24 años 0.201 0.295 0.466 1.223 25-29 años 0.014 0.294 0.002 1.014 30-34 años -0 .160 0.297 0.293 0.852 35-39 años - 0.399 0.303 1.741 0.671

Se constata que el factor verdaderamente explicativo de los cam­bios migrator ios es la situación fami l iar , laboral , etc. en vez de la edad

Page 24: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

622 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

misma. Se puede a f i rmar que la edad influiría sólo como u n a variable de r e m p l a z o , cuyo efecto desaparece c o m p l e t a m e n t e desde e l m o ­m e n t o en que se inc luyen las características actuantes, a las cuales es­tá l igado .

La heterogeneidad no observada

Los modelos presentados hasta ahora sólo p u e d e n i n c l u i r característi­cas observadas en la encuesta. Así se haya ten ido el mayor cu idado po­sible para tratar de captar todas las causas de variación de los coc ien­tes , se p u e d e p e n s a r q u e o t r a s carac ter í s t i cas , más d i f í c i l e s de observar o de m e d i r en u n a encuesta, o a u n características que a j u i ­cio de l investigador n o p u e d e n i n f l u i r sobre el evento estudiado, t en ­gan de hecho u n efecto no despreciable sobre los cocientes.

E n ciertos casos puede existir u n a dependencia entre las caracte­rísticas observadas y la heterogene idad no observada, c omo lo v imos en el estudio anter ior sobre las migraciones: los eventos que in f luyen sobre la migración están corre lac ionados con la edad. Mient ras que no se los observe, el efecto de la edad sigue siendo significativo deb i ­do a esta correlación. U n a vez inc lu idos se puede e l i m i n a r la edad de l m o d e l o , sin que esto afecte su validez. Por consiguiente, son cuestio­nes de p e r t i n e n c i a de las características observadas y de especifica­c ión correcta de l m o d e l o las que in f luyen en este caso.

E n otros casos, las características observadas son independientes de la heterogeneidad no observada, la cual puede entonces afectar la esti­mación de los parámetros relativos a los efectos de las características observadas. Si b ien es cierto que, para los modelos lineales con varianza homoscedástica, la omisión de variables no correlacionadas con las va­riables incluidas n o t iene consecuencia alguna sobre las estimaciones de mínimos cuadrados, esta característica n o se mantiene en el caso ge­neral . Mientras que no se inc luyan en el mode lo todas las variables ex­plicativas, los métodos de máxima veros imi l i tud no suministran gene­ra lmente u n a estimación correcta, aun si estas variables no observadas son totalmente no correlacionadas con las observadas.

A pesar de la falta de información sobre estas variables omit idas , algunos investigadores h a n tratado de i n t r o d u c i r u n a distribución pa-ramétrica, o incluso n o paramétrica de la heterogeneidad n o observa­da. Se puede demostrar la v i a b i l i d a d de considerar el efecto de esta heterogene idad de m a n e r a m u l t i p l i c a t i v a y de estimar los valores de

Page 25: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 623

nuevos parámetros correspondientes a las características observadas, las cuales t i e n e n e n cuenta la h e t e r o g e n e i d a d n o observada. Se en­c u e n t r a que según la distribución supuesta de esta h e t e r o g e n e i d a d ( H e c k m a n y Singer, 1984) , o a u n según la distribución paramétrica ut i l i zada para estimar el efecto de las características observadas ( T r u s -sel y Richards , 1985) , los parámetros estimados p u e d e n variar enor ­m e m e n t e , al p u n t o de ser de signos opuestos.

Estos resultados l levan a pre f e r i r el enfoque semiparamétrico, pa­ra el que se dispone de resultados más precisos con respecto al efecto de la h e t e r o g e n e i d a d n o observada sobre la estimación de los pará­metros.

E l análisis semiparamétrico

E l enfoque semiparamétrico busca liberarse de la hipótesis paramétri­ca relativa a la f o r m a de la distribución de la función de riesgos, pero conservando la de l efecto m u l t i p l i c a t i v o de las características i n d i v i ­duales (mode los de riesgo p r o p o r c i o n a l ) . L a expresión de l m o d e l o propuesto es:

h(t;Z)=h0 (t)exp(Zp)

donde h0(t)es u n a función n o paramétrica de t, l lamada cociente ins­tantáneo base. De hecho es el cociente instantáneo de l i n d i v i d u o que posee todas sus características Z iguales a 0.

Estimación de los parámetros

Los parámetros p se est iman p o r m e d i o de l cálculo de u n a veros imi l i ­t u d parc ia l , empleada p o r Cox (1972) . C o n d i c i o n a l m e n t e al conoc i ­m i e n t o de la p o b l a c i ó n expues ta a l r iesgo y a l h e c h o de q u e u n a o currenc ia de l evento se p r o d u j o en ti9 la p r o b a b i l i d a d de que el i n d i ­v i d u o i exper imente el evento es igual a:

M * ¿ ) e x p ( Z f . j 8 ) exp(ZiP)

Z M t ¿ ) e x p {ZTP) Z e x p ( Z ^ ) le R¿. le Rt

Page 26: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

624 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

d o n d e R ¿ es el c on junto de los individuos expuestos al riesgo en t ¿ - 0. Es evidente que esta veros imi l i tud parcial n o incluye ya más e l cociente instantáneo base. A l efectuar el p roduc to de estas probabi l idades sobre toda la población se obtiene la veros imi l i tud parcial p o r maximizar :

exp PL(P) = ì l i

I l X e x p ( Z ¿ / 3 ) le Ri

Es conveniente anotar que esta v e r o s i m i l i t u d parc ia l n o es u n a ve­r o s i m i l i t u d en el sentido h a b i t u a l , puesto que no es p r o p o r c i o n a l a la p r o b a b i l i d a d c o n d i c i o n a l (o m a r g i n a l ) de los eventos observados. A pesar de el lo , su maximización conduce a estimadores as intot i camen­te insesgados y n o r m a l m e n t e d is tr ibuidos . As into t i camente , la matr i z de covarianza es e l inverso d e l negativo de la matr i z de las segundas derivadas de la veros imi l i tud . Estas estimaciones, que h a n sido objeto de numerosas controversias en t re estadísticos, están a h o r a b i e n sus­tentadas en el marco de la teoría de martingalas y de los procesos de conteo (Andersen et al., 1993: 476-591).

Estimación de la función base

A h o r a queda por estimar el componente no paramétrico del modelo. Ob­servemos p r i m e r o que la función de permanencia puede expresarse así:

S(t,Z)=S0(t)e*P(ZP)

d o n d e S0 (t) es la función base n o paramétrica. Sean 11 < t 2 < ... < t R las ocurrencias de eventos observados. E n

el intervalo [ ti91 i + l ] , algunos ind iv iduos e x p e r i m e n t a n el evento t . Su contribución a la v e r o s i m i l i t u d es p o r lo tanto :

S0(exP(zP)-S0(ti+0)exPW)

y notamos T¿ el c o n j u n t o de estos ind iv iduos . L a contribución a la ve­r o s i m i l i t u d de u n i n d i v i d u o censurado durante el intervalo es:

Page 27: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 625

Softt+O^pW)

y notamos M¿ el c o n j u n t o de ellos. L a expresión de la veros imi l i tud es entonces:

i=l laT- lf)Mi

L a maximización de esta veros imi l i tud , con ¡3 conoc ido , p e r m i t e estimar la función base S0 (t).5

Un ejemplo de estimación

Prosigamos con el análisis no paramétrico in i c iado páginas atrás so­bre las interacciones entre el m a t r i m o n i o y la salida de la a g r i c u l t u r a para las mujeres . Sólo consideraremos aquí el a b a n d o n o de l m e d i o agrícola antes o después de l m a t r i m o n i o e inc lu i remos di ferentes ca­racterísticas indiv iduales . C o n este propósito , apelaremos al m o d e l o semiparamétrico siguiente:

A ( í ; Z ; Z , ) = / i 0 ( í ) e x p ( Z ) 8 1 + ^ ( t-u) ( / 3 0 + Z / 3 2 + Z'/3 2 )

donde

1 0 S ¿ x < 0

1 S¿ x > 0

u es la fecha de m a t r i m o n i o , Z el vector de características que i n f l u ­yen antes y después de l m a t r i m o n i o , Z ' el de las características que i n ­fluyen sólo después de l m a t r i m o n i o (características de l cónyuge, por e j e m p l o ) . Esta formulación supone que el cociente base se m u l t i p l i c a p o r u n a constante exp fS0 cuando la m u j e r contrae m a t r i m o n i o : en el a p a r t a d o " I n t e r a c c i o n e s de eventos " c o m p r o b a m o s que esto era correcto . E l cuadro 3 muestra el mode lo ópt imo obten ido con las ca­racterísticas observadas.

5 Para mayores detalles sobre esta estimación, véase Courgeau y Leliévre (1989: 159-161; 1992: 185-187).

Page 28: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

626 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

CUADRO 3 Modelo óptimo de salida de la agricultura para las mujeres (valor de los parámetros)

Conjunto de variables Interacción

Número de hermanos (as) 0.012 ** 0.320 ** 0.928 **

0.000 0.296 0.806*

Hermana mayor Padre agricultor Matrimonio - 0.228 Mujer en la agricultura al

momento del matrimonio - 1.040 - 0.359 ** -0 .126

Esposo agricultor Suegro agricultor

* Resultado significativo a 10%. ** Resultado significativo a 5%.

E l examen del cuadro 3 permi te precisar las diferentes caracterís­ticas de las m u j e r e s propensas o n o a a b a n d o n a r e l a g r o . Así p o r e jemplo , la mayor de dos hijos de u n agr icul tor , t iene u n factor m u l t i ­p l i ca t ivo de l riesgo base de salida de la a g r i c u l t u r a de exp (0.012 -0.32 - 0.928) = 0.290, mientras que la m e n o r de los c inco hi jos de u n trabajador agrícola t iene u n factor mul t ip l i ca t ivo de exp (4 x 0.012) = 1.048. L a p r o b a b i l i d a d de que esta última deje la agr i cu l tura es p o r lo tanto 3.85 veces mayor que la de la p r i m e r a . Después de l m a t r i m o n i o , las mujeres que p e r m a n e c e n en la act iv idad agrícola t i e n e n caracte­rísticas m u y marcadas. Son las hijas mayores de famil ias poco n u m e ­rosas, de padres agricultores y casadas con u n agr icu l tor . Es evidente que estas condiciones favorecen la reunión de las tierras de las dos fa­mil ias . La estrategia de las otras mujeres, que constituyen la mayoría, será abandonar la agr icu l tura .

La heterogeneidad no observada

C o m o el m o d e l o semiparamétrico n o cont i ene n i n g u n a especifica­ción paramétrica de l cociente base, es necesario volver a examinar el efecto de la heterogeneidad no observada.

Bretagno le y H u b e r - C a r o l (1988) en u n trabajo teórico estudia­r o n de qué manera la omisión de características afectaba los paráme­tros estimados para las características observadas en u n m o d e l o de es-

Page 29: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 627

te t ipo . Cuando se trabaja sobre datos con posibles censuras a la dere­cha y si l a he terogene idad n o observada es i n d e p e n d i e n t e de las ca­racterísticas observadas, esta omisión n o afecta el s igno de los pará­m e t r o s e s t i m a d o s , p e r o p r o v o c a u n a d i s m i n u c i ó n de sus v a l o r e s absolutos. Por lo tanto , si el efecto de u n a característica parecía i m ­por tante cuando se omitían otras características, la inclusión de estas últimas e n el m o d e l o sólo puede reforzar el efecto de la p r i m e r a . Por el c o n t r a r i o , algunas características sin efectos importantes a p r i m e r a vista p u e d e n volverse m u y significativas al i n c l u i r otras características no observadas en p r i n c i p i o .

Este resultado p e r m i t e precisar me jor el efecto de la heterogenei ­dad n o observada. Si la he te rogene idad y las características observa­das son independientes , también nos asegura de la validez de l signo de los parámetros estimados.

Conclusiones

Los métodos de análisis de datos biográficos presentados nos per m i t i e ­r o n alcanzar los principales objetivos mencionados en la introducción.

Los mode los n o paramétricos p e r m i t e n estimar probab i l idades de transición de u n estado a o t ro , cuando los diferentes fenómenos de­mográficos estudiados interactúan. Esto p e r m i t e p o n e r en evidencia dependencias de diverso t ipo : unilaterales, bilaterales, totales, a priori, etcétera.

Los modelos paramétricos p e r m i t e n apreciar c ó m o in f luyen di fe­rentes características indiv iduales sobre las probabi l idades de t rans i ­c ión de u n estado a o t ro . Estos modelos requ ieren hipótesis más res­trictivas que las de los modelos no paramétricos. Por consiguiente, es indispensable veri f icar su validez para los datos estudiados. Los m o d e ­los de riesgos proporc i ona les o de t iempos de salida acelerados que presentamos aquí no son la única a l ternat iva pos ib le . Se les p u e d e remplazar p o r otros que se adapten me jor a unas situaciones p a r t i c u ­lares. La heterogeneidad n o observada también plantea otros p r o b l e ­mas difíciles de resolver.

Los m o d e l o s semiparamétr icos c o n s t i t u y e n la m e j o r so luc i ón cuando se desea i n c l u i r simultáneamente las interacc iones de f enó ­menos y la heterogene idad de la población. E n esa situación, se h a n p o d i d o resolver algunos de los problemas planteados por la heteroge­ne idad n o observada.

Page 30: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

628 E S T U D I O S DEMOGRÁFICOS Y U R B A N O S

Se puede a f i r m a r que la r e c o l e c c i ó n y e l análisis de biograf ías a b r e n u n amplísimo campo de investigación inscr i to , a su vez, d e n t r o de u n a corriente más general que reagrupa a la tota l idad de las ciencias sociales. Generalizaciones sencillas de estos métodos p e r m i t e n el estu­d io de situaciones más complejas. E l análisis de modelos mult in ive les (Courgeau, 1994; 1995b; 1996) o el análisis de estructuras sociales com­plejas como la fami l ia o el g rupo doméstico (Courgeau, 1995a) pueden ser abordados con métodos derivados de los aquí presentados. E n este sent ido , dichos métodos trascienden el n ive l de l i n d i v i d u o hacia u n a comprensión más p r o f u n d a de las sociedades humanas.

Bibliografía

Aalen, O. (1978), "Nonparametric Inference for a Family of Counting Pro­cesses", The Annals of Statistics, vol. 6, num. 4, pp. 701-726.

(1982), "Practical Applications of the Nonparametric Statistical The­ory for Counting Processes", Oslo, Instituto de Matemáticas, Universidad de Oslo (Statistical Research Report, 2).

Andersen, P.K., O. Borgan, R. Gi l ly N. Keiding (1993), Statistical Models Based on Counting Processes, Nueva York, Springer Verlag.

Bremaud, P. y J . Jacod (1977), "Processus ponctuels et martingales: résultats récents sur la modélisation et le filtrage", Advanced Applied Probabilities, vol. 9, pp. 362-416.

Bretagnolle, J . y C. Huber-Carol (1988), "Effects of Omit t ing Covariates in Cox's Model for Survival Data", Scandinavian Journal of Statistics, vol. 15, pp. 125-138.

Courgeau, D. (1985), "Interaction Between Spatial Mobility, Family and Care­er Life-Cycle: A French Survey", European Sociological Review, vol. 1, num. 2, pp. 139-162.

(1987), "Constitution de la famille et urbanisation", Population, vol. 42, num. l , p p . 57-82.

(1989), "Family Formation and Urbanization", Population: an English Selection, num. 1, pp. 123-146.

(1994), "Du groupe à l ' indiv idu: l 'example des comportements m i ­gratoires", Population, vol. 49, num. 1, pp. 7-26.

(1995a), "Event History Analysis of Household Formation and Disso­l u t i o n " , en Evert van Imho f f et al. (coord.), Household Demography and Household Modelling, Nueva York, Plenum Press, pp. 185-202.

(1995b), "From the Group to the Individual: What Can Be Learned From Migratory Behaviour", Population: an English Selection, num. 7, pp. 145-162.

Page 31: Métodos para el análisis de datos biográficosaleph.academica.mx/jspui/bitstream/56789/21673/1/14-042-1999-0599.pdf · MÉTODOS PARA EL ANÁLISIS D DATOE S BIOGRÁFICOS 601 ras

MÉTODOS PARA E L ANÁLISIS D E D A T O S BIOGRÁFICOS 629

(1996), "Towards a Multi level Analysis in Social Science/Vers une analyse multiniveaux en sciences sociales", en Bocquet-Appel, Courgeau y Pumain (eds.), Analyse spatiale de données biodémographiques, L ibbey / INED, pp. 10-22.

y E. Leliévre (1986), "Nuptialité et agriculture", Population, vol . 41 , nûm. 2, pp. 303-326.

y E. Leliévre (1989), Analyse démographique des biographies, Paris, I N E D . y E. Leliévre (1992), Event History Analysis in Demography, Oxford, Cla­

rendon Press. y E. Leliévre (1996), "Changement de paradigme en démographie",

Population, vol. 51, num. 3, pp. 645-654. Cox, D. (1972), "Regression Models and Life Tables", Journal of the Royal Sta­

tistical Society, num. 34, pp. 187-220 (Série B). Dellacherie, C. (1980), "Un survol de la théorie de l'intégrale stochastique",

Stochastic Processes Applications, nûm. 10, pp. 115-144. y P. A. Meyer (1980), Probabilités et potentiels: Théorie des martingales, Pa­

ris, Hernan. Heckman, J. y B. Singer (1984), "A Method for Minimizing the Impact o f Dis­

tributional Assumptions in Ecometric Models for Duration Data", Econo-métrica, vol. 52, num. 2, pp. 271-320.

Kunita, H . y S. Watanabe (1967), "On Square Integrable Martingales", Nayoya MathematicJournal, num. 30, pp. 209-245.

Trussell, J . y T. Richards (1985), "Correcting for Immeasured Heterogenetic in Hazard Models Using the Heckman-Singer Procedure", Sociological Methodology, pp. 242-278.