Análisis estadístico de datos sobre la diabetes en México ...

+Adolfo prieto 424 colonia del valle

Análisis estadístico de datos sobre la diabetes en México con técnicas

multivariadas.

Tesis para obtener el título de:

Licenciada en ingeniería matemática

Presenta:

Susana Cantú Figueroa

Director de tesis:

Dr. Roberto Segundo Acosta Abreu

Ciudad de México, Marzo del 2018

INSTITUTO POLITÉCNICO

NACIONAL

ESCUELA SUPERIOR DE FÍSICA Y

MATEMÁTICAS

i

LISTA DE FIGURAS IV

LISTA DE TABLAS VII

INTRODUCCIÓN 1

CAPITULO 1 3

La diabetes mellitus 3

1.1. ¿Qué es la diabetes mellitus? 3

1.2. Antecedentes 4

1.3. Tipos de diabetes 4

1.4. Situación de la diabetes en México y el mundo 5

1.5. Carga económica de la diabetes 5

CAPÍTULO 2 7

Datos multivariados y su visualización 7

2.1. Estadística descriptiva 7

2.1.1. Covarianzas 8

2.1.2. Correlaciones 8

2.1.3. Distancias 9

2.2. Visualización del comportamiento de los datos 10

2.2.1. Diagrama de dispersión. 10

2.2.2. Matriz de dispersión. 11

2.2.3. Diagrama de caja 11

2.2.4. Diagrama de caja bivariante 11

2.2.5. Diagrama chiplot 11

2.2.6. Diagrama estalactita 12

CAPÍTULO 3 13

Técnicas multivariadas 13

3.1. Análisis por el método de las componentes principales 14

ii

3.1.1. Región de la confianza para un vector característico 15

3.2. El análisis de factores 17

3.2.1. Formulación del problema 17

3.2.2. Análisis de la matriz de correlación 19

3.2.3. Extracción de factores 19

3.2.4. Determinación del número de factores 21

3.2.5. Rotación de factores 22

3.2.6. Interpretación de factores 23

3.2.7. Validación del modelo 24

3.3. Análisis por conglomerados 24

3.3.1. k medias 25

3.3.2. Construcción de jerarquías. 27

3.4. Análisis de regresión estadística 27

CAPÍTULO 4 29

Aplicación de los métodos multivariados. 29

4.1. Análisis preliminar 29

4.1.1. Variables asociadas a la diabetes en hombres mexicanos 29

4.1.2. Variables asociadas a la diabetes en mujeres mexicanas 33

4.1.3. Variables asociadas a la situación de los mexicanos por entidad federativa 36

4.2. Componentes principales 40

4.2.1. Datos sobre causas de diabetes en los hombres mexicanos 40

4.2.2. Datos sobre causas de diabetes en los mujeres mexicanas 42

4.2.3. Datos sobre situación de los Mexicanos por estados 44

4.3. Análisis de factores 46

4.3.1. Datos de las variables asociadas a la diabetes en hombres mexicanos 46

4.3.2. Factores para las variables asociadas a la diabetes en mujeres mexicanas 49

4.3.3. Datos de situación de los mexicanos por estados 52

4.4. Conglomerados 55

4.4.1. Datos de la situación de loa mexicanos por estados 55

4.4.1.1. Análisis por k medias 55

4.4.1.2. Por jerarquías 56

iii

4.5. Regresión múltiple 58

4.5.1. Causas que pueden repercutir en padecer diabetes en hombres 58

4.5.2. Datos de causas de diabetes en mujeres mexicanas 59

CAPÍTULO 5 63

Pronóstico para la mortalidad por diabetes en México 63

5.1. Regresión 63

5.1.1. Regresión lineal simple 63

5.1.2. Regresión local 64

5.1.3. Aplicación del método por regresión 64

5.2. Series de Tiempo 67

5.2.1. Componentes 68

5.2.2. Modelo ACF Y PACF 69

5.2.3. Modelo ARMA 69

5.2.4. Modelo ARIMA 70

5.2.5. Pronóstico 71

5.2.6. Aplicación de Series de tiempo 72

CONCLUSIONES 77

APÉNDICE A 79

BIBLIOGRAFÍA 83

iv

Lista de Figuras

Fig. 1.5.1 Carga Económica de la diabetes............................................................................. 6

Fig. 2.2.1 Diagrama de dispersión de causas de diabetes en hombres ................................. 10

Fig. 3.1.1 Enfoque de las técnicas multivariadas. ................................................................ 13

Fig. 3.2.1 Pasos para realizar un análisis de factores ........................................................... 17

Fig. 3.2 2 Métodos de Extracción de Factores ..................................................................... 21

Fig. 3.2.3 Criterios para determinar el número de factores .................................................. 22

Fig. 3.2.4 Métodos para aplicar rotación de factores............................................................ 23

Fig. 3.3.1 Diagrama del método por conglomerados ........................................................... 25

Fig. 3.3.2 Pasos del criterio de traza ..................................................................................... 27

Fig. 4.1.1 Matriz de las variables asociadas a la diabetes en hombres mexicanos ............... 31

Fig. 4.1.2 Diagrama de caja de las variables asociadas a la diabetes en hombres mexicanos

.............................................................................................................................................. 32

Fig. 4.1.3 Diagrama bivariante de las variables asociadas a la diabetes en hombres

mexicanos ............................................................................................................................. 32

Fig. 4.1.4 Chi plot de las variables asociadas a la diabetes en hombres mexicanos ............ 33

Fig. 4.1.5 Gráfico de variación de las componentes principales de las variables asociadas a

la diabetes en hombres mexicanos........................................................................................ 40

Fig. 4.1.6 Gráfico del comportamiento de las cargas con dirección para las variables

asociadas a la diabetes en hombres mexicanos .................................................................... 41

Fig. 4.1.8 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes

en hombres mexicanos.......................................................................................................... 49

Fig. 4.2.1 Matriz de dispersión en las variables asociadas a la diabetes en mujeres

mexicanas ............................................................................................................................. 35

Fig. 4.2.2 Diagrama de caja para las variables asociadas a la diabetes en mujeres

mexicanas ............................................................................................................................. 35

Fig. 4.2.3 Caja bivariante para las variables asociadas a la diabetes en mujeres mexicanas 36

Fig. 4.2.4 Chi plot de las variables asociadas a la diabetes en mujeres mexicanas .............. 36

v

Fig. 4.2.5 Gráfico de variación de las componentes principales en las variables asociadas a

la diabetes en mujeres mexicanas ......................................................................................... 42

Fig. 4.2.6 Gráfico del comportamiento de las cargas con dirección para las variables

asociadas a la diabetes en mujeres mexicanas ...................................................................... 43

Fig. 4.2.7 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes

en mujeres mexicanas ........................................................................................................... 52

Fig. 4.3.1 Matriz de dispersión de las variables asociadas a la situación de los mexicanos

por entidad federativa ........................................................................................................... 38

Fig. 4.3.2 Diagrama de caja aplicado a las variables asociadas a la situación de los

mexicanos por entidad federativa ......................................................................................... 39

Fig. 4.3.3 Diagrama estalactita para las variables asociadas a la situación de los mexicanos

por entidad federativa. .......................................................................................................... 39

Fig. 4.3.4 Gráfico de variación de las componentes principales en las variables asociadas a

la situación de los mexicanos por entidad federativa ........................................................... 44

Fig. 4.3. 5 Gráfico de las cargas con dirección de las variables asociadas a la situación de

los mexicanos por entidad federativa ................................................................................... 45

Fig. 4.3.6 Gráfico de componentes en espacios rotados de “análisis por estado” ................ 55

Fig. 4.3. 7 Mapa de los grupos formados por las variables asociadas a la situación de los

mexicanos por entidad federativa por k medias ................................................................... 56

Fig. 4.3.8 Método de k medias aplicado a la situación por estados ..................................... 56

Fig. 4.3.9 Dendograma generado por método de jerarquías a situación por estados ........... 57

Fig. 4.3. 10 Mapa Factorial de la agrupación por jerarquías a datos de situación por estados

.............................................................................................................................................. 57

Fig. 4.3. 11 Mapa de los grupos formados por las variables asociadas a la situación de los

mexicanos por entidad federativa por jerarquia ................................................................... 58

Fig. 5.1.1 Proceso para realizar una regresión local ............................................................. 64

Fig. 5.1. 2 Ajuste de datos aplicando LOES ......................................................................... 66

Fig. 5.1. 3 Comparación del ajuste de datos de ambos modelos. ....................................... 67

Fig. 5.2.2 Tipos de componentes .......................................................................................... 68

Fig. 5.2.3 Metodología de Box Jenkins ................................................................................ 71

Fig. 5.2. 4 Gráfico de la tendencia de los datos .................................................................... 73

vi

Fig. 5.2.5 Gráfico de los datos ya estacionarios ................................................................... 73

Fig. 5.2. 6 Gráfico del ACF y PACF de los datos ................................................................ 74

Fig. 5.2. 7 Gráfico de los residuos cuando ya se ha diferenciado ........................................ 74

Fig. 5.2. 8 ACF y PACF de los residuos .............................................................................. 75

Fig. 5.2. 9 Predicción con Series de Tiempo ........................................................................ 75

vii

Lista de tablas

Tabla 4.1.1 Medias de las variables asociadas a la diabetes en hombres mexicanos ........... 30

Tabla 4.1. 2 Matriz de varianza covarianza de las variables asociadas a la diabetes en

hombres mexicanos .............................................................................................................. 30

Tabla 4.1.3 Matriz de correlación de las variables asociadas a la diabetes en hombres

mexicanos ............................................................................................................................. 31

Tabla 4.14 Variación de las componentes principales de las variables asociadas a la

diabetes en hombres mexicanos ........................................................................................... 40

Tabla 4.1.5 Carga de los eigen-vectores estimados de las variables asociadas a la diabetes


Tabla 4.1.6 Prueba de KMO y Bartlett para las variables asociadas a la diabetes en hombres

mexicanos ............................................................................................................................. 46

Tabla 4.1.7 Extracción de factores a las variables asociadas a la diabetes en hombres

mexicanos ............................................................................................................................. 47

Tabla 4.1 8 Comunalidades de las variables asociadas a la diabetes en hombres mexicanos

.............................................................................................................................................. 47

Tabla 4.1.9 Suma de rotación de cargas al cuadrado en las variables asociadas a la diabetes


Tabla 4.1.10 Matriz de componentes aplicando factores a las variables asociadas a la

diabetes en hombres mexicanos ........................................................................................... 48

Tabla 4.1. 11 Matriz de componentes rotados de las variables asociadas a la diabetes en


Tabla 4.1. 12 Estimador por regresión múltiple a las variables asociadas a la diabetes en


Tabla 4.2. 1 Media de las variables asociadas a la diabetes en mujeres mexicanas ............. 33

Tabla 4.2.2 Matriz de varianza covarianza en las variables asociadas a la diabetes en

mujeres mexicanas ................................................................................................................ 34

Tabla 4.2. 3 Matriz de correlación en las variables asociadas a la diabetes en mujeres

mexicanas ............................................................................................................................. 34

Tabla 4.2.4 Variación de las componentes principales en las variables asociadas a la

diabetes en mujeres mexicanas ............................................................................................. 42

viii

Tabla 4.2.5 Carga de los eigen-vectores estimados en las variables asociadas a la diabetes


Tabla 4.2.6 Extracción de factores de las variables asociadas a la diabetes en mujeres

mexicanas ............................................................................................................................. 49

Tabla 4.2.7 Comunalidades de las variables asociadas a la diabetes en mujeres mexicanas50

Tabla 4.2.8 Sumas de rotación de cargas al cuadrado de las variables asociadas a la diabetes


Tabla 4.2.9 Matriz de componentes de las variables asociadas a la diabetes en mujeres

mexicanas ............................................................................................................................. 51

Tabla 4.2.10 Matriz de componentes rotados de las variables asociadas a la diabetes en


Tabla 4.2. 11 Estimador por regresión múltiple de las variables asociadas a la diabetes en


Tabla 4.2. 12 Estimador por regresión múltiple de algunas de las variables asociadas a la

diabetes en mujeres mexicanas ............................................................................................. 60

Tabla 4.3.1 Media de las variables asociadas a la situación de los mexicanos por entidad

federativa .............................................................................................................................. 37

Tabla 4.3.2 Matriz de varianza covarianza de las variables asociadas a la situación de los

mexicanos por entidad federativa ......................................................................................... 37

Tabla 4.3.3 Matriz de correlación de las variables asociadas a la situación de los mexicanos

por entidad federativa ........................................................................................................... 38

Tabla 4.3.4 Variación de las componentes principales de las variables asociadas a la

situación de los mexicanos por entidad federativa ............................................................... 44

Tabla 4.3. 5 Carga de los eigen-vectores estimados de las variables asociadas a la situación

de los mexicanos por entidad federativa............................................................................... 45

Tabla 4.3.6 Prueba de KMO y Bartlett para análisis por estados en México ....................... 52

Tabla 4.3. 7 Extracción de factores para análisis por estados en México. ........................... 52

Tabla 4.3.8 Comunalidades del análisis por estados de México .......................................... 53

Tabla 4.3.9 Suma de rotación de cargas al cuadrado de "análisis por estados" ................... 53

Tabla 4.3. 10 Matriz de componentes de "análisis por estados" .......................................... 54

Tabla 4.3. 11 Matriz de componentes rotados de "análisis por estados" .............................. 54

ix

Tabla 5.1.1 Datos históricos de mortalidad en México ........................................................ 64

Tabla 5.1.2 Coeficientes de regresión lineal sobre datos de mortalidad .............................. 65

Tabla 5.1.3 Nuevos valores de mortalidad ajustando con LOESS ....................................... 65

Tabla 5.1.4 Comparación de las predicciones obtenidas de los modelos de regresión lineal y

local- ..................................................................................................................................... 67

Tabla 5.2.1 Datos de la predicción por Series de Tiempo .................................................... 76

1

Introducción

El interés por realizar un análisis de datos acerca de algunas variables relacionadas con la

diabetes es con el fin de ampliar nuestro conocimiento sobre este tema. La problemática

asociada con la diabetes va en aumento con el paso del tiempo. El interés surge debido a

que a pesar de las medidas que se han tomado para disminuirla.

Los objetivos que se tiene principalmente son:

Estudiar datos sobre la diabetes en mujeres y hombres, para determinar nuevas

variables que expliquen la mayor parte posible de la variabilidad en los datos

originales.

Determinar a partir de los datos estudiados sobre diabetes, si existe relaciones que

permitan agrupar a las entidades federativas en conjuntos con cierta similitud.

Agrupar grupos homogéneos, en los cuales, las variables que lo integran tengan una

alta correlación.

Realizar una regresión multivariada que exprese la incidencia de diabetes en

términos de otras variables importantes, que nos permita ver cómo afectan los

cambios en estas variables a dicha incidencia.

Hacer un pronóstico de la mortalidad por diabetes, mediante regresión local y series

temporales, que revele la tendencia de esta problemática.

Con estos objetivos ya planteados, se busca dar información que tenga un aporte para la

comprensión de la situación que tiene la diabetes en la población mexicana. Para esto se

tomaran los datos estadísticos recabados por instituciones dedicadas a realizar estadísticas

en México (del año 2012).

Desarrollamos el trabajo aplicando la metodología de la estadística multivariada, para lo

cual lo hemos dividido en cinco capítulos.

En el Capítulo 1 “La diabetes mellitus”, se da información acerca de lo que es la diabetes,

sus tipos, antecedentes, la situación de la misma, y la carga económica que provoca. El fin

es lograr entender el impacto que tiene en el mundo, pero principalmente en México, y

poder tener un entendimiento de las causas que se involucran en este padecimiento, además

de las consecuencias tanto de salud, como económicas que esta tiene.

En el Capítulo 2 “Datos multivariados y su visualización”, se hace referencia al análisis

preliminar que se debe aplicar a los datos, antes de un análisis con mayor profundidad. Este

análisis preliminar consta de la estadística descriptiva, la cual busca información acerca del

comportamiento que tiene cada variable individualmente, y alguna relación de varias

2

variables entre sí. Para complementar este análisis, se recurre a la visualización gráfica de

los datos.

En el Capítulo 3 “Técnicas multivariadas”, se hace un estudio breve de varios métodos de

análisis multivariado. Dentro de estos, se considero el Análisis de Componentes

Principales, el Análisis de Factores, Análisis por Conglomerados y Análisis de Regresión

Múltiple.

En el Capítulo 4 “Aplicación de los métodos multivariados.”, se aplican los métodos de los

Capítulo 2 y Capítulo 3 a tres grupos diferentes de datos.

Por último en el Capítulo 5 “Pronóstico para la mortalidad por diabetes en México”, se

desarrolla brevemente las teorías de regresión lineal y regresión local. Se aplica esto a datos

anuales de la mortalidad en México. También se da una breve explicación de Series de

tiempo, y se aplica este método a los mismos datos sobre mortalidad.

3

CAPITULO 1

La diabetes mellitus

En este capítulo se introduce el tema de la problemática de la diabetes, comenzando

definiendo a que se refiere el término diabetes mellitus, y los tipos que tiene. La diabetes es

una enfermedad que ha venido creciendo considerablemente y se describe la situación que

tiene tanto en México, como a nivel mundial, además de los costos que está genera. La

recopilación de información se basa principalmente de (FUNSALUD, 2015).

1.1. ¿Qué es la diabetes mellitus?

La diabetes (diabetes mellitus) es una enfermedad crónica degenerativa producida cuando

el páncreas no produce suficiente insulina o cuando el organismo no puede utilizar la

insulina con eficiencia.

La diabetes mellitus se ha convertido en un problema de salud pública de mucha

importancia, pues es una de las cuatro enfermedades no transmisibles que es considerada

por los dirigentes mundiales para poder intervenir prioritariamente

Para poder entender la dimensión que ha alcanzado la diabetes, el (INEGI, 2013) aproxima

que 371 millones de personas padecen diabetes a nivel mundial, y a esta situación trae con

sigo costos muy altos para poder atenderla, ya que se estima que las instituciones gastan

707 dólares al año por pacientes con diabetes, lo cual es un gasto muy elevado tomando en

cuenta la tendencia creciente de la enfermedad, pero más adelante se explicará con mayor

detalle.

Existen muchos factores por los cuales se tiene conocimiento que se puede desarrollar la

diabetes, ya sea por predisposición hereditaria, estilo de vida (sobrepeso, obesidad,

inactividad física, dieta inadecuada), factores ambientales, edad, entre otros. El estilo de

vida es una de las causas que influyen mucho en este padecimiento, y este es un

comportamiento que puede ser modificadas por las personas, pero a pesar de las medidas

que las instituciones han tomado para que se modifiquen estas conductas, y con ello se

pueda reducir la incidencia de diabetes, la problemática sigue en tendencia creciente.

En el caso de tener diabetes, lo fundamental es tener un diagnóstico de que se padece está

enfermedad lo antes posible para poder tomar acciones contra la enfermedad, parece algo

CAPITULO 1

4

obvio, pero muchas de las personas que padecen diabetes lo desconocen y eso aumenta las

posibilidades de que la enfermedad se agrave, ya que se pueden sumar otras

complicaciones.

1.2. Antecedentes

Se tiene referencias de casos de diabetes desde el año de 1500 a.C. pero fue el médico

romano Arateus quien la nombro como diabetes, que hace referencia al exceso de orina y

posteriormente el médico William Cullen fue quien le agrego el mellitus, que hace

referencia a la miel.

Pero el gran logro lo llevaron un equipo de médicos canadienses, los cuales lograron aislar

la insulina (secreción interna del páncreas), y un año más tarde pudieron tratar a un joven

de 14 años que padecía diabetes mellitus tipo I,

En México, a partir de la década de los ochentas la obesidad comenzó aumentar debido a la

urbanización, que trajo consigo el consumo de alimentos azucarados, la disminución del

transporte activo, entre otras circunstancias.

1.3. Tipos de diabetes

La diabetes mellitus se clasifica en tres tipos, entre estos esta la diabetes tipo I, la cual es

una enfermedad autoinmune y se caracteriza por una producción inadecuada de la insulina,

y debido a lo cual se necesita la administración de esta hormona. Las personas propensas a

padecerla son los infantes o adolescentes.

La diabetes mellitus tipo II es un trastorno metabólico que se caracteriza por hiperglucemia

(nivel alto de azúcar en la sangre) en el contexto de resistencia a la insulina y falta relativa

de insulina. Este tipo de diabetes se debe en gran parte a los hábitos alimenticios,

inactividad física, sobrepeso y obesidad. El consumir bebidas azucaradas también aumenta

el riesgo de padecerla.

Aunque las causas por las que se padece diabetes tipo I, y la diabetes tipo II, no son las

mismas, los síntomas de ambas son similares, pues consiste en la expulsión excesiva de

orina, sed y hambre constante, pérdida de peso, cansancio y trastornos visuales, pero la

diabetes tipo II, suelen ser menos intensos.

Y por último se tiene la diabetes gestacional, que es un estado hiperglucémico que se

detecta por primera vez durante el embarazo. Esto puede ser a causa de una mala

alimentación previa y durante el embarazo, o por el bloqueo de las funciones de la insulina,

1.4 Situación de la diabetes en México y el mundo

5

debido a las hormonas que se liberan en el proceso. Las mujeres con este tipo de diabetes

corren mayor riesgo de padecer hipertensión durante el embarazo.

1.4. Situación de la diabetes en México y el mundo

Es claro que la diabetes es un gran problema de salud pública, según la Organización

Mundial de la Salud (OMS), en el año 2012 hubo más de 347 millones de personas con

diabetes en el mundo, de las cuales, más del 80% de las muertes fueron a causa de la

misma, se registraron en países donde los ingresos son medios o bajos. También se sabe

que en 2014, esa cifra aumento a 422 millones de adultos con una prevalencia de 8.5% en

la población adulta.

Tan sólo la diabetes tipo II representa el 90% de los casos a nivel mundial a causa del

sobrepeso, la obesidad y la inactividad física, y a pesar de que estas causales son debido a

los hábitos que tienen las personas y los cuales podrían modificar, ya que dependen de

factores sociales, económicos e individuales, la realidad es que esto no es un problema fácil

de abordar, porque estos factores están fuera del alcance de las intervenciones de salud, y

por tanto, no pueden influir de tal manera que estos índices disminuyan.

Se estima que el costo generado por esta enfermedad y sus complicaciones asciende a

$346,000 mil millones de dólares, y con la tendencia creciente que tiene la diabetes, está

cifra podría ser de $490,000 mil millones de dólares en unos 13 años.

Pero el incremento de la diabetes no es lo único preocupante, ya que estadísticas de la

diabetes en México revelan que la morbilidad y la letalidad hospitalaria, también aumenta,

conforme la edad del paciente aumenta. Además, tiene la mayor contribución de mortalidad

por diabetes del continente americano y una de las tasas de mortalidad más altas del mundo

por esta condición. Además ocupa el 6to lugar a nivel mundial en el número de personas

con diabetes.

1.5. Carga económica de la diabetes

Por carga económica se refiere a los gastos que se realizan para la atención médica y los

gastos relacionados con el efecto que tiene por la mortalidad prematura y la discapacidad

que tenga el afectado en el trabajo. El motivo por el que se engloban estos aspectos es

debido a que repercuten directamente en el desarrollo económico y humano, en la

capacidad de fuerza de trabajo y en las condiciones de equidad y pobreza.

En el año 2013, se estimó según (FUNSALUD, 2015), que la carga económica a causa de

la diabetes fue de 362, 859,82 millones de pesos, es decir 2.25% del PIB de ese mismo año.

Los costos directos e indirectos se expresan en la Fig. 1.5.1. También se tiene que

CAPITULO 1

6

considerar que el 40% de la carga total recae sobre el sistema de salud y por ello es

importante que para afrontar esta problemática se considere a la salud, de la mano con la

seguridad social.

Fig. 1.5.1 Carga Económica de la diabetes

Debido a estos altos costos, es tan importante poder comprender y buscar medidas para

solucionar el problema, ya que es preocupante que estos costos que genera la enfermedad

van en aumento por que no se ha podido frenar esta tendencia como se quisiera. Según

(FUNSALUD, 2015), si el comportamiento no se modifica, se tiene una estimación que la

carga económica podría alcanzar 2.68% del PIB, para el año 2018.

Con ello podemos entender que el problema es bastante complicado, pero se necesita

mayormente que las personas modifiquen comportamientos que ponen en riesgo la salud,

además de los grandes costos que generan al no seguir las recomendaciones de estilo de

vida y alimentación que recomiendan los especialistas en salud.

Carga económica

362,859.82 (2.25%)

Costos directos

Gastos de atención médica

$179,495.33 (1.11%)

Costos indirectos

Perdida de ingresos por

muerte prematura o discapacidad.

$183,364.49 (1.14%)

7

CAPÍTULO 2

Datos multivariados y su visualización

En principio, los datos multivariados surgen en el instante en que a un individuo u objeto se le

miden más de una característica de interés (conocido como variable). Para poder hacer un

análisis de los datos, en primera instancia se recurre a aplicar una estadística descriptiva, la cual

consta esencialmente de obtener la matriz de datos, vector de media, la matriz de varianza

covarianza, la matriz de covarianza muestral, la matriz de correlación.

Como complemento a este análisis, se recurre a la visualización del comportamiento de estos

datos por medio de distintos gráficos, como lo es el gráfico de dispersión, chiplot, diagrama de

caja, diagrama de caja bivariante, diagrama de estalactita, entre otros, que son útiles para tener

una interpretación del comportamiento de nuestros datos, de manera más apreciativa. Con la

descripción estadística y la representación gráfica se tiene un complemento ideal para tener el

primer contacto con los datos.

2.1. Estadística descriptiva

El desarrollo de los temas está basado en (Everitt & Hothorn, 2011). Se describe a la estadística

como la rama de las matemáticas que proporciona métodos para reunir, organizar y analizar

información y usar ésta para obtener diversas conclusiones que nos puedan ayudar a resolver

problemas en la toma de decisiones y el diseño de experimentos.

Ahora, por estadística descriptiva se entiende a la parte de la estadística que analiza, estudia y

describe a la totalidad de individuos de una población muestra.

Para poder aplicar la estadística descriptiva, primero se plasman en una matriz de datos, donde

consta de p variables y n objetos o individuos (2.1. 1).

푋 =

푥 푥 ⋯ 푥

푥⋮푥

푥 ⋯ 푥

⋮ ⋱ ⋮푥 ⋯ 푥

(2.1. 1)

La matriz X consiste de datos observados, que corresponden a variables teóricas 푋 ,푋 ,… , 푋 . En

el análisis multivariado tratamos de encontrar relaciones entre las variables y estudiar la

“cercanía” entre los diferentes objetos.

CAPÍTULO 2

8

2.1.1. Covarianzas

Las covarianzas de las variables aleatorias nos miden su dependencia lineal. La covarianza

teórica de las variables aleatorias 푋 y 푋 se define por

휎 = 퐶표푣 푋 , 푋 = 퐸(푋 − µ ) 푋 − µ (2.1. 2)

donde µ = 퐸(푋 ) y µ = 퐸 푋 . Cuando 푖 = 푗 la covarianza es la varianza

휎 = 퐸((푋 − µ ) ) (2.1. 3)

Con los 휎푖푗 se forma la matriz Ʃ:

Ʃ =

⎣⎢⎢⎢⎡휎 휎 ⋯ 휎

휎 휎 ⋯ 휎

⋮휎

⋮ ⋱ ⋮휎 ⋯ 휎 ⎦

⎥⎥⎥⎤

(2.1. 4)

Esta matriz se llama matriz de varianza-covarianza, o simplemente matriz de covarianza. La

matriz Ʃ es estimada por:

푺 =1

푛 − 1(풙풊 − 풙)(풙풊 − 풙) (2.1. 5)

donde 푥 = 푥 , 푥 , … , 푥 es el vector de observaciones para el i-ésimo objeto y 푥̅ =

푛 ∑ 풙풊풏풊 ퟏ . La diagonal de S contiene las varianzas muestrales de cada variable, a las que

denotamos por 푠 .

2.1.2. Correlaciones

El coeficiente de correlación entre las variables 푋 y 푋 se define como:

휌 =휎

휎 휎 (2.1. 6)

2.1 Estadística descriptiva

9

donde 휎 = 휎 .

Para datos observados, definimos la matriz de correlación que contiene a los estimadores de las

correlaciones 휌 por medio de

푹 = 푫 / 푺푫 / (2.1. 7)

donde 푫 / = 1 푠⁄ ,… , 1 푠⁄ y 푠 = 푠 es la desviación estándar muestral de la variable i.

2.1.3. Distancias

En el análisis de conglomerados que veremos en el capítulo 3 aplicamos el concepto de distancia

entre los objetos en los datos. Dadas las unidades i y j la distancia más usada es la euclidiana

definida por:

풅풆 풙풊, 풙풋 = 푥 − 푥 (2.1. 8)

Además tenemos otras distancias, como las del máximo que se define por:

풅 풙풊, 풙풋 = max 푥 − 푥 (2.1. 9)

La distancia Manhattan, definida como:

d 풙풊, 풙풋 = 푥 − 푥 (2.1.10)

Y la distancia de Minkowski para 푝 > 0:

풅푴풊 풙풊, 풙풋 = 푥 − 푥

/

(2.1.11)

CAPÍTULO 2

10

2.2. Visualización del comportamiento de los datos

Para poder apreciar de forma más completa el comportamiento de los datos, se puede recurrir a

los gráficos de datos, los cuales ayudan a que se aprecie visualmente las cantidades medidas por

medio de combinación de puntos, líneas, un sistema de coordenadas, números, símbolos,

palabras, sombreado y color.

Esta manera de poder dar la interpretación de los datos, funciona sólo como un complemento del

análisis, pues si bien, al poder visualizar los datos, se puede ver patrones que indique el

comportamiento de estos, también es cierto que lo que se visualiza debe reflejar lo obtenido por

el análisis estadístico.

2.2.1. Diagrama de dispersión.

Este gráfico vincula al menos dos variables para evaluar la posible relación entre las variables

distribuidas. Es el diagrama estándar para representar datos bivariantes continuos, pero se puede

mejorar en una variedad de formas a la hora de acomodar información sobre otras variables. La

ejemplificación de este modelo está representado en la Fig. 2.2.1 que muestra a la variable

letalidad y mortalidad en hombres mexicanos.

Fig. 2.2.1 Diagrama de dispersión de causas de diabetes en hombres

2.2 Visualización del comportamiento de los datos

11

2.2.2. Matriz de dispersión.

En una matriz de dispersión consiste en representar en cada entrada de la matriz, un gráfico de

dispersión sencillo, lo malo de este método es que mientras más variables se tengan que

representar, la visualización de los datos, no es tan buena (la visualización de este gráfico lo

puede ver en la Fig. 4.1.1, Fig. 4.2.1 y Fig. 4.3.1).

2.2.3. Diagrama de caja

Es un gráfico que ayuda a la visualización de la distribución de un conjunto de datos. Este

gráfico está basado en cuartiles, donde se compone de el cuartil inferior 푄 , el cuartil superior

푄 de la distribución de una variable aleatoria, además de 푄 referido a la mediana de los datos,

también contiene el rango intercualtil 퐼푄푅 = 푄 − 푄 , lo que conforma el centro del gráfico.

Luego, el gráfico contiene líneas que se extienden desde la caja, hasta los valores máximo y

mínimo, o hasta 1.5 veces el 퐼푄푅, si los datos se extienden más de este valor, entonces nos dice

que hay valores atípicos (para una ejemplificación del diagrama, se puede ver en la Fig. 4.1.2,

Fig. 4.2.2 y Fig. 4.3.2)

2.2.4. Diagrama de caja bivariante

El cuadro de caja bivariante se basa en el cálculo de medidas solidas de ubicación, escala y

correlación. Consiste de un par de elipses concéntricas, una de ellas (bisagra) incluye el 50% de

los datos, mientras que la segunda (valla) delinea los valores atípicos potencialmente

problemáticos. Además, este gráfico muestra las líneas de regresión resistentes de 푦 en 푥 y 푥 en

푦, con su respectiva intersección, la cual muestra el estimador de ubicación bivariante. El ángulo

agudo entre las líneas de regresión será pequeño para un gran valor absoluto de correlaciones y

grande para uno pequeño (la visualización del diagrama se puede ver en la Fig. 4.1.3 y Fig.

4.2.3).

2.2.5. Diagrama chiplot

El gráfico chiplot está diseñado para admitir el problema bajo la dependencia de dos variables

aleatorias (푋 , 푋 ). El chiplot transforma los datos 푥 ,… , 푥 y (푥 , … , 푥 ) en valores

(푥 , … , 푥 ) Y (휆 ,… , 휆 ), que trazados en un diagrama de dispersión, se pueden usar para

detectar desviaciones de la independencia (este diagrama fue utilizado en la Fig. 4.1.4 y Fig.

4.2.4)

CAPÍTULO 2

12

2.2.6. Diagrama estalactita

Este diagrama está diseñado específicamente para poder detectar valores atípicos multivariados

(ver Fig. 4.3.3). Este método se basa en las distancias de observación generalizadas de la media

multivariada de los datos, sólo que esta se calcula a partir del aumento del tamaño de los

subconjuntos de datos.

se muestran la matriz de datos de tres casos particulares (los cuales se han tomado los gráficos

para ilustrar este capítulo) en los que se aplicara en la sección de “análisis preliminar” la

estadística descriptiva y la visualización de los datos por medio de los gráficos anteriormente

descritos, esto con el fin de observar la correlación de los datos, antes de hacer un análisis más

profundo.

13

CAPÍTULO 3

Técnicas multivariadas

Las técnicas multivariadas pueden abordarse desde distintos enfoques según (Pla, 1986) que se

reduce a los expresados en Fig. 3.1.1 en donde los enfoques se encuentran en los recuadros del

lado izquierdo, y a su derecha se expresa como es que se realiza dicho enfoque.

Fig. 3.1.1 Enfoque de las técnicas multivariadas.

Para realizar este análisis, tenemos varios métodos y en este capítulo se describirá a cuatro de

ellos. Los métodos son:

Análisis de Componentes Principales,

Análisis de Factores

Conglomerados.

Regresión Múltiple

• Hacer lo más simple el universo de estudio.Simplificar estructura

de los datos

• Observar como se comportan los datos, si forman grupos o están dispersos en el multiespacio. También se pueden agrupar variables.

Clasificación

• Se selecciona cierta variable y se analiza la dependencia con las variables restantes.

Análisis de la dependencia

• Se analiza si hay independencia total y colinealidadAnálisis de

interdependencia

• Se pretende establecer si los datos obtenidos pueden aceptarse con cierto nivel de significancia.

Formulación y prueba de hipótesis

CAPÍTULO 3

14

3.1. Análisis por el método de las componentes principales

El método de análisis por componentes principales es una técnica matemática en la cual no es

necesario conocer la distribución de probabilidad de los datos. Lo que se logra con este método es

generar nuevas variables que expresen la información de los datos originales, reducir la

dimensión de nuestro problema y en caso de que de las variables analizadas tenga poco aporte en

cuanto a información, se elimina.

Estas nuevas variables generadas las denominamos componentes principales, las cuales se desea

que no estén correlacionadas.

Las componentes principales debe cumplir con ciertos requisitos, los cuales se engloban en:

Las componentes no deben estar correlacionadas, y en tal caso de conocer si las variables

originales tienen un comportamiento multinormal, podemos afirmar que son

independientes.

Cada componente principal muestra la máxima variabilidad de los datos analizados.

El análisis de componentes principales parte de considerar una matriz de datos 푿 de tamaño 푛, y

dimensión 푝. Además de 푿, el análisis requiere tener la matriz de covarianza 휮, y para el análisis

se puede contar con dos casos.

휮 es singular

휮 tiene múltiples raíces.

Sea 휷 un vector columna ortogonal de 푝 componentes tal que 휷′휷 = 1. Para obtener la varianza

de la matriz de datos se tiene que obtener 휷′푿 , la cual se estima como (3.1.1)

휎(휷′푿) = 휎휷′푿푿′휷 = 휷′휮휷 (3.1.1)

Para poder determinar la combinación lineal normalizada 휷′푿 con varianza máxima, se debe

encontrar un vector 푝 tal que 휷′휷 = 1 que pueda maximizar la ecuación (3.1.1). Para lograrlo

se tiene la ecuación (3.1.2)

ɸ = 휷’Ʃ휷 − 휆(휷′휷 − 1) = ∑ 훽 휎 훽 − 휆 ∑ 훽 − 1, (3.1.2)

Donde 휆 es un multiplicador de Lagrange. Resulta ser que al obtener las derivadas parciales del

vector ɸ se tiene (3.1.3)

3.1 Análisis por el método de las componentes principales

15

휕ɸ

휕휷= 2Ʃ휷 − 2휆휷 (3.1.3)

Dado que 휷′휮휷 y 휷′휷 tienen derivados en todas partes en una región que contiene 휷′휷 = 1, un

vector 휷 que maximiza 휷′휮휷, entonces se debe satisfacer la expresión de la ecuación

(3.1.3)establecida igual a 0 (como se expresa en (3.1.4)).

(휮 − 휆푰) 휷 = 0. (3.1.4)

Para poder llegar a la solución de la ecuación (3.1.4) se debe tener Σ-λI singular; En otras

palabras, λ debe satisfacer (3.1.5).

| 휮 − 흀푰 | = 0 (3.1.5)

La expresión | 휮 − 흀푰 | resulta ser un polinomio, donde 휆 es de grado 푝, por lo tanto la ecuación

(3.1.5) tiene 푝 raíces tales que 휆 ≥ 휆 ≥ ⋯ ≥ 휆 . Si multiplicamos la ecuación (3.1.4) por 휷′,

obtenemos la siguiente ecuación (3.1.6).

휷′휮휷 = 휆휷′휷 = 휆 (3.1.6)

Lo cual demuestra que si 푝 satisface la ecuación (3.1.4) y 휷′휷 = 1, entonces la varianza de 휷′푿

(3.1.1) es 휆. Así, para la varianza máxima deberíamos usar en (3.1.4) la raíz más grande que es

휆 .

3.1.1. Región de la confianza para un vector característico

Para realizar la región de confianza, según (Anderson, 1918), lo primero es definir la matriz de

covarianza como (3.1.7)

휷휟풊휷′ = 휷풊

∗휟풊∗ 휷풊

∗′, (3.1.7)

Donde 휟 es la matriz diagonal 푝 푋 푝 con 0 como el i−é푠푖푚표 elemento diagonal y

휆 휆 휆 − 휆 como el elemento diagonal 푗 = 푖; 휟풊∗ es el (푝 − 1) 푋 (푝 − 1) matriz diagonal

obtenida de 휟풊 suprimiendo la 푖 − é푠푖푚푎 fila y columna; y휷풊∗es la matriz 푝 푋 (푝 − 1) formada

suprimiendo la 푖 − é푠푖푚푎 columna de 휷. Entonces 풉(풊) = 휟풊∗ ퟏ휷풊

∗′√푛 풃(풊) − 휷(풊) tiene una

distribución normal limitante con media 0 y matriz de covarianza

CAPÍTULO 3

16

ℯ 풉(풊) = 휟풊∗ ퟏ휷풊

∗′ 휷풊∗휟풊∗ 휷풊

∗′ 휷풊∗휟풊∗ ퟏ = 푰풑 ퟏ (3.1.8)

y

풉(풊) 풉(풊) = 풏 풃(풊) − 휷(풊) ′휷풊∗휟푰∗ ퟐ휷푰

∗′ 풃(풊) − 휷(푰) (3.1.9)

Tiene una distribución limitada con 푝 − 1 grados de libertad. La matriz de la forma cuadrática en

√푛 풃(풊) − 휷(푰) es

휷풊∗휟풊∗ 휷풊

∗ = 휷(풋)휆

휆− 2 +

휆

휆휷(풋)

′− 휷(푰)

휆

휆− 2 +

휆

휆휷(풊)

′= 휆 Ʃ − 2푰 + (1 휆⁄ )Ʃ (3.1.10)

Porque 휷Ʌ ퟏ휷′ = Ʃ ퟏ, 휷휷 = 퐼 y 휷Ʌ휷 = Ʃ. Entonces (3.1.9) es

푛 풃( ) − 휷( ) ′[휆 Ʃ − 2푰 + (1 휆⁄ )푺] 풃( ) − 휷( ) = 푛풃( )′[휆 Ʃ − 2푰 + (1 휆⁄ )Ʃ]풃( )

= 푛 휆 풃( ) Ʃ 풃( ) + (1 휆⁄ )풃( ) Ʃ풃( ) − 2 (3.1.11)

Porque 휷( )′es un vector característico de 휮 con raíz 휆 y de 휮 con raíz 1 휆⁄ . En el lado

izquierdo de (3.1.11) podemos reemplazar 휮 y 휆 por los estimadores consistentes 푺 y 푙 para

obtener (3.1.12), la cual tiene una distribución limitante con 푝 − 푔푟푎푑표푠 de libertad.

푛 풃( ) − 휷( ) ′[푙 푺 − 2푰 + (1 퐼⁄ 푺)] 풃( ) − 휷( )

= 푛 퐼 휷( ) 푺 휷( ) + (1 푙⁄ )휷( )′푺휷( ) − 2 (3.1.12)

Una región de confianza para el i−é푠푖푚표 vector característico de 휮 con confianza 1 − 푒 consiste

en la intersección de 휷( )휷( ) = 1 y el conjunto de p휷( ) tal que el lado derecho de (3.1.11) es

menor que 푋 (휀) donde 푃푟 푋 > 푋 (휀) = 휀. Obsérvese que la matriz de la forma

cuadrática (3.1.10) es semidefinita positiva.

Este enfoque también proporciona una prueba de la hipótesis nula de que el 푖 − é푠푖푚표 vector

característico es un especificado 휷( )휷( )′휷( )= 1 . La hipótesis es rechazado si el lado derecho

de (3.1.12) con 휷( ) reemplazado por 휷( )

excede 푋 (휀)

3.2 El análisis de factores

17

3.2. El análisis de factores

El análisis de factores es un método para identificar grupos de variables (o factores) cuyas

acciones parecen funcionar en paralelo. Dentro de un solo factor, varias variables medidas dentro

de cada individuo están altamente correlacionadas, ya sea positivamente o negativamente. Otras

variables parecen actuar independientemente de todas las demás. El objetivo del análisis de

factores es identificar e interpretar estos grupos de factores (De la Fuente Fernández, 2011).

Para poder realizar este análisis, hay un par de pasos que se deben seguir, estos pasos están

representados en la Fig. 3.2.1, en la que se puede apreciar que hay un orden para poder obtener

los factores necesarios para su análisis.

Fig. 3.2.1Pasos para realizar un análisis de factores

3.2.1. Formulación del problema

El análisis está basado en (Peña, 2002). Supongamos que x es un vector de variables de

dimensiones 푝 × 1 en elementos de una población. Se tiene un modelo de análisis factorial como

se establece en (3.2.1)

퐱 − 훍 = f횲′ + 훆 (3.2.1)

donde f es un vector de dimensión 푚 × 1, y son los factores no observados, 횲 es una matriz de

cargas y es de dimensión 푝 × 푚 (con 푚 < 푝), 훍 es la media de las variables de x y 훆 es un vector

de dimensión 푝 × 1 de perturbaciones no observadas. Para el caso de f y 훆 supondremos que se

tiene una distribución 푁 (0,1) Y 푁 (0,훹) respectivamente (훹 es diagonal), por lo que las 훆 no

están correlacionadas con f.

CAPÍTULO 3

18

La ecuación (3.2.1) implica que dada una muestra aleatoria simple de n elementos, el modelo

factorial se puede escribir como se expresa en la siguiente ecuación

푥 = µ + 휆 푓 +⋯+ 휆 푓 + ε (3.2.2)

donde 푖 = 1,⋯ , 푛 y 푗 = 1,⋯ , 푝. Con lo cual, i hace referencia a el valor observado, mientras que

j se refiere a las variable. Entonces µ es la media de la variable j, los 푚 휆 multiplicados por los

푚 푓 recogen el efecto de los factores y el ε es una perturbación específica de cada observación.

Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos 푿 (de 푛 × 푝)

puede escribirse como

퐗 = ퟏ훍 + 퐅횲′ + 훆 (3.2.3)

donde 횲 dimensión p x k, el vector F es de dimensión n x k y el vector aleatorio 훆 es de

dimensión n x 1. La estimación de las cargas Λ y de los factores F no es posible sin algunas

suposiciones adicionales. Específicamente se debe asumir lo expresado en (3.2.4) y (3.2.5).

퐸퐹 = 0 푦 푉푎푟(퐹 ) = 1 (3.2.4)

퐸휀 = 0 푦 푉푎푟(휀) = 훹 = 퐷푖푎푔(훹 ,훹 ,… ,훹 ) (3.2.5)

Además, los factores f no están correlacionados con los errores ε (퐶표푣 퐹 , 휀 = 0) 푐표푛 푖 =

1,⋯ , 푘 푦 푗 = 1,⋯ , 푝. En conjunto, estas suposiciones son suficientes para que podamos

ajustarnos al modelo (3.2.1). Además también pueden usarse para describir una forma alternativa

para el modelo de análisis factorial.

La ecuación (3.2.1) se puede escribir como se expresa en la ecuación siguiente.

(풙 − 흁)(풙 − 흁)′ = (휦풇 + 휺)(휦풇 + 휺)′ = 휦풇 휦풇′ + 휺 휦풇′ + 휦풇휺′ + 휺휺′ (3.2.6)

Usando los tres supuestos (3.2.4), (3.2.5) y la no correlación de los factores y los errores

podemos entonces expresar la matriz de covarianza Σ de x como la ecuación (3.2.7).


19

퐶표푣(풙) = 퐸(풙 − 흁)(풙 − 흁)′ = 휦퐸 풇풇′ 휦′ + 퐸 휺풇′ 휦′ + 휦퐸 풇휺′ + 퐸 휺휺′ = 휦휦′ +휳 (3.2.7)

Demostrando la equivalencia de dos formulaciones de los modelos de análisis factorial en la

ecuación (3.2.1) y (3.2.2). En (3.2.3) se compone de 휦휦′ que es una matriz simétrica y contiene la

parte común del conjunto de variables. La diagonal 휳 contiene la parte específica de cada

variable. Ya que la covarianza de 풙 se puede descomponer de esta manera, entonces la varianza

de las variables observadas puede verse como se expresa en

휎 = 휆 + 훹 푖 = 1,⋯ , 푝 (3.2.8)

Si tenemos que la comunalidad es ℎ = ∑ 휆 , entonces (3.2.8) resulta

휎 = ℎ + 훹 (3.2.9)

Esta igualdad puede interpretarse como una descomposición de la varianza en:

Varianza observada = Variabilidad común + Variabilidad específica

3.2.2. Análisis de la matriz de correlación

El motivo para realizar este análisis de la matriz, es que se busca comprobar si las características

son las correctas para poder realizar un análisis de factores. Las características a las que se hace

mención son:

1. Las variables se encuentren altamente intercorrelacionadas

2. Las variables que tengan correlación muy alta entre sí, también deben tener alta correlación

con el mismo factor o factores.

3.2.3. Extracción de factores

Partiendo del modelo factorial en forma matricial (푋 = 퐹퐴′+ 휀) se deduce la identidad

fundamental del análisis factorial.

CAPÍTULO 3

20

푟 = 퐴퐴′ + 휓 (3.2.10)

Donde 푟 es la matriz de correlación poblacional de las variables 푥 , 푥 , … , 푥 . En esta

extracción se deben obtener los grados de libertad y para que se pueda realizar la estimación se

requiere que el número de ecuaciones sea mayor o igual al número de parámetros a estimar, o lo

que viene siendo

푝(푝 + 1)

2≥ 푝(푘 + 1) => 푘 ≤

푝 − 1

2 (3.2.11)

También se debe tomar en cuenta la no unicidad de la solución ya que

las soluciones dadas por la matriz 퐴 no son únicas.

Por tanto, el modelo es único salvo rotaciones ortogonales, es decir, se pueden realizar rotaciones

de la matriz de las ponderaciones o cargas factoriales sin alterar el modelo.

Como se menciono antes, se debe seleccionar el método adecuado para la extracción de factores.

Estos métodos están descritos en la Fig. 3.2 2 y resumen su funcionamiento y complicaciones.

Cabe destacar que el aplicar alguno de los métodos, se debe considerar que no todos serán

efectivos, y la cuestión es poder analizar e interpretar los resultados, puesto que algunos tendrán

problemas al converger, y también tendrá que ver el número de variables que se analiza. En el

caso partículas de las componentes principales, es un método que siempre proporciona una

solución, pero en caso de que las variables sean bajos y las comunalidades sean pequeñas, pues

puede proporcionar diferencia con los demás métodos, con cargas factoriales mayores.

También es interesante decir que en caso de que las variables sean superiores a 30, el valor de las

comunalidades no influye tanto en el resultado obtenido y todos los métodos tienden a obtener la

misma solución


21

Fig. 3.2 2Métodos de Extracción de Factores

3.2.4. Determinación del número de factores

Para determinar el número adecuado de factores, existen varios criterios que se utilizan, y es que

la importancia radica en que los primeros factores explican la mayor parte de la información

analizada, y los que restan, describen una pequeña cantidad de información. Lo que se pretende

es descartar los factores que proporcionen poca información y por consiguiente el problema se

reduce a analizar sólo los factores que tienen información significativa. Los criterios se describen

en la Fig. 3.2.3.

MÉTODOS DE

EXTRACCIÓN DE

FACTORES

Componentes principales

Siempre proporciona una solución

No esta basado en análisis factorial

Puede llevar a estimadores muy sesgados

Ejes principales

Esta basado en el modelo factorial

Tiene buenas estimaciones

No garantiza su convergencia

Maxima verosimilitud

No depende de la escala de medida de los datos

Puede producir problemas de convegencia con datos no normales

Mínimos cuadrados no ponderados

Minimiza las diferencias de cuadrados

Matriz correlación observada

Matriz de correlación reproducida

Mínimos cuadrados

generalizado

Minimiza el mismo criterio

Aplica contraste de hipótesis para el número de factores.

Factorización por imagenes

Aplica el método de componentes principales a la matriz de correlación (predicción de regresión lineal a las variables)

Alfamiza el

alfaMaximiza el alfa de Cronbach para los factores.

CAPÍTULO 3

22

Fig. 3.2.3Criterios para determinar el número de factores

3.2.5. Rotación de factores

La rotación de factores tiene como fin obtener una interpretación más fácil que la solución inicial.

Para poder realiza la rotación la matriz de cargas factoriales debe cumplir los las tres

características siguientes.

1. Cada factor debe tener pocos pesos altos, y el resto deben ser cercanos a cero.

2. Para cada variable, no debe estar saturada más que un factor.

3. Los factores deben ser diferentes en el comportamiento, y esto hace referencia a que los

valores de cada factor tendrán que cambiar en las variables que se les asigna el peso de

cargas altas y bajas.

Existen diferentes métodos para hacer una rotación de factores, estos métodos se expresan en el

esquema de la Fig. 3.2.4. que expresa su funcionamiento.

CRITERIOS

A priori

Datos y variables bien elegidos y

situación conocida

Idea previa de cuantos factores

hay

Cuales son los factores

Prueba de Kaiser

Valores propios de la matriz de

correlación

Número de valores propios superiores a la

unidad

Porcentaje de la varianza

Número minimo necesario para un

porcentaje satisfactorio

75% 80%

Sedimentación

Representación gráfica

Factores en eje de las abscisas

Valores propios en las ordenadas

División a la mitad

Muestra se divide en dos partes al azar

Se toman los factores con alta correspondencia de cada muestra


23

Fig. 3.2.4Métodos para aplicar rotación de factores.

3.2.6. Interpretación de factores

Para hacer una interpretación de factores, lo que se debe hacer es analizar la correlación que

existe entre los factores obtenidos con las variables originales, y para hacer está interpretación se

cuenta con los pasos que se describen a continuación.

Identificar las correlaciones altas (en valor absoluto) entre las variables y los factores.

Darle una especificación de la correlación (negativa, positiva, inversa)

Graficar dos a dos, se grafica los ejes factoriales, y sobre este se proyecta las variables.

ROTACIÓN DE FACTORES

Oblicuas

No tiene que ser ortogonal

Debe ser una matriz singular

Factores en la población con correlaciones muy fuertes.

Ortogonal

Varimax

Maximiza el número de

variables con cargas altas en un factor

Quartimax

Maximiza la varianza de las cargas

factoriales al cuadrado de cada variable

en los factores.

Equamax

Maximiza la media de los criterios de Varimax y Quartimax

Oblimin

Minimiza la interpretabilidad y ortogonalidad de los factores

Promax

Se eleva a una potencia las

cargas factoriales

obtenidads en una rotacion

ortogonal

Los ejes se rotan de tal manera que se preserve la incorrelación entre

factores

CAPÍTULO 3

24

Cuando las variables se encuentran al final del factor, la correlación es alta con ese

factor.

Cuando las variables se encuentran cerca del origen, la correlación es reducida con

ambos factores.

Cuando no se encuentran cerca de ninguno de los ejes, tiene relación con ambos

factores.

Ordenar en una matriz de tal forma que las variables que tengan alta correlación con un

factor, aparezcan juntas.

Eliminar las cargas factoriales bajas, ya que suele ser información redundante.

3.2.7. Validación del modelo

Para realizar una validación del modelo, lo que se debe hacer es analizar la bondad de ajuste y

obtener la generalidad de los datos.

La Bondad de Ajuste es una suposición básica subyacente al Análisis Factorial es que la

correlación que se tiene entre las variables puede atribuirse a factores comunes. Entonces,

las correlaciones entre variables pueden deducirse a partir de las correlaciones estimadas entre las

variables y los factores.

Ahora bien, al estudiar los residuos, podemos decir que el modelo factorial es adecuado si los

residuos son pequeños. Se sabe que hay mayor estabilidad en los resultados si el número de

variables por caso es alto.

Para obtener la generalidad de los datos, lo conveniente es complementar el primer análisis con

otros nuevos para corroboran la información obtenida en ese primer análisis. Ya sea que se

modifique las variables consideradas (eliminar variables que no se relacionan o las de relaciones

más fuertes), realizar la prueba a grupos presentes en la muestra. Este análisis ayuda a comparar

los resultados obtenidos, y corroboran si con estas modificaciones los datos concuerdan.

3.3. Análisis por conglomerados

Para el análisis por conglomerado se tomó como referencia a (Zelterman, 2015), dicho análisis es

un método no paramétrico de organización, el cual busca formar grupos, los cuales tengan ciertas

similitudes. Esté método generalmente se expresa mediante un gráfico que ayude con la

interpretación de dichos grupos. El método estudia tres tipos de problemas (partición de datos,

construcción de jerarquías y construcción de variables), como lo muestra la Fig. 3.3.1., aunque el

análisis en el que se centrara la investigación será por construcción de jerarquías y k medias.

3.3 Análisis por conglomerados

25

Fig. 3.3.1Diagrama del método por conglomerados

Para realizar un análisis por conglomerado, ocupando “partición de datos”, tan sólo se necesita

tener una matriz de datos. En el caso de que el problema requiera una “construcción de

jerarquía”, lo que se necesita es una matriz de distancia o de similitud de elementos, y en el caso

de “clasificación de variables”, se comienza desde la matriz de relación entre variables. En el

caso de que nuestras variables sean continuas, es necesario la matriz de correlación, pero si las

variables resultan ser discretas, la matriz se construye con distancias ji-cuadrado.

3.3.1. k medias

El algoritmo de k-medias busca en principio un criterio de homogeneidad, la manera de

realizarlo básicamente es utilizando la suma de cuadrados dentro de los grupos, para cada una de

las variables. Equivalentemente se puede obtener haciendo la suma de las varianzas de cada

variable (3.3.1).

−푥̅ (3.3. 1)

Donde k se refiere a los k grupos prefijados, p son las variables involucradas y 푛 los elementos

que contienen cada grupo. Con lo cual podemos identificar que 푥 se refiere a cada variable 푗 en

el elemento 푖 dentro del grupo 푚, mientras que 푥̅ se refiere a la media que tiene la variable 푗

CONGLOMERADOS

PARTICIÓN DE DATOS

DATOS HETEROGÉNEOS

NÚMERO DE GRUPOS

PREFIJADOS

Cada elemento pertenezca

solamente a un grupo

Todo elemento este clasificado

Cada grupo sea homogéneo

CONSTRUCCIÓN DE JERARQUÍAS

Estructurar grupos jerarquicos por la

similitud que tienen los datos.

CLASIFICACIÓN DE VARIABLES

Estudio exploratorio para formar grupos de

todas las variables.

CAPÍTULO 3

26

dentro del grupo 푚. Ahora bien, el objetivo del criterio es minimizar esta varianza, como se

expresa en (3.3.2)

푚í푛 푛 푠 (3.3. 2)

En donde 푛 se refiere al número de elementos que contiene el grupo 푚, mientras que 푠 se

refiere a la varianza que existe en la variable 푗 del grupo 푚. Con lo anterior sólo se busca

encontrar la menor varianza dentro de los grupos, para que sean más homogéneos.

Existe otra forma de homogeneizar los grupos, esto es minimizando el cuadrado de la distancia

con la norma euclidiana, la cual se ha definido en el Capítulo 2. La distancia se refiere a obtener

en cada grupo la longitud que existe ente el centro del grupo, con los puntos contenidos en el

mismo. Para realizar lo anterior se tiene la siguiente ecuación.

푚í푛 (푥 − 푥̅ )′(푥 − 푥̅ ) = 푑 (푖,푚) (3.3. 3)

También se tiene el criterio de la traza, donde la traza se define como la suma de los elementos

de la diagonal principal el cual fue propuesto por Ward en 1963. El método se resuelve al aplicar

(3.3.4).

푡푟[푑 (푖,푚)] = 푚í푛푡푟 (푥 − 푥̅ )′(푥 − 푥̅ ) (3.3. 4)

Este algoritmo se reduce en llevar a cabo el proceso que se muestra en la Fig. 3.3. 2, por lo cual

podemos ver que el resultado depende de la asignación inicial y también de cuál es el orden de

los elementos.

Este último criterio tiene dos propiedades importantes.

No es invariante ante cambios de medida de las variables. Esto se ve ejemplificado

cuando las unidades de medida no son iguales, debido a esta propiedad es

recomendable estandarizar las unidades. En caso contrario, es recomendable no

estandarizar pues se puede ocultar información acerca de la formación de grupos.

3.4 Análisis de regresión estadística

27

Produce grupos aproximadamente esféricos

En el algoritmo de k-medias, lo primordial es generar número de grupos

3.3.2. Construcción de jerarquías.

Como se menciono con anterioridad, esté método genera gráficos que nos ayudan al interpretar

las agrupaciones generadas. El dendrograma es el gráfico que se utiliza para este caso en

particular, el cual no es más que un diagrama de jerarquía, en el cual los grupos formados se

pueden observar desde la parte más baja, y conforme se van uniendo estas líneas, serán como se

van relacionando con respecto a sus distancias.

En nuestros datos a analizar, tenemos que destacar que deben estar normalizados, pues de lo

contrario, las columnas con una gran varianza dominarán cualquier distancia razonable, y las

columnas con varianza pequeña, tenderá a ignorarse.

Cómo se ha mencionado recurrentemente, el análisis hace mención a la distancia que existe entre

los datos. La distancia que generalmente se utiliza para dicho análisis es la euclidiana descrita en

el Capítulo 2

3.4. Análisis de regresión estadística

La regresión es un proceso estadístico, el cual estima la relación que existe entre las variables. La

cuestión en este sentido será analizar la regresión multivariada, puesto que se busca ver si existe

dependencia entre los datos (ver (Ferre, 2014) )

En primera instancia se puede recurrir a un gráfico de dispersión, en el cual, se puede apreciar si

existe alguna relación entre la serie de puntos que se tiene. Si con dicho gráfico se nota una

Fig. 3.3. 2. Pasos del criterio de traza

Comprobar si al

cambiar algún

elemento se

reduce d2(i,m)

Asignación

inicial

Terminar

Mover

elemento

Recalcular las

medidas de los

grupos.

No se reduce

Se reduce

CAPÍTULO 3

28

dependencia entre los puntos graficados, entonces se puede avanzar en el análisis y modelar dicha

regresión. Luego de esto, se recurre a la modelación, que en breve se describe.

Ahora bien, el modelo se realiza con el fin de poder predecir, si es que hay una relación entre los

datos.

Para ello debe verificarse alguna de las siguientes condiciones

el valor de la predicción está dentro del rango de la variable original.

si el valor de la predicción está fuera del rango de la original, debemos asegurar que los

valores futuros mantendrán el modelo lineal propuesto.

Para está predicción se obtiene un intervalo de confianza, el cual dado un nuevo conjunto de

predicciones 푥 , debe evaluar la incertidumbre en esta predicción. Para tomar decisiones

racionales necesitamos algo más que puntos estimados. Si la predicción tiene intervalo de

confianza ancho entonces los resultados estarán lejos de la estimación puntual

Un caso particular es el análisis de regresión lineal, que es una técnica estadística que se utiliza

para poder medir la dependencia entre las variables. El modelo se describe mediante la ecuación

siguiente.

푌 = 훽 + 훽 푥 +⋯+ 훽 푥 (3.4.1)

En el caso particular de que 푛 = 1, se tiene una regresión lineal simple (푦 = 푚푥 + 푏). Pero si

no es así (푛 > 1), entonces se conoce como regresión lineal múltiple. Con el ajuste de esta recta

que aproxima el comportamiento que tienen los datos, se podrá predecir los valores de las

variables dependientes. Dicha ecuación se conoce como modelo de regresión y para determinar

que el ajuste que se hizo sea adecuado, se tiene que analizar los residuos (normalidad, varianza

constante y valores atípicos)

En síntesis se busca una asociación, donde el Análisis de Componentes Principales busca a las

variables tienen la mayor variabilidad, el Método de Factores busca encontrar grupos de

variables, en los que su funcionamiento parecería que actúan en paralelo, el Análisis por

Conglomerados que busca formar grupos con ciertas similitudes y este va acompañado de un

gráfico que represente está formación de grupos y por último se tiene el análisis por regresión

múltiple, en el cual se expresan las variables como un modelo lineal en la que se establece una

variable como combinación lineal de las otras. Estos métodos serán de utilidad más adelante.

Para mayor profundización ver (Husson, Lê, & Pagès, 2011) y (K. V., J. T., & J. M., 1979))

4.1 Análisis preliminar

29

CAPÍTULO 4

Aplicación de los métodos multivariados.

Los métodos que fueron descritos en el Capítulo 3 serán de ayuda para analizas algunos datos

sobre la diabetes, en los cuales se busca ver la relación entre estos. Las variables que serán

analizadas son las que se considero que pueden llegar a repercutir en la tendencia creciente de la

incidencia de diabetes y mortalidad por la misma.

Esta aplicación de los métodos se presenta en tres grupos de datos.

1. Variables asociadas a la diabetes en hombres mexicanos

2. Variables asociadas a la diabetes en mujeres mexicanas

3. Variables asociadas a la situación de los mexicanos por entidad federativa

En los cuales se empieza con un análisis preliminar que se refiere a lo visto en el Capítulo 2 y

después se prosigue a aplicar los métodos multivariados expuestos en el Capítulo 3, donde a los

datos de 1 y 2, se le aplicará método de componentes principales, análisis de factores y regresión

múltiple y a los datos de 3 se le aplicarán los métodos de análisis de componentes principales,

análisis de factores, y análisis de conglomerados. (ver (Baillo Moreno & Grané Chavéz, 2008))

4.1. Análisis preliminar

Como ya se menciono se va a realizar un análisis a tres casos particulares, y al necesitar hacer un

análisis preliminar a los tres casos particulares, primero se debe señalar que se va a realizar el

análisis estadístico descriptivo (matriz de datos, media, varianza, covarianza y correlación) y la

representación gráfica de los datos.

Los datos de las variables asociadas a la diabetes en hombres y mujeres mexicanos, se han

recabado en (INEGI, 2013), (Instituto Nacional de las Mujeres, 2015) y (INEGI, 2016) en donde

se tomaron las diferentes causas que se cree que puede influir en la tendencia de la incidencia de

diabetes. Mientras que las variables asociadas a la situación de los mexicanos por entidad

federativa, hace referencia a datos recabados del (INEGI). Cabe destacar que los datos son

porcentajes, para que no cause conflicto con el análisis que se llevara a cabo.

4.1.1. Variables asociadas a la diabetes en hombres mexicanos

La matriz de datos que se formo acerca de las variables que repercuten en el problema de diabetes

fue con base en lo descrito en el Capítulo 1, donde se considera la obesidad, sobrepeso, actividad

CAPÍTULO 4

30

física, mortalidad, letalidad, morbilidad, medidas preventivas e incidencia de diabetes, las cuales

se describen por rangos de edad. (Ver Apéndice A, Tabla A1)

Se obtiene la media de las ocho variables (Tabla 4.1.1) donde se aprecia que hay medias muy

pequeñas, como el caso de la morbilidad y la letalidad, mientras que otros están arriba del 40%

(sobrepeso y actividad física).

Tabla 4.1.1 Medias de las variables asociadas a la diabetes en hombres mexicanos

Incidencia diabetes 0.9044211

Sobrepeso 43.9730769

Obesidad 24.6884615

Morbilidad 0.2950323

Medidas preventivas 33.9153846

Letalidad 11.08

Mortalidad 0.1814223

Actividad Física 47.8884615

En la Tabla 4.1. 2 se tiene la matriz de varianza covarianza.

Tabla 4.1. 2 Matriz de varianza covarianza de las variables asociadas a la diabetes en hombres mexicanos

ID Sobrepeso Obesidad Morbilidad Mortalidad MP Letalidad AF

ID 0.3860046

Sobrepeso -1.7294769 53.34381

Obesidad 1.6402762 15.66716 22.087756

Morbilidad 0.1323848 -1.15297 0.2817715 0.0542851

Mortalidad 1.0281484 -1.74772 4.7285737 0.2799663 9.4222435

MP 2.8985560 -35.58897 2.0956458 1.3776817 3.4875416 40.01024

Letalidad 0.0859355 -1.24484 -0.0624564 0.0430868 0.0934926 1.25931 0.0406078

AF 0.0390561 15.95568 -4.0890865 -0.5432118 13.573942 -33.7227 -0.9295692 134.40173

Y para observar la relación de las variables, se obtiene la siguiente tabla de correlación


31

Tabla 4.1.3 Matriz de correlación de las variables asociadas a la diabetes en hombres mexicanos

ID Sobrepeso Obesidad Morbilidad Mortalidad MP Letalidad AF

ID 1

Sobrepeso -0.38113296 1

Obesidad 0.56175242 0.4564282 1

Morbilidad 0.91453747 -0.677542 0.2573242 1

Mortalidad 0.53911625 -0.0779567 0.3277760 0.391460 1

MP 0.73756423 -0.7703496 0.070494 0.934808 0.179620 1

Letalidad 0.68639140 -0.8458041 -0.0659472 0.917697 0.1511456 0.987971 1

AF 0.00542245 0.1884391 -0.0750495 -0.201106 0.3814401 -0.459869 -0.3979004 1

Con esta información se busca cual es el comportamiento que tienen las diferentes causas

mediante comparación a pares, el cual busca mostrar la relación que tienen entre sí, lo cual se

observa mediante, en la cual que ve la tendencia que siguen las diferentes variables, y un detalle a

analizar es la tendencia que sigue la actividad física con las demás variables, que parece no seguir

una tendencia (Fig. 4.1.1).

Fig. 4.1.1 Matriz de las variables asociadas a la diabetes en hombres mexicanos

Al analizar las variables por el diagrama de caja, podemos notar que la variable que si tiene

valores atípicos es la Actividad Física (Ver Fig. 4.1.2), ya que se aprecian dos puntos fuera de los

brazos de la caja, los cuales, se refieren a los datos del Grupo de edad 20 – 24 años, y 80 y +.

CAPÍTULO 4

32

Fig. 4.1.2 Diagrama de caja de las variables asociadas a la diabetes en hombres mexicanos

Para realizar un análisis bivariante se establecen el par de variables que se van a analizar, en este

caso en particular, al notar en la matriz de correlación que la letalidad y la mortalidad diria que no

están correlacionados, pues su valor es muy cercano a cero, se nota que en la matriz de

dispersión, estos valores si parecieran tener una relación, por lo cual, se hace un analisis

bivariante (Fig. 4.1.3), para notar esta tendencia y si existen datos atipicos. Aquí se nota que el

valor que se encuentra al borde, es el Grupo de edad de 20 -24 años.

Fig. 4.1.3 Diagrama bivariante de las variables asociadas a la diabetes en hombres mexicanos

Aplicando el chi plot (Fig. 4.1.4) a este mismo par de datos, para ver si los valores son

independientes, se observa lo descrito en la Figura siguiente, en la que del lado izquierdo de ve el

diagrama de dispersión de la letalidad contra la mortalidad, y del lado derecho se observa que los

valores se posicionan en la parte superior derecha, fuera de las barras horizontales, y con lo cual

podemos decir que este par de variables tiene una relación altamente positiva.


33

Fig. 4.1.4 Chi plot de las variables asociadas a la diabetes en hombres mexicanos

4.1.2. Variables asociadas a la diabetes en mujeres mexicanas

En la recopilación de los datos acerca de los porcentajes que se tiene en las mujeres con respecto

a las variables que forman parte del problema de diabetes, se puede notar cambios con respecto al

de los hombres (ver Apéndice A, Tabla A2), por ello el análisis es por separado.

Al obtener la media de cada variable, se observa que los valores más altos están arriba del 30%

(sobrepeso, obesidad y actividad física), y hay valores muy pequeños, y más adelante veremos

que repercusión tienen.

Tabla 4.2. 1 Media de las variables asociadas a la diabetes en mujeres mexicanas

Incidencia diabetes 1.0972036

Sobrepeso 35.115385

Obesidad 37.819231

Morbilidad 3.11

Medidas

preventivas 16.959231

Letalidad 11.438462

Mortalidad 0.1849231

Actividad Física 31.6

La matriz de varianza covarianza (Tabla 4.2.2) se puede notar, al igual que en la media, valores

con mucha diferencia entre los dígitos.

CAPÍTULO 4

34

Tabla 4.2.2 Matriz de varianza covarianza en las variables asociadas a la diabetes en mujeres mexicanas

Diabetes Obesidad Sobrepeso Morbilidad Medidas Preventivas

Letalidad Mortalidad Actividad Física

Diabetes 0.5045180

Obesidad 2.3006966 85.94939

Sobrepeso 0.0983251 24.359887 8.6901602

Morbilidad 0.1587063 -0.351529 -0.2861333 0.06771

Medidas Preventivas

0.6317029 5.038599 0.0573461 0.1453366 2.3548743

Letalidad 3.4272262 -16.683967 -9.3855993 1.6275016 2.1137153 42.83711

Mortalidad 0.0907638 -1.021799 -0.4282310 0.0524918 0.0318845 1.43417 0.0510434

Actividad Física

-3.0668662 63.361041 21.9035416 -2.3534 1.80912 -68.037 -2.5502235 137.78708

En la matriz de correlación(Tabla 4.2. 3) se puede observar que existe una alta correlación

positiva en la letalidad contra la morbilidad y la mortalidad, además de una correlación altamente

negativa con respecto a la Mortalidad con la Actividad Física.

Tabla 4.2. 3 Matriz de correlación en las variables asociadas a la diabetes en mujeres mexicanas

Diabetes Obesidad Sobrepeso Morbilidad Medidas Preventivas

Letalidad Mortalidad Actividad Física

Diabetes 1

Obesidad 0.3493812 1

Sobrepeso 0.0469583 0.89133 1

Morbilidad 0.8586574 -0.145714 -0.3730083 1

Medidas Preventivas

0.5795496 0.354164 0.0126767 0.363961 1

Letalidad 0.7372152 -0.274958 -0.4864497 0.955598 0.2104517 1

Mortalidad 0.5655939 -0.487836 -0.6429754 0.892865 0.0919659 0.96989 1

Actividad Física

-0.367834 0.582232 0.6329890 -0.770485 0.1004339 -0.885586 -0.9616215 1

En la Fig. 4.2.1 se muestra la relación que tienen todas las variables, y es aquí donde se observa

que las variables de obesidad y medidas preventivas son las que mayor problema de dispersión

tienen. Mientras que las variables de mortalidad, morbilidad y letalidad, muestran una gran

relación entre ellas, lo que se corrobora con los datos de la Matriz de correlación.


35

Fig. 4.2.1 Matriz de dispersión en las variables asociadas a la diabetes en mujeres mexicanas

Al aplicar un diagrama de caja (Fig. 4.2.2) a cada variable, se puede observar que las variables

con datos atípicos son la que corresponde al Sobrepeso y la Actividad Física, ya que son los

únicos diagramas que tienen puntos fuera del rango permitido, al igual que se observa una gran

diferencia en los datos, pues las variables de diabetes, morbilidad y mortalidad, son valores muy

pequeños.

Fig. 4.2.2 Diagrama de caja para las variables asociadas a la diabetes en mujeres mexicanas

Debido a la alta correlación de las variables de Letalidad y Mortalidad, se decide hacer un

análisis de caja bivariante, para observar el comportamiento de las mismas, con lo que se obtiene.

En la Fig. 4.2.3, si bien, los valores están dentro del rango, existe un dato al borde de la segunda

elipse, y hay otros valores cercanos a la línea, lo que muestra que los datos de rango con mayor y

menor edad, son los que generan mayores problemas,

CAPÍTULO 4

36

Fig. 4.2.3 Caja bivariante para las variables asociadas a la diabetes en mujeres mexicanas

Para comprobar si los valores son independientes, se recurre a la prueba de chiplot (Fig. 4.2.4), en

ella se observa del lado izquierdo el gráfico de dispersión de las variables de comparación

(Mortalidad ~ Letalidad), y del lado derecho la aplicación del chiplot, en la cual se observa que

los datos tienen una relación altamente positiva, lo cual reafirma lo obtenido en los datos de la

matriz de correlación.

Fig. 4.2.4 Chi plot de las variables asociadas a la diabetes en mujeres mexicanas

4.1.3. Variables asociadas a la situación de los mexicanos por entidad federativa

Como se vio en el Capítulo 1, el problema de la mortalidad por diabetes se presenta en mayor

medida en países con ingresos medios y bajos. También se hizo hincapié en que es un problema

que debe considerarse a los servicios de salud como parte fundamental para atacar el problema ,

por ello parte importante del análisis de esta situación se hace al tener las variables por entidad

federativa de la mortalidad, los ingresos inferiores al bienestar mínimo, los ingresos inferiores al


37

bienestar, la carencia de servicios de salud, los asegurados y los no asegurados. Además de estas

variables, se considero que un complemento a esta información, podría ser las carencias

alimentarias y el rezago educativo (ver Apéndice A, Tabla A3)

Con estos datos de la Tabla A3 se obtiene la media de cada una de las variables (Tabla 4.3.1). En

ella muestra las variables de a (asegurados), na (no asegurados), re (rezago educativo), css

(carencia de servicio de salud), ca (carencia alimentaria), iibm (ingresos inferiores al bienestar

mínimo), iib (ingresos inferiores al bienestar) y Morta (mortalidad).

Tabla 4.3.1 Media de las variables asociadas a la situación de los mexicanos por entidad federativa

Media

a 1.990625

na 9.290625

re 19.19375

css 19.409375

ca 24.13125

iibm 20.178125

iib 51.140625

Morta 11.4375

Ahora, se tiene la matriz de varianza covarianza (Tabla 4.3.2) de estos mismos datos.

Tabla 4.3.2 Matriz de varianza covarianza de las variables asociadas a la situación de los mexicanos por entidad federativa

a na re css ca iibm iib Morta

a 2.3634577

na 0.1050706 26.1957157

re -3.6097379 -4.1465121 26.836089

css 0.425252 0.9900907 10.035222 22.4176512

ca -3.0451815 -8.2377621 19.940524 10.4926008 34.6989919

iibm -6.0744052 -14.065373 40.642117 20.1644052 35.2132863 91.828861

iib -6.2628327 -16.0731552 44.79123 25.9315423 39.014496 98.576401 121.0199093

Morta 0.9668145 -0.7547984 -2.635242 5.0125403 0.6810484 -3.354637 0.05552419 5.31467742

Y para observar la relación que tienen las variables, se tiene la matriz de correlación (Tabla

4.3.3), en la cuales podemos notar que iibm e iib, están altamente correlacionadas, y también se

CAPÍTULO 4

38

puede notar que varias variables están muy cercanas a cero, que indica la poca o nula correlación

que tienen.

Tabla 4.3.3 Matriz de correlación de las variables asociadas a la situación de los mexicanos por entidad federativa

a na re css ca iibm Iib Morta

a 1

na 0.0133534 1

re -0.45325452 -0.15638972 1

css 0.05842213 0.04085684 0.4091403 1

ca -0.33626436 -0.27323459 0.6534593 0.37620942 1

iibm -0.41232555 -0.28677845 0.8187044 0.44442734 0.6238189 1

iib -0.37031259 -0.28546811 0.7859682 0.4978573 0.60205915 0.9350933 1

Morta 0.27279148 -0.06397015 -0.2206594 0.45922378 0.05015117 -0.1518509 0.002189351 1

Para ver como se relacionan las variables, se aplica la matriz de dispersión Fig. 4.3.1 en él se

pude notar que en la variable de asegurados parecen tener un valor atípico al compararse con

cada una de las variables. En las variables iibm e iib, se puede notar que existe una correlación

altamente positiva, lo que tiene sentido con lo encontrado en Tabla 4.3.3, pues se tiene que tienen

una correlación altamente positiva, con un valor de 0.93.

Fig. 4.3.1 Matriz de dispersión de las variables asociadas a la situación de los mexicanos por entidad federativa


39

Al aplicar el diagrama de caja a cada variable (Fig. 4.3.2), podemos notar que las variables de a,

na, re, iibm y Morta, son las que contienen valores atípicos.

Fig. 4.3.2 Diagrama de caja aplicado a las variables asociadas a la situación de los mexicanos por entidad federativa

Cuando los datos se analizan mediante un gráfico estalactita (Fig. 4.3.3), se puede apreciar que

Yucatán y Guerrero son los estados que se deben considerar al presentar el mayor número de

asteriscos, pero también se puede apreciar un comportamiento extraño en los primeros estados,

pues se encuentran libres de asteriscos.

Fig. 4.3.3 Diagrama estalactita para las variables asociadas a la situación de los mexicanos por entidad federativa.

CAPÍTULO 4

40

4.2. Componentes principales

Para llevar a cabo este análisis, se uso el entorno R Studio, para realizar este análisis, con base en

(Zelterman, 2015) y (Jollife, 2002).

4.2.1. Datos sobre causas de diabetes en los hombres mexicanos

Al aplicar el método de las componentes principales se refleja que casi en su totalidad, la

variabilidad se debe a las primeras tres componentes (ver Fig. 4.1.5).

Fig. 4.1.5 Gráfico de variación de las componentes principales de las variables asociadas a la diabetes en hombres

mexicanos

Como se menciono con anterioridad, la variabilidad de los datos se encuentra expresado en las

primeras tres componentes según lo observado en el gráfico, pero numéricamente se puede

apreciar en la Tabla 4.14 donde se puede observar que la proporción de las tres primeras

componentes, es del 97% del total de la variabilidad, por lo que será suficiente con tomar sólo

estás componentes.

Tabla 4.14 Variación de las componentes principales de las variables asociadas a la diabetes en hombres mexicanos

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8

Desviación

estándar 11.89815 8.11592 5.08818 2.09596 1.42846 0.09254 0.01776 0.00027

Proporción

de la

varianza

0.59043 0.27472 0.10798 0.01832 0.00851 0.00004 0.00000 0.00000

Proporción

acumulada 0.59043 0.86515 0.97313 0.99145 0.99996 1.00000 1.00000 1.00000

Podemos ver mediante la Tabla 4.1.5 que describe la carga de los eigenvectores estimados, se

observa una correspondencia negativa entre la primera componente a la actividad física, además

4.2 Componentes principales

41

entre la segunda componente la obesidad es la que más proporción tiene y en la tercera

componente el sobrepeso es el que más la define.

Tabla 4.1.5 Carga de los eigen-vectores estimados de las variables asociadas a la diabetes en hombres mexicanos


Incidencia de diabetes

0.100

0.960 0.254

Sobrepeso

-0.243 0.778 0.254 0.515

Obesidad -0.266 -0.760 0.143

-0.576

Morbilidad

0.247 -0.916 0.313

Medidas preventivas

0.114 0.360 -0.922

Letalidad 0.348 0.444 0.470 0.236 -0.629

Mortalidad

-0.309 -0.949

Actividad Física -0.896 0.390 0.112 0.165

Otro método gráfico útil para ayudar a interpretar los dos primeros componentes principales se

denomina biplot. En la Fig. 4.1.6 se representan las cargas estimadas de los dos primeros

componentes principales utilizando flechas para indicar su dirección, en la cual se puede notar lo

descrito por la Tabla 4.1.5, en la que la mayor parte de las variables de la primer componente es

la Actividad Física, pero en sentido negativo, al ser la variable que se desplaza al lado izquierdo

del origen. Mientras que la obesidad es la que más se separa del origen, pero desplazándose hacia

abajo. Además las variables que parecen no tener ninguna relación con las primeras dos

componentes, es la diabetes, la mortalidad, y la morbilidad, que son los datos que se observan de

porcentaje más pequeño en la matriz de datos.

Fig. 4.1.6 Gráfico del comportamiento de las cargas con dirección para las variables asociadas a la diabetes en hombres

mexicanos

CAPÍTULO 4

42

4.2.2. Datos sobre causas de diabetes en los mujeres mexicanas

Si nuestro análisis para seleccionar las componentes principales que aportan información de

nuestro análisis sería conveniente elegir las primeras dos componentes, que reflejan casi en su

totalidad la variabilidad que hay en nuestros datos como se puede observar en la Fig. 4.2.5Fig.

4.2.1 Matriz de dispersión en que se muestra en seguida.

Por el método de Kaiser, las componentes que se deberían considerar, serian solo las dos

primeras, ya que son las que son mayores al promedio = 0.125 , como podemos observar en

la Tabla 4.2.4 en el apartado de proporción de la varianza, las cuales tienen una proporción de

variabilidad del 97%, y por ello las demás componentes son poco significativas para este análisis.

Tabla 4.2.4 Variación de las componentes principales en las variables asociadas a la diabetes en mujeres mexicanas


desviación estándar 14.007854 7.3303634 2.33912706 1.021245105 0.596216443 0.119896 0.01277406 0.0019446

Proporción de la

varianza

0.7639814 0.2092139 0.02130332 0.004060987 0.001384036 0.000055969 0.00000063 0.00000001

Proporción

acumulada

0.7639814 0.9731953 0.99449866 0.998559344 0.999943381 0.9999993 1.000000 1.000000

Ahora, en la Tabla 4.2.5 se refleja que peso tienen cada una de nuestras variables en las ocho

componentes formadas, y al tener nuestro interés en sólo las dos primeras, se puede apreciar que

Fig. 4.2.5 Gráfico de variación de las componentes principales en las variables asociadas a la diabetes en

mujeres mexicanas


43

la mayor variabilidad en la primera componente es la actividad física, mientras que en la segunda

predomina la obesidad, con un valor de -0.813.

Tabla 4.2.5 Carga de los eigen-vectores estimados en las variables asociadas a la diabetes en mujeres mexicanas


Diabetes

-0.129

0.202 0.900 0.343

Obesidad 0.472 -0.813 0.111 -0.116 -0.299

Sobrepeso 0.158 -0.176 0.468 0.170 0.822 -0.143

Morbilidad

0.339 -0.928 0.126

Medidas

preventivas -0.439 -0.804 0.379 -0.101

Letalidad -0.370 -0.441 -0.603 0.480 0.186 -0.199

Mortalidad

0.144 0.989

Actividad

Física 0.784 0.316 -0.440 0.278 0.100

En la Fig. 4.2.6 se aprecia que la cinco de las ocho variables totales, no tienen mucha relación

con respecto a las dos primeras componentes, las cuales demuestran que la mayor variabilidad de

los datos se representa por la actividad física, la obesidad y la letalidad. Por la inclinación de las

tres variables en su dirección, se refiere a que se representan en ambas componentes, aunque en

diferente medida. Al comparar con los datos obtenidos en la Tabla 4.2.3, se corrobora que en

efecto, estas son las únicas que intervienen en la variabilidad, y sólo el sobrepeso está presente,

pero muy sutilmente.

Fig. 4.2.6 Gráfico del comportamiento de las cargas con dirección para las variables asociadas a la diabetes en mujeres

mexicanas

CAPÍTULO 4

44

4.2.3. Datos sobre situación de los Mexicanos por estados

Para analizar los datos de la matriz de datos del Apéndice A, Tabla A3 que se representa en la

Fig. 4.3.4, se aplicar teoría descrita en el Capítulo 3, con ello se obtienen 8 componentes, en la

cual, se nota que la primer componente es la predominante en la variabilidad.

Fig. 4.3.4 Gráfico de variación de las componentes principales en las variables asociadas a la situación de los mexicanos

por entidad federativa

En la Tabla 4.3.4 se aprecian la varianza que existe en cada componente, en la cual, mediante la

prueba de Kaiser, notamos que sólo es significativa la primer componente, debido a que las otras,

están por debajo del promedio (0.125)

Tabla 4.3.4 Variación de las componentes principales de las variables asociadas a la situación de los mexicanos por entidad

federativa


desviación estándar 15.5108095 5.08354399 4.52020663 4.16170625 2.71132037 2.33623659 1.37177530 1.212857838

Proporción de la

varianza

0.7510267 0.08067141 0.06378272 0.05406663 0.02294817 0.0703806 0.00587425 0.004592046

Proporción

acumulada

0.7510267 0.83169812 0.89548084 0.94954747 0.97249565 0.98953370 0.99540795 1.000000

Para ver el peso que tienen las variables en cada componente se tiene la Tabla 4.3. 5, en el que se

puede apreciar que las variables que más peso tienen en la primer componente son los ingresos

inferiores al bienestar y al bienestar mínimo con un valor de 0.683 y 0.592 respectivamente, y las

demás variables no influyen, o influyen muy poco.


45

Tabla 4.3. 5 Carga de los eigen-vectores estimados de las variables asociadas a la situación de los mexicanos por entidad

federativa


Asegurados

0.156

0.314 0.934

No asegurados -0.101 -0.877

-0.381 0.244

Rezago educativo 0.280

0.107 -0.346 -0.559 -0.643 -0.187 0.151

Carencia de Servicios de

Salud 0.155 -0.438 0.385 0.618 -0.393

0.229 -0.201

Carencia Alimentaria 0.261 0.157 0.828 -0.331 0.294 0.129

Ingresos Inferiores al

Bienestar Mínimo 0.592

-0.223 -0.159 -0.295 0.651 -0.234

Ingresos Inferiores al

Bienestar 0.683

-0.258 0.222 0.499 -0.354 0.193

Mortalidad

0.190 0.380 0.226

-0.843 0.225

Para poder apreciarse de manera visual, la Fig. 4.3. 5 las variables de iibm e iib son las variables

que representan en mayor medida a la primera componente, y especialmente al ver los datos en

las variables de iibm e iib, en los objetos de Gro, y Chis., se puede observar que los valores son

los más altos, por lo que estos son parte importante de la variabilidad en la primer componente.

Fig. 4.3. 5 Gráfico de las cargas con dirección de las variables asociadas a la situación de los mexicanos por entidad

federativa

CAPÍTULO 4

46

4.3. Análisis de factores

El análisis de factores se realizo con ayuda del Software SPSS, y con base en lo descrito en el

tema 3.1.1, se realizo el análisis en tres casos que se describen a continuación (ver (De la Fuente

Fernández, 2011)).

4.3.1. Datos de las variables asociadas a la diabetes en hombres mexicanos

Con el fin de poder observar la varianza total que existe entre los datos acerca de las causas por

las cuales los hombres son propensos a tener diabetes. Lo que se busca es reducir la dimensión de

los datos, perdiendo la menor cantidad posible de información y generar grupos entre las

variables analizadas, los cuales tienen similitudes en su comportamiento.

Ya teniendo claro el problema, se prosigue a hacer el análisis de la matriz de correlación descrita

en el apartado de análisis preliminar Tabla 4.1.3.en la que se puede observar que existe una alta

correlación entre las variables diabetes, morbilidad, mortalidad y letalidad. También existen

variables que tienen una correlación ligera como lo son la diabetes con la letalidad y sobrepeso

además de la morbilidad y letalidad con la obesidad.

Un análisis complementario para la correlación consta de dos pruebas conocidas como prueba de

KMO y prueba de Bartlett, y los resultados se expresan en la Tabla 4.1.6 en la que podemos notar

que el valor para el KMO > 0.5, lo cual nos indica que es aceptable, aunque se tendrá que

analizar otros aspectos ya que nuestra base de datos no es de gran tamaño. En el caso de la prueba

de Bartlett, podemos notar que el valor resultante es muy grande, lo que nos indica quese puede

proseguir con el análisis.

Tabla 4.1.6 Prueba de KMO y Bartlett para las variables asociadas a la diabetes en hombres mexicanos

Medida Kaiser-Meyer-Olkin de adecuación de muestreo .421

Prueba de esfericidad de Bartlett Aprox. Chi-cuadrado 209.450

Gl 28

Sig. .000

Por consiguiente, lo que se tiene que hacer es la extracción de factores (Tabla 4.1.7), y al aplicar

el análisis resulta la siguiente tabla, que describe las componentes formadas y su peso en el

análisis..

4.3 Análisis de factores

47

Tabla 4.1.7 Extracción de factores a las variables asociadas a la diabetes en hombres mexicanos

Factores Autovalores iniciales

Total % de varianza % acumulado

1 4.713 58.912 58.912

2 2.330 29.131 88.043

3 .772 9.651 97.694

4 .125 1.567 99.261

5 .052 .650 99.912

6 .006 .073 99.985

7 .001 .014 99.999

8 5.399E-5 .001 100.000

Luego se hace la determinación del número de factores adecuado, En este caso en particular, se

toman en cuenta las primeras tres componentes descritas en la Tabla 4.1.7, que tienen un 97% de

la varianza de los datos.

Para determinar si el número seleccionado es el adecuado, se tiene que analiza las comunalidades

(Tabla 4.1 8), las cuales deben estar cercanas a 1, para que el número de factores sea adecuado.

Tabla 4.1 8 Comunalidades de las variables asociadas a la diabetes en hombres mexicanos

Inicial Extracción

Incidencia de diabetes 1.000 .967

Sobrepeso 1.000 .972

Obesidad 1.000 .977

Morbilidad 1.000 .981

Medidas preventivas 1.000 .978

Letalidad 1.000 .991

Mortalidad 1.000 .995

Actividad Física 1.000 .955

Para que se mejore la visualización de los factores, se prosigue a aplicar la rotación de factores

mediante el método Varimax, y para estas tres primeras componentes se tiene lo descrito en la

Tabla 4.1.9.

CAPÍTULO 4

48

Tabla 4.1.9 Suma de rotación de cargas al cuadrado en las variables asociadas a la diabetes en hombres mexicanos


4.075 50.933 50.933

2.354 29.429 80.363

1.387 17.332 97.694

Ahora, se tienen las cargas en cada componente, y como se puede visualizar en los datos de la

Tabla 4.1.10, los datos se destacan en las tres variables, pero sólo en una o dos componentes es

alto.

Tabla 4.1.10 Matriz de componentes aplicando factores a las variables asociadas a la diabetes en hombres mexicanos

1 2 3

Incidencia de diabetes .842 .503 -.044

Sobrepeso .154 .785 -.580

Obesidad -.761 .480 -.382

Morbilidad .983 .138 .009

Medidas preventivas .341 .705 .408

Letalidad .976 -.167 -.101

Mortalidad .964 -.251 .019

Actividad Física -.311 .482 .747

Ahora, se tiene la carga que tienen aplicando la rotación Varimax a las componentes (Tabla

4.1.11)

Tabla 4.1.11 Matriz de componentes rotados de las variables asociadas a la diabetes en hombres mexicanos

1 2 3

Incidencia de diabetes .629 .753 .059

Sobrepeso -.652 .600 .433

Obesidad -.462 .848 .213


Medidas preventivas .198 .691 -.679

Letalidad .973 .159 .136


49

Mortalidad .990 -.069 .094

Actividad Física -.922 .249 -.209

En la Fig. 4.1.14, se visualiza el peso de las variables, con respecto a las primeras tres

componentes (factores).

Fig. 4.1.7 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes en hombres mexicanos

4.3.2. Factores para las variables asociadas a la diabetes en mujeres mexicanas

Para iniciar consultamos la matriz de correlación que se describe en el análisis preliminar, en el

cual se ve una alta correlación negativa entre la actividad física, contra la letalidad y la

mortalidad por diabetes (ver Tabla 4.2. 3), pero una alta correlación positiva de la morbilidad

con la letalidad, mortalidad y la incidencia de diabetes

Para disminuir la dimensión de estas variables, se usa la extracción de factores, que al realizar

dicho análisis se obtiene la Tabla 4.2.6.

Tabla 4.2.6 Extracción de factores de las variables asociadas a la diabetes en mujeres mexicanas



1 4.713 58.912 58.912

2 2.330 29.131 88.043

CAPÍTULO 4

50

3 .772 9.651 97.694

4 .125 1.567 99.261

5 .052 .650 99.912

6 .006 .073 99.985

7 .001 .014 99.999

8 5.399E-5 .001 100.000

Se decide por representar los datos con 3 factores, los cuales representan el 97% de la varianza

total de los datos como se muestra en la Tabla 4.2.6. Para decidir si es el número adecuado de

factores, se tiene que ver que comunalidades sean altas. Como se muestra en la Tabla 4.2.7, las

comunalidades son bastante altas, por lo que el análisis de tres factores es adecuado.

Tabla 4.2.7 Comunalidades de las variables asociadas a la diabetes en mujeres mexicanas

Inicial Extracción

Diabetes 1.000 .967

Sobrepeso 1.000 .972

Obesidad 1.000 .977

Morbilidad 1.000 .981

MP 1.000 .978

Letalidad 1.000 .991


AF 1.000 .955

Para facilitar la interpretación de los datos, se prosigue a un rotar las componentes con el método

Varimax, y con ello se obtiene la Tabla 4.2.8, en la que se ve que con la tercer componente, el

porcentaje de varianza es de 97.6%.

Tabla 4.2.8 Sumas de rotación de cargas al cuadrado de las variables asociadas a la diabetes en mujeres mexicanas

Sumas de rotación de cargas al cuadrado


4.075 50.933 50.933

2.354 29.429 80.363


51

1.387 17.332 97.694

Para continuar este análisis se tiene la matriz de componentes Tabla 4.2.9, en la que se nota que

en la mayoría de las variables, las componentes predominan en dos de tres componentes.

Tabla 4.2.9 Matriz de componentes de las variables asociadas a la diabetes en mujeres mexicanas

1 2 3


Sobrepeso -.652 .600 .433

Obesidad -.462 .848 .213


Medidas preventivas .198 .691 -.679

Letalidad .973 .159 .136

Mortalidad .990 -.069 .094

Actividad Física -.922 .249 -.209

Pero también se tiene la matriz de componentes rotados, Tabla 4.2.10, al querer simplificar el

análisis, se nota a diferencia de la Tabla 4.2.9, que ahora los factores, sólo son altos en una de tres

componentes.

Tabla 4.2.10 Matriz de componentes rotados de las variables asociadas a la diabetes en mujeres mexicanas

1 2 3


Sobrepeso -.276 .944 -.068

Obesidad -.114 .942 .278

Morbilidad .948 -.100 .267

Medidas preventivas .130 .100 .975

Letalidad .965 -.218 .109

Mortalidad .905 -.419 .009

Actividad Física -.834 .469 .198

Por último se tiene la Fig. 4.2.5, donde se visualiza la ubicación de los factores (componentes)

rotados, según el peso que tienen en cada componente

CAPÍTULO 4

52

Fig. 4.2.7 Gráfico de componentes en espacio rotado de las variables asociadas a la diabetes en mujeres mexicanas

4.3.3. Datos de situación de los mexicanos por estados

Matriz de correlación (Tabla 4.3.3) se tiene una alta correlación de los ingresos inferiores con el

rezago educativo y los ingresos inferiores al bienestar mínimo. Además se tiene las pruebas de la

Tabla 4.3.6, en la cual se puede observar que al tener en la prueba de Bartlett un valor alto en la

aproximación de chi-cuadrada y que la significancia es pequeña, entonces el análisis es adecuado

para el análisis de factores.

Tabla 4.3.6 Prueba de KMO y Bartlett para análisis por estados en México

Medida Kaiser-Meyer-Olkin de adecuación de muestreo .710

Prueba de esfericidad de Bartlett

Aprox. Chi-cuadrado 151.1

74Gl 28

Sig. .000

Primero se realiza la Extracción de factores (Tabla 4.3. 7)

Tabla 4.3. 7 Extracción de factores para análisis por estados en México.



1 3.794 47.424 47.424


53

2 1.590 19.874 67.298

3 1.027 12.837 80.135

4 .649 8.117 88.252

5 .462 5.772 94.024

6 .251 3.135 97.159

7 .178 2.222 99.382

8 .049 .618 100.000

Determinación de factores, se opta escoger cinco factores que explican el 94%. Ya seleccionando

los factores, se obtiene el valor en las comunalidades (Tabla 4.3.8), y ya que se obtienen valores

altos, se prosigue con el análisis.

Tabla 4.3.8 Comunalidades del análisis por estados de México

Inicial Extracción

asegurados 1.000 .986

No asegurados 1.000 .973

Rezago educativo 1.000 .871

Servicio salud 1.000 .880

Alimentación 1.000 .988

Ingresos inf 1.000 .945

Ingresos inf min 1.000 .929


Luego, al aplicar rotación de factores, se tiene la tabla siguiente

Tabla 4.3.9 Suma de rotación de cargas al cuadrado de "análisis por estados"


3.794 47.424 47.424

1.590 19.874 67.298

1.027 12.837 80.135

.649 8.117 88.252

.462 5.772 94.024

CAPÍTULO 4

54

Al analizar la matriz de componentes Tabla 4.3. 10, se tiene que

Tabla 4.3. 10 Matriz de componentes de "análisis por estados"

1 2 3 4 5

Asegurados -.498 .538 -.193 .609 .201

No Asegurados -.311 -.039 .929 .034 .099

Rezago Educativo .900 -.145 .132 .132 .070

Servicio Salud .527 .701 .311 .096 -.065

Alimentación .781 .080 -.092 -.203 .567

Ingresos Inf .941 -.060 -.011 .176 -.154

Ingresos Inf Min .928 .070 -.013 .122 -.217

Mortalidad -.061 .878 -.058 -.405 -.100

Al analizar los componentes rotados Tabla 4.3. 11, con respecto a Tabla 4.3. 10, podemos decir

que a partir de la segunda componente, sólo una variable predomina.

Tabla 4.3. 11 Matriz de componentes rotados de "análisis por estados"

1 2 3 4 5

Asegurados -.249 .143 -.028 .941 -.129

No Asegurados -.149 -.022 .969 -.026 -.099

Rezago Educativo .817 -.139 .011 -.196 .381

Servicio Salud .601 .641 .224 .194 .144

Alimentación .424 .097 -.139 -.147 .870

Ingresos Inf .918 -.051 -.165 -.176 .201

Ingresos Inf Min .912 .098 -.177 -.174 .158

Mortalidad -.131 .959 -.090 .082 .018

En la Fig. 4.3.6 se observa el peso con el que se relacionan las variables con las tres primeras

componentes de factores rotados.

4.4 Conglomerados

55

Fig. 4.3.6 Gráfico de componentes en espacios rotados de “análisis por estado”

4.4. Conglomerados

El análisis de conglomerados se realizo con ayuda del Software R Studio, con el paquete

FactorMineR y también para poder obtener el mapa de la república, se obtuvo con ayuda del

formato Shapefiel que se puede obtener en "www.gadm.org/country".

4.4.1. Datos de la situación de loa mexicanos por estados

La situación de los mexicanos en cuestión económica y en salud, es bueno aplicar un análisis por

conglomerados, ya que al tener como objetos de la matriz de datos a los 32 estados, se podrá

analizar si existen grupos que puedan tener similitud entre estados. Para ello se llevara a cabo los

dos métodos descritos en el tema 3.3.1 y 3.3.2.

4.4.1.1. Análisis por k medias

Al realizar el análisis de conglomerados mediante k medias, se le aplican tres factores, y los

cuales quedaron formados como se muestra en la tabla siguiente.

Grupo 1 Camp, Dgo, Gto,Hgo,EdoMex, Mich, Mor, Nay, SLP, Tab, Tlax, Ver, Yuc, Zac

Grupo 2 Chis,Gro, Oax, Pue,

Grupo 3 Ags, BC, BCS, Chih, Coah, Col, DF, Jal, NL, Qro, QRoo, Sin, Son, Tamps,

Que al visualizar en el mapa de la republica mexicana los grupos formados serían.

CAPÍTULO 4

56

1 Grupo 1

2 Grupo 2

3 Grupo 3

Fig. 4.3. 7 Mapa de los grupos formados por las variables asociadas a la situación de los mexicanos por entidad federativa

por k medias

El comportamiento de estos grupos se puede expresar en la matriz de dispersión siguiente que se

pueden identificar de acuerdo al color.

Fig. 4.3.8 Método de k medias aplicado a la situación por estados

4.4.1.2. Por jerarquías

Para el análisis mediante jerarquías se tiene en primer lugar un gráfico jerárquico de los grupos

que se forman, divididos entre líneas. Al observar la Fig. se observa que se generan tres grupos,

4.4 Conglomerados

57

pero lo más significativo de este comportamiento es la diferencia en el número de estados que

presenta cada grupo.

Fig. 4.3.9 Dendograma generado por método de jerarquías a situación por estados

Para observar de manera bidimensional los datos, se considera el mapa factorial, el cual deja de

tomar en cuenta la altura, y deja apreciar de mejor medida la cercanía que tienen los grupos

formados.

Fig. 4.3. 10 Mapa Factorial de la agrupación por jerarquías a datos de situación por estados

Por último sólo se agrupan mediante colores, los estados para poder visualizar la formación de

estos grupos.

Grupo 1 BCN, CDMX, Jal, EdoMex, Mor

Grupo 2 Ags, BCS, Camp, Chih, Coah, Col, Dgo, Gto, Hgo, Nay, NL, Qro, Q. Roo, SLP, Sin, Son,

Tamps, Yuc, Zac.

CAPÍTULO 4

58

Grupo 3 Chis, Gro, Mich, Oax, Pue, Tab, Tlax, Ver.

Que al visualizar en el mapa de la republica mexicana los grupos formados serían.

1 Grupo 1

2 Grupo 2

3 Grupo 3

Fig. 4.3. 11 Mapa de los grupos formados por las variables asociadas a la situación de los mexicanos por entidad federativa

por jerarquia

4.5. Regresión múltiple

La regresión múltiple se busca expresan las variables como un modelo lineal de la incidencia de

diabetes, en combinación lineal con las variables restantes. Para la realización de este análisis se

uso R Studio (ver (King, 2016)).

4.5.1. Causas que pueden repercutir en padecer diabetes en hombres

Para este análisis se tendrá como variable dependiente a la incidencia de diabetes, y como primer

análisis se tendrá una primera interpretación, tomando en cuenta todas las variables.

퐼푛푐푖푑푒푛푐푖푎 푑푒 푑푖푎푏푒푡푒푠 ~ 퐸푑푎푑 + 푆표푏푟푒푝푒푠표 + 푂푏푒푠푖푑푎푑 + 푀표푟푏푖푙푖푑푎푑 + 푀푒푑푖푑푎푠 푃푟푒푣푒푛푡푖푣푎푠

+ 퐿푒푡푎푙푖푑푎푑 + 푀표푟푡푎푙푖푑푎푑 + 퐴푐푡푖푣푖푑푎푑 퐹í푠푖푐푎

En este análisis todas las variables son significativas.

Tabla 4.1. 12 Estimador por regresión múltiple a las variables asociadas a la diabetes en hombres mexicanos

Estimación Error estándar t valor Pr(>|t|)

INTERCEPTO 7.246081 0.772219 9.383 0.000232 ***

4.5 Regresión múltiple

59

Obesidad -0.018134 0.002523 -7.186 0.000812 ***

Sobrepeso -0.207271 0.020102 -10.311 0.000148 ***

Morbilidad 11.27151 0.717184 15.716 1.90E-05 ***

MP -0.075614 0.006502 -11.629 8.26E-05 ***

Letalidad 0.756739 0.061206 12.364 6.13E-05 ***

Mortalidad -33.903865 2.71072 -12.507 5.80E-05 ***

AF 0.004713 0.001077 4.378 0.00717 **

Por lo que la ecuación de este modelo sería

퐷푖푎푏푒푡푒푠 = 7.246081 − 0.018134x − 0.207271x + 11.27151x − 0.075614x

+ 0.756739x − 33.903865x + 0.004713x

En el análisis se obtiene un ajuste de 푅 , de 0.9994, lo cual es un buen ajuste, y considerando que

tanto el error residual estándar (0.0157) como el p – valor (1.255e-08), son muy pequeños, pues

podemos considerar aceptable el modelo.

4.5.2. Datos de causas de diabetes en mujeres mexicanas

En el análisis inicial se toma como variable dependiente la incidencia de diabetes, y como primer

análisis se tendrá una primera interpretación, tomando en cuenta todas las variables.

퐼푛푐푖푑푒푛푐푖푎 푑푒 푑푖푎푏푒푡푒푠 ~ 퐸푑푎푑 + 푆표푏푟푒푝푒푠표 + 푂푏푒푠푖푑푎푑 +푀표푟푏푖푙푖푑푎푑

+푀푒푑푖푑푎푠 푃푟푒푣푒푛푡푖푣푎푠 + 퐿푒푡푎푙푖푑푎푑 +푀표푟푡푎푙푖푑푎푑 + 퐴푐푡푖푣푖푑푎푑 퐹í푠푖푐푎

Tabla 4.2. 11 Estimador por regresión múltiple de las variables asociadas a la diabetes en mujeres mexicanas

Estimador Error estándar Valor t Pr(>|t|)

Intercepto -6.406016 1.593608 -4.02 0.010123 *

Obesidad 0.025662 0.00659 3.894 0.01148 *

Sobrepeso 0.074717 0.03018 2.476 0.056134 .

Morbilidad 1.949603 0.270532 7.207 0.000802 ***

Medidas Preventivas -0.003588 0.012676 -0.283 0.788459

Letalidad -0.103374 0.053659 -1.926 0.111992

Mortalidad 8.51846 2.869749 2.968 0.031216 *

Actividad Física 0.09403 0.02027 4.639 0.005639 **

CAPÍTULO 4

60

En este modelo se tiene un valor de ajuste de 푅2 de 0.9977, y como el error residual estándar

(0.03381) y el p – valor (2.968e-07) son pequeños, pues el modelo es aceptable

Buscando un mejor ajuste, es de considerar que existe dos variables que no son significativas, y

el valor de estimación de ambas, son muy pequeños, con esto en mente, se tiene el siguiente

modelo, en el cual, las medidas preventivas se descarta del modelo y con ello todas las variables

son significativas.

Tabla 4.2. 12 Estimador por regresión múltiple de algunas de las variables asociadas a la diabetes en mujeres mexicanas

Estimador Error estándar Valor T Pr(>|t|)

Intercepto -6.522267 1.416846 -4.603 0.003679 **

Obesidad 0.024423 0.004533 5.388 0.001683 **

Sobrepeso 0.077443 0.026318 2.943 0.025862 *

Morbilidad 1.918300 0.227188 8.444 0.000151 ***

Letalidad -0.099795 0.047984 -2.080 0.082766 .

Mortalidad 8.432132 2.625668 3.211 0.018334 *

Actividad Física 0.093754 0.018630 5.032 0.002375 **

Además los valores de el error residual estándar y el p – valor (0.03111 y 8.805e-9

respectivamente), disminuyen y el ajuste de 푅 aumenta a 0.9981, lo cual es lo que se pretendía.

Entonces el valor de predicción quedaría.

퐷푖푎푏푒푡푒푠 = −6.522267 + 0.024423 x + 0.077443x + 1.918300x − 0.099795x

+ 8.432132 x + 0.093754x

A la hora de hacer cada uno de los análisis para los diferentes casos analizados, se encuentra que

para encontrar un modelo, con el fin de comprobar que se puede aplicar el análisis. Es muy

importante realizar el análisis desde la estadística descriptiva, que nos revela situaciones

relevantes de los datos, y que en los métodos posteriores serán de gran uso Luego al aplicar los

métodos se encuentra información relevante que hay que considerar, pues la información

revelada por componentes principales, nos da una información las variables que generan más

variabilidad en el proceso, y hay que poner atención en ellas, para el caso de factores, vemos

cuales tienen mayor relación en busca de formar grupos que nos den información sobre su

interacción. Al analizar por conglomerados, se encuentra que existen varios estados cercanos que

se relacionan, aun sin tomar en cuenta la cercanía geográfica, lo que nos dice, que la situación

4.5 Regresión múltiple

61

que padecen los mexicanos suele ser de manera parecida en estados colindantes. Por último,

vemos que en la regresión, que una variable que es de las más altas en dependencia con la

incidencia de diabetes, es la mortalidad, lo cual tiene sentido, puesto que las personas que

fallecen por diabetes, necesariamente tienen que estar relacionadas con el número de diabéticos

que existen.

5.1 Regresión

63

CAPÍTULO 5

Pronóstico para la mortalidad por diabetes en México

En el desarrollo de este capítulo se busca dar una predicción de la mortalidad en México,

apoyado por dos métodos. En primera instancia se realizará un análisis por regresión local, como

su nombre lo indica, hace una estimación con respecto a una cierta área, en la que los datos tiene

relación, la cual ayuda a mejorar la tendencia de una regresión lineal simple. En un segundo caso,

los mismos datos se someten a un análisis de series de tiempo, en los cuales primero se busca que

sean estacionarios, para poder finalmente aplicar el modelo y obtener un pronóstico.

5.1. Regresión

El análisis por regresión se define tanto la regresión lineal, como la regresión local LOESS,

seguido de la realización del modelo de regresión lineal simple, y posteriormente se compara con

lo obtenido al modelar la regresión local. Para esté análisis se uso el Software R Studio, en donde

se expresa los datos obtenidos en las tablas, acompañado de un gráfico del pronóstico.

5.1.1. Regresión lineal simple

La regresión lineal simple es el caso de modelo de regresión más sencillo, es la construcción de

una recta que modele la relación que hay entre la variable respuesta 푦, y la variable predictora 푥.

El modelo tiene la forma siguiente.

푌 = 훽 + 훽 푋 + 휀 (5.1. 1)

donde 훽 y 훽 se conocen como coeficientes de regresión, en el que 훽 es la ordenada en el

origen (punto de corte con el eje Y) y 훽 es la pendiente de la recta del modelo de regresión. En la

ecuación 휀 es el error aleatorio, representa la diferencia entre el valor ajustado por la recta y el

valor real. Refleja la ausencia de dependencia perfecta entre las variables, la relación está sujeta a

incertidumbre.

Una recta que tiene una pendiente con valor positivo describe una relación positiva, mientras que

una recta con una pendiente negativa describe una relación negativa. Entonces tenemos

básicamente que la pendiente (훽 ) nos da la apariencia del modelo y la ordenada en el origen (훽 )

nos dice dónde se sitúa el modelo en el plano.

5.1 Regresión

65

2005 10.41859635

2006 10.96051814

2007 10.95485308

2008 11.21639879

2009 11.04446801

2010 11.20372185

2011 10.91893864

2012 11.43612707

2013 11.84821325

2014 12.23312578

2015 12.3940766

Al aplicar el análisis con ayuda del R Studio (ver (Quintana Romero & Mendoza Gonzáles,

2016)), se encuentra que el valor ajustado de 푅 (0.9092) es buena, también se tiene que los datos

son significativos al tener en Pr(>|t|) valores pequeños (ver Tabla 5.1. 2) y el valor p (5.825e-10)

que también es pequeño, es favorable para nuestro análisis.

Tabla 5.1. 2 Coeficientes de regresión lineal sobre datos de mortalidad

Estimador Error estándar Valor t Pr (>|t|)

Intercepto -558.33671 43.46005 -12.85 7.61e-10 ***

X 0.28338 0.02166 13.08 5.83e-10 ***

Por último se tiene el modelo de regresión para nuestros datos es

푌 = 0.28338푋 − 558.33671

Al aplicar la regresión local, se obtienen nuevos valores para los datos originales, a causa del

ajuste que se da a los datos, con el propósito de mejorar el posterior pronóstico.

Tabla 5.1. 3 Nuevos valores de mortalidad ajustando con LOESS

AÑO PREDICCIÓN

LOESS 1998 7.117094

1999 7.627707

2000 8.131774

2001 8.627061

2002 9.105070

CAPÍTULO 5

66

2003 9.593233

2004 10.057346

2005 10.471279

2006 10.809711

2007 10.986373

2008 11.090194

2009 11.087872

2010 11.175904

2011 11.309020

2012 11.515337

2013 11.770547

2014 12.088239

2015 12.461342

Estos datos de visualizan de la forma siguiente, donde 푦 son los datos de mortalidad en México

por Diabetes, y la línea negra, es el ajuste del modelo LOESS.

Fig. 5.1. 2 Ajuste de datos aplicando LOES

Ya con la modelación hecha, se tiene las predicciones de ambos modelos, dichos resultados están

plasmados en la Tabla 5.1. 4. En ellos se nota una diferencia desde la primera predicción de la

regresión lineal (que se obtiene de Y) y la regresión local (LOESS). En donde se nota que

LOESS comienza en una predicción menor para el año 2016, pero para los años siguientes, es

superior a lo predicho por la regresión lineal.

5.2 Series de Tiempo

67

Tabla 5.1. 4 Comparación de las predicciones obtenidas de los modelos de regresión lineal y local-

AÑO REGRESIÓN LINEAL REGRESIÓN LOCAL

LOESS ERROR PARA LOES

2016 12.9535 12.89674 0.1893541

2017 13.23688 13.39242 0.271063

2018 13.52026 13.94706 0.3712918

2019 13.80364 14.55994 0.4899225

2020 14.08702 15.23041 0.6270814

2021 14.3704 15.95791 0.782967

2022 14.65377 16.74197 0.9577861

2023 14.93715 17.58218 1.1517308

2024 15.22053 18.47821 1.3649719

2025 15.50391 19.42977 1.597658

La predicción de estos datos se plasma mediante la Fig. 5.1. 3, donde los círculos hacen

referencia a los valores que se obtuvieron al aplicar la regresión local, mientras que las líneas

azules, es el respectivo error de este análisis. Por otro lado se encuentra la línea negra, que es la

predicción de los datos por regresión lineal.

Fig. 5.1. 3 Comparación del ajuste de datos de ambos modelos.

5.2. Series de Tiempo

El análisis de datos de un sistema que tiene relación con el tiempo, se puede llevar a cabo

mediante series temporales (series de tiempo), en una manera práctica se puede decir que por

CAPÍTULO 5

68

series de tiempo se refiere a un conjunto de observaciones los cuales se obtienen al hacer

mediciones cronológicamente y cada dato tiene que tomarse en un periodo uniforme (semestral,

trimestral, anual, etc.).

5.2.1. Componentes

Para el análisis de series de tiempo clásico, se tiene la suposición de que la variables de

observación se compone de tres tipos de componentes (tendencia 푻풕, estacional 푬풕, y aleatoria

푨풕) y que la suma de estas tres da como resultado los valores que fueron medidos (ver (5.2. 1))

푿풕 = 푻풕 + 푬풕 + 푨풕 (5.2. 1)

donde 푻풕 y 푬풕 son deterministicas. Las componentes que se han mencionado tienen ciertas

características que se expresan en la Fig. 5.2.1

Fig. 5.2.1 Tipos de componentes

Además de esta característica, la serie de tiempo se clasifica en estacionaria (media y varianza

constantes), y no estacionaria (la tendencia cambia con el tiempo y su media cambia)

Componentes

Tendencia

Cambio a largo plazo de la media

Estacional

Peridiosidad de los datos

Aleatoria

Factores aislados que intervienen

en la serie


69

5.2.2. Modelo ACF Y PACF

La función de autocorrelación parcial (PACF) proporciona la correlación parcial de una serie de

tiempo con sus propios valores rezagados. Esto contrasta con la función de autocorrelacion

(ACF), que no controla otros retrasos.

Este modelo está dada para una serie de tiempo 푋 , la PACF del retraso 푘, denotado 훼(푘), es la

autocorrelación entre 푋 y 푋, con la dependencia lineal de 푋 y 푋 mediante 푋 .

Equivalentemente, es la autocorrelación entre 푧 y 푧 . Además se tiene

훼(1) = Cor(푋 , 푋) (5.2. 2)

훼(푘) = Cor 푋 − 푃 , (푋 ), 푋 − 푃 , (푋 ) para 푘 ≥ 2 (5.2. 3)

Donde 푃 , (푥) denota la proyección x en el espacio abarcado por 푥 ,… , 푥 .

Estas funciones son herramientas comúnmente utilizadas para identificar el orden de un modelo

autorregresico. La PACF de un proceso 퐴푅(푝) es cero en el retraso 푝 + 1. Si el gráfico de ACF

demuestra que un modelo 퐴푅 puede ser apropiado, entonces se examina el gráfico de PACF para

ayudar a identificar el orden. Uno busca el punto en el diagrama donde las PACF donde los

rezagos superiores son esencialmente cero.

5.2.3. Modelo ARMA

Está compuesto por procesos auto regresivos AR(p) y procesos de medias móviles MA(q). Un

AR se basa en que el valor actual de la serie 푿풕puede ser explicado mediante p datos pasados

푿풕 ퟏ, 푿풕 ퟐ, … , 푿풕 풑 . El modelo AR(p) se definirá entonces en la ecuación siguiente

푿풕 = ɸퟎ + ɸퟏ푿풕 ퟏ + ɸퟐ푿풕 ퟐ +⋯+ɸ풑푿풕 풑 + 휺풕 (5.2. 4)

donde 휺풕 es el ruido blanco generado, mientras que ɸퟏ, ɸퟐ, … , ɸ풑,son los parámetros del modelo.

Ahora bien, el proceso MA(q) proviene de fuentes externas y suponen linealidad. Este modelo

esta dado por la ecuación siguiente

푿풕 = 휽ퟎ − 휽ퟏ휺풕 ퟏ − 휽ퟐ휺풕 ퟐ −⋯− 휽풒휺풕 풒 − 휺풕 = ퟏ − 휽ퟏ푳 − 휽ퟐ푳ퟐ −⋯− 휽풒푳 휺풕

= 휽풒(푳)휺풕 (5.2. 5)

CAPÍTULO 5

70

donde 휺풕 es el ruido blanco generado, mientras que 휽ퟏ, 휽ퟐ, … , 휽풑,son los parámetros del modelo.

Es muy probable que un modelo contenga a ambos procesos, por lo que se tendrá un ARMA.

Ahora nuestro 푿풕 se representara mediando (5.2. 4) y (5.2. 5). por lo que resulta la ecuación

(5.2.6).

푿풕 = ɸퟏ푿풕 ퟏ + ɸퟐ푿풕 ퟐ +⋯+ɸ풑푿풕 풑 + 휺풕 + 휽ퟏ휺풕 ퟏ + 휽ퟐ휺풕 ퟐ +⋯+ 휽풒휺풕 풒 (5.2.6)

o

ɸ풑(푳)푿풕 = 휽풒(푳)휺풕 (5.2.7)

5.2.4. Modelo ARIMA

Anteriormente se había mencionado que hay series de tiempo que no son estacionarias, a los

cuales se les conoce como procesos integradores. Para lograr que analizar este modelo no

estacionario, se debe diferenciar d veces, hasta convertirla en estacionaria. Para este caso se

ocupa un proceso ARIMA (p,d,q), donde d es el número de veces que se debe diferenciar el

modelo. Un proceso ARIMA (p, d, q) está integrado fraccionalmente por

(ퟏ − 푳)풅 ɸ (푳)푿풕 = 풄 + 휣 (푳) 휺풕, (5.2. 8)

con modelos causales. No le permitirá introducir un modelo para el que ퟏ − ɸퟏ풁 −⋯− ɸ풑풁풑

tenga un cero dentro o en el círculo unitario, ni genere modelos fijos con esta propiedad. Desde el

punto de vista de propiedades de segundo orden, esto no representa pérdida de generalidad.

Para realizar este análisis, se recurre a utilizar la metodología de Box Jenkins, (Smith, 1999)

donde consta de cuatro etapas fundamentales, que son la identificación, estimación verificación y

pronóstico (ver Fig. 5.2.2 )

CAPÍTULO 5

72

퐸 푋 − 푎 − 푎 푋 = 0, (5.2. 12)

퐸 푋 − 푎 − 푎 푋 푋 = 0, 푗 = 1,… , 푛

(5.2. 13)

Estas ecuaciones se pueden escribir más claramente en notación vectorial como

푎 = 휇 1 − 푎 (5.2.14)

y

훤 혢 = 훾 (ℎ)

(5.2.15)

donde 혢 = (푎 ,… , 푎 ) , 훤 = [훾(푖 − 푗)] , y 훾 (ℎ) = 훾(ℎ), 훾(ℎ + 1),… , 훾(ℎ + 푛 − 1) ′ y

donde γ se refiere a la covarianza.

por lo tanto

푃 푋 = 휇 + 푎 (푋 − 휇) (5.2.16)

5.2.6. Aplicación de Series de tiempo

Los datos que se analizaron con la regresión local, son los datos que se usarán en este análisis con

series de tiempo, con ayuda del programa itsm. En primera instancia tenemos la estadística

descriptiva, en el cual observamos cual es su media, varianza y su error.


73

Media = 10.2614

Varianza = 2.363534

Error estándar = . 629959

Al graficar los datos como se muestra en la Fig. 5.2. 3 los datos claramente no son estacionarios,

pues siguen una tendencia creciente.

Fig. 5.2. 3 Gráfico de la tendencia de los datos

Lo primero es convertir la serie a estacionaria, logrando obtener la Fig. 5.2.4 después de

diferenciar una vez, y con ello observamos un cambio en el comportamiento de los datos.

Fig. 5.2.4 Gráfico de los datos ya estacionarios

Lo primero a analizar es aplicar ACF y PACF, en los que se observa que en el gráfico de la

izquierda de la Fig. 5.2. 5 (ACF) sólo se alcanzan a salir dos coeficientes de auto correlación, y

del lado derecho(PACF), se salen dos coeficientes de auto correlación parcial de las bandas, que

nos haría pensar que es un modelo que dependa de los dos valores anteriores (AR(2)).

CAPÍTULO 5

74

Fig. 5.2. 5 Gráfico del ACF y PACF de los datos

El comportamiento de los residuales resulta ser la Fig. 5.2. 6.

Fig. 5.2. 6 Gráfico de los residuos cuando ya se ha diferenciado

Al hacer el PACF y el ACF de los residuales (ver Fig. 5.2. 7) se obtiene que sólo el primer

coeficiente de ambos gráficos se sale de las bandas.


75

Fig. 5.2. 7 ACF y PACF de los residuos

Entonces, el modelo se expresa como

푋(푡) = − .007304 푋(푡 − 1) + .4877 푋(푡 − 2) + 푍(푡)

Finalmente se obtiene la predicción que se visualiza en la Fig. 5.2. 8.

Fig. 5.2. 8 Predicción con Series de Tiempo

Con lo cual, se tienen la tabla siguiente, que si comparamos con lo obtenido en la regresión lineal

y local, se acerca bastante a ambos análisis, debido al rango de error tan grande que existe.

CAPÍTULO 5

76

Tabla 5.2.1 Datos de la predicción por Series de Tiempo

Año Prediccion sqrt(MSE) Predicción - error Predicción + error

2016 12.70136 .27276 12.16676 13.23596

2017 13.00864 .38574 12.25260 13.76468

2018 13.31592 .47243 12.38997 14.24187

2019 13.62320 .54552 12.55400 14.69240

2020 13.93048 .60991 12.73508 15.12588

2021 14.23776 .66812 12.92827 15.54726

2022 14.54505 .72166 13.13063 15.95946

2023 14.85233 .77148 13.34025 16.36440

2024 15.15961 .81828 13.55581 16.76341

2025 15.46689 .86254 13.77634 17.15744

Al comparar lo obtenido por la regresión lineal, la regresión local y por series de tiempo, se

encuentra que los datos de predicción, son cercanos en las tres predicciones. En el caso de series

de tiempo encontramos que tiene un gran rango de error, esto debido a que el tamaño de los datos

analizados son muy pequeños.

77

Conclusiones

El desarrollo en el trabajo, se puede resumir en cuatro resultados, los cuales son con base en:

1. Las variables asociadas a la diabetes en hombres mexicanos,

2. las variables asociadas a la diabetes en mujeres mexicanas,

3. las variables asociadas a la situación de los mexicanos por entidad federativa,

4. y la pronóstico de la mortalidad a causa de diabetes.

Al aplicar el análisis por componentes principales a 1, se obtuvo que la varianza total del

problema se puede reducir a sólo tres componentes, de las cuales, para la 1er componente, la que

tiene mayor variabilidad es la actividad física, para la 2da componente es la obesidad y la 3ra el

sobrepeso, y con ello se nota a pesar de lo importante que son estas variables para controlar la

diabetes, las estadísticas revelan que no es un comportamiento tan fácil de abordar.

En el análisis de factores a 1, también se agrupan los datos en 3 factores, y con ello se explica el

97% de los datos. En este análisis se encontró que las variables que tiene un mayor peso en el 1er

factor es la letalidad, morbilidad, actividad física, sobrepeso e incidencia de diabetes, en la 2da

está la obesidad, incidencia de diabetes, medidas preventivas y sobrepeso y en la 3ra está

representado por medidas preventivas, que nos resulta en el total de las variables analizadas, pero

nos arroja las medidas preventivas que parecen tener poca relación con el resto.

En el análisis de regresión múltiple para el caso 1, el problema parece tener mucha relación con

todas las variables, y el modelo para obtener la incidencia de diabetes es, y se observa un alto

valor que tiene la mortalidad para la predicción de la diabetes.

7.246081 − 0.018134x − 0.207271x + 11.27151x − 0.075614x + 0.756739x

− 33.903865x + 0.004713x

En componentes principales, pero ahora en el caso 2, se tiene que la mayor varianza significativa

de los datos, se puede expresar en dos componentes, las cuales son el 97% de la proporción de la

varianza. En la 1er componente se expresa por la actividad física, y la 2da, por la obesidad, que

nuevamente estas dos variables dependen de los hábitos que tienen las personas, por ello se

entiende que tengan gran variabilidad.

Al aplicar factores a 2, se forman tres factores, los cuales representan un 97% de los datos. En el

1er factor se destaca la letalidad, morbilidad, mortalidad, actividad física e incidencia de diabetes,

las cuales tienen una alta correlación, ya que son situaciones de salud que están directamente

relacionadas con la diabetes, a excepción de la actividad física. En el 2do factor esta el sobrepeso

y la obesidad, que también son variables que también tienen mucha relación, y en el último

Conclusiones

78

factor, está representado por las medidas preventivas, que parece tener poca correlación con las

demás variables.

En el análisis de regresión múltiple para el caso 2, se tuvo que el análisis de ajuste mejora al dejar

de lado la variable de medidas preventivas, y con esto se obtiene el modelo siguiente, en el que se

vuelve a destacar la mortalidad para la predicción de incidencia de diabetes.

−6.522267 + 0.024423 xOb + 0.077443xS + 1.918300xM − 0.099795xL + 8.432132 xMt+ 0.093754xAF

Para el caso 3, al aplicar método de componentes principales, se considera, según el método

Kaiser, que sólo con una componente se puede explicar la mayor variabilidad de los datos. Con

esta componente se representa el 75% y las variables que mayor carga tienen son los ingresos

inferiores al bienestar mínimo y los ingresos inferiores al bienestar. Con ello entendemos que la

situación de los mexicanos en nivel económico hay una gran desigualdad.

Cuando de analiza el caso 3 por análisis de factores, se agrupan en 5 factores las diferentes

variables. En el 1er factor, están las dos variables que tienen mayor variabilidad en esta base de

datos (iibm e iib), junto con el rezago educativo, que nos dan una idea de que el nivel de

educación suele estar ligado de manera importante con el nivel económico que se tenga. En el

2do factor solo está la mortalidad, en el 3ro los no asegurados, en el 4to los asegurados y en el

5to la alimentación. Con ello entendemos que sólo tienen una correlación alta las variables que

integran el 1er factor y la mortalidad por diabetes parece no tener mucha relación con las demás

variables analizadas.

Para ver como se relacionan los estados, al analizar el caso 3, se tienen dos resultados con

conglomerados, ya que la agrupación al aplicar k medias, es diferente que la agrupación por

jerarquías, y se percibe algunas similitudes en los métodos, además de que varias variables dentro

de su grupo, tienen fronteras en común. Lo que revela que la condición del país se enfrentar a

índices parecidos por la zona en donde se habita.

Para el análisis del caso 4, la regresión local resulta ajustarse mejor a los puntos que una

regresión simple, lo cual es bueno para el análisis de predicción, en el caso de series de tiempo, el

problema que resulta es que el rango de error es muy grande, y la predicción, entre el valor que se

desea saber, el dato predicho no puede ser de mucha ayuda.

79

Apéndice A

Tabla A1 Matriz de datos de variables asociadas a la diabetes en hombres mexicanos.

Grupo edad ID Sobrepeso Obesidad Morbilidad MP

preventivas

Letalidad Mortalidad AF

20 – 24 0.03466 33.9 20.4 0.01114 34.9 3.17 0.00067 68.5

25 – 29 0.0713004 38.8 25.75 0.023185 31.75 4.395 0.002895 51.9

30 – 34 0.1689696 43.7 31.1 0.03523 28.6 5.62 0.00512 46.7

35 – 39 0.3276676 44.4 32.7 0.074015 30.55 6.3 0.01716 41.4

40 – 44 0.597405 45.1 34.3 0.1128 32.5 6.98 0.0292 43.7

45 -49 0.82815 47.05 31.5 0.198715 35.85 8.355 0.06408 46

50 – 54 1.0365656 49 28.7 0.28463 39.2 9.73 0.09896 45.4

55 – 59 1.3060389 49.4 26.15 0.363945 35.85 10.95 0.150765 44.8

60 – 64 1.63657 49.8 23.6 0.44326 32.5 12.17 0.20257 54.35

65 – 69 1.7324589 46.6 22.05 0.54559 38 15.68 0.32113 63.9

70 – 74 1.6528457 43.4 20.5 0.58282 36 17.53 0.40096 53

75 – 79 1.3977303 41.3 14.9 0.62005 34 19.38 0.48079 42.1

80 y + 0.9671127 39.2 9.3 0.54004 31.2 23.78 0.58419 20.8

Apéndice A

80

Tabla A2 Matriz de datos de variables asociadas a la diabetes en mujeres mexicanas.

Grupo edad ID Sobrepeso Obesidad Morbilidad Medidas preventivas Letalidad Mortalidad Actividad Física

20 – 24 0.05802 30.6 24 0.011 17.45 3.46 0.00037 42

25 – 29 0.0969248 34.35 30.65 0.021 15.88 4.42 0.001715 38.6

30 – 34 0.2219032 38.1 37.3 0.031 14.3 5.38 0.00306 35.2

35 – 39 0.4329552 37.85 41.7 0.065 15.28 6.05 0.010875 36.75

40 – 44 0.8061825 37.6 46.1 0.098 16.25 6.71 0.01869 38.3

45 -49 1.11328 37.2 46.95 0.188 17.93 8.45 0.04978 39

50 – 54 1.4069789 36.8 47.8 0.277 19.6 10.18 0.08087 39.7

55 – 59 1.6772956 36.5 45.75 0.373 17.93 11.97 0.132825 38.45

60 – 64 1.92423 36.2 43.7 0.469 16.25 13.75 0.18478 37.2

65 – 69 1.9715187 35.6 43.7 0.582 19 16.58 0.3128 27.6

70 – 74 1.8544144 35 35.1 0.64 18 18.08 0.41314 20.3

75 – 79 1.5729171 31.9 28 0.697 17 19.58 0.51348 13

80 y + 1.1270267 28.8 20.9 0.591 15.6 24.09 0.68061 4.7

81

Tabla A3 Matriz de datos de las variables asociadas a la situación de los mexicanos por entidad federativa.

a na re css ca iibm iib Mortalidad

Aguascalientes 1.2 7.1 15.3 14.8 21.5 14.9 47.9 11.2

BCN 4.3 23.2 14.6 22.3 15.2 10.9 38.8 10.4

BCS 2.9 12.9 15.7 15.1 21.9 13.1 38 10.7

Campeche 0.5 7.1 19.2 12.2 18.7 20.6 50.2 11.2

Chiapas 0.6 1.9 33.5 24.9 24.7 46.7 76.4 8.7

Chihuahua 0.8 9.4 16.1 13.6 18.4 15.9 46 7.9

Coahuila 2.8 5.1 12.5 14.4 21.2 11.6 40.7 11.9

Colima 3.4 11.2 18.8 14.6 22.3 11.4 40.7 11.4

DF 7.4 6.1 9.2 23.4 13 6.9 35.5 16.5

Durango 4.1 4.7 16.1 17.8 21.4 25 61.2 9.5

Guanajuato 0.6 12.8 23.9 19 28.5 16.9 49.3 14.5

Guerrero 1.9 9.8 26.8 25.4 39.4 45.1 71.9 10

Hidalgo 0.5 15.9 20.6 18.7 25 23.8 55.8 12.2

Jalisco 2.5 19.1 18.4 23.7 20.6 16.3 47.9 11.6

México 2.2 17 15.4 25.3 17.7 15.9 53.1 15.6

Michoacán 1 8.9 26.1 28.6 32.2 24.2 57.9 12.7

Morelos 4.4 9.1 19.2 22.3 30.7 15 50.1 12.8

Nayarit 0.4 8.6 19.3 18.3 28.8 23.4 53.2 10.8

NL 1.8 7.7 12.7 15.5 17.6 8.8 31.7 10.4

Oaxaca 1.3 3.8 27.7 20.9 31.7 34.4 63.6 9.9

Puebla 1.1 2.6 24.1 29.6 30.1 32.9 68.7 13.8

Querétaro 3.1 3.5 17.5 15.5 19.8 14.7 43.3 11.4

Quintana Roo 1 9.6 17.6 21.2 18.6 16.6 45 9.7

Sinaloa 1.2 10.8 21.2 14 24.7 23.3 57.1 9

SLP 2 11 18.4 16.6 25.9 13.4 42.6 10.4

Sonora 0.4 10.9 13.6 17.1 26 10.2 33.8 8.9

Tabasco 2.9 1.3 19.1 18.2 33.4 23.6 52.7 13.5

Tamaulipas 1.6 6.8 15.5 15.8 19.2 14.9 47.2 11.3

Tlaxcala 1 4 15.8 24.2 28.4 24.4 63.9 17.5

Apéndice A

82

Veracruz 1.4 11.8 25.8 25.7 28.2 24 56.6 12.5

Yucatán 2.6 7.3 23.4 15.7 25.1 16.6 55.1 8.3

Zacatecas 0.8 16.3 21.1 16.7 22.3 30.3 60.6 9.8

83

Bibliografía

[1] Anderson, T. W. (1918). An Introduction to Multivariate Statistical Analysis. New Jersey:

Wiley Interscience.

[2] Baillo Moreno, A., & Grané Chavéz, A. (2008). 100 problemas resueltos de estadística

multivariante[implementados en MATLAB]. Madrid: Delta publicaciones.

[3] Brockwell, P. j., & Davis, R. A. (2002). Introduction to Time Series and Forecasting (Second

Edition). New York: Springer.

[4] Brokwell, P. J., & Davis, R. A. (2006). Time Series: Theory and Methods. New York:

Springer.

[5] De la Fuente Fernández, S. (2011). Análisis de Factores. Recuperado el 16 de Agosto de

2017, de

http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/MULTIVARIANTE/FACTO

RIAL/analisis-factorial.pdf

[6] Everitt, B., & Hothorn, T. (2011). An Introduction to Applied Multivariate Analysis with R.

New York: Springer.

[7] Ferre, J. M. (2014). FEIR 40: Modelos de Regresión. Recuperado el 22 de Septiembre de

2017, de http://www.um.es/ae/FEIR/40/

[8] FUNSALUD. (Julio de 2015). Carga Económica de la Diabetes Mellitus en México, 2013.

Obtenido de http://funsalud.org.mx/portal/wp-content/uploads/2015/08/Carga-Economica-

Diabetes-en-Mexico-2013.pdf

[9] Husson, F., Lê, S., & Pagès, J. (2011). Exploratory Multivariate Analysis by Example using

R. Taylor & Francis Group.

[10] INEGI. (30 de Enero de 2013). diabetes 2013 INEGI. Obtenido de

http://fmdiabetes.org/wp-content/uploads/2014/11/diabetes2013INEGI.pdf

[11] INEGI. (s.f.). Indicadores de bienestar por entidad federativa. Recuperado el 13 de

Marzo de 2017, de http://www.beta.inegi.org.mx/app/bienestar/?ag=01

84

[12] INEGI. (28 de Enero de 2016). Módulo de práctica deportiva y ejercicio físico [Boletín de

prensa núm. 27/16]. Recuperado el 13 de Marzo de 2017, de

http://www.inegi.org.mx/saladeprensa/boletines/2016/especiales/especiales2016_01_08.pdf

[13] Instituto Nacional de las Mujeres. (Febrero de 2015). Recuperado el 23 de Marzo de

2017, de http://cedoc.inmujeres.gob.mx/documentos_download/101243_1.pdf

[14] Jollife, I. (2002). Principal Component Analysis. New York: Springer.

[15] K. V., M., J. T., K., & J. M., B. (1979). Multivariate Analysis. San Diego: Academic Press

Inc.

[16] King, W. B. (17 de Febrero de 2016). Tutotials. Obtenido de Multiple regression:

http://ww2.coastal.edu/kingw/statistics/R-tutorials/multregr.html

[17] Peña, D. (2002). Análisis de datos multivariados. MCGRAN HILL/

INTERAMERICANA DE ESPAÑA.

[18] Pla, L. E. (1986). Análisis multivariado: método de componentes principales.

Whashington, D.C.: Eva V. Chesneau.

[19] Quintana Romero, L., & Mendoza Gonzáles, M. Á. (2016). Econometría aplicada

utilizando R. D.F.: DGAPA.

[20] Smith, R. L. (11 de Mayo de 1999). Time Series.

[21] Zelterman, D. (2015). Applied Multivariate Statistics with R. New York: Springer.

f

Análisis estadístico de datos sobre la diabetes en México ...

Documents

Transcript of Análisis estadístico de datos sobre la diabetes en México ...