Post on 30-Dec-2015
description
Estudio estadistico del consumo de sustancias
psicoactivas en diferentes regiones de colombia
y su relación con las defunciones
Nicole Saracino, Juan David Alonso
Universidad Javeriana, Bogota colombia
1. INTRODUCCIÓN
El ser humano diariamente se enfrenta a cuestionamientos sobre los
fenómenos que lo rodean y las interacciones que ocurren en los procesos que
el mismo ha desarrollado. Para comprenderlos, acumula información sobre sus
características, la clasifica, y de ser posible, la convierte en datos cuantitativos
para hacer análisis precisos sobre las variables que intervienen en ellos.
Mediante la investigación, obtiene nuevos conocimientos y desarrolla
herramientas que le dan solución a problemas o interrogantes de carácter
científico y social.
Una de estas herramientas, es precisamente la inferencia estadística, que
como proceso científico; “estudia los fenómenos aleatorios con base en los
datos que ocurren en el mundo real, e intenta, apoyada en herramientas
matemáticas y probabilísticas, explicar las características del fenómeno,
estimar de la mejor manera posible los resultados futuros del mismo, y medir
los riesgos inherentes a las estimaciones y predicciones realizadas”
(ALVARADO Joge Andres).
La investigación sobre un determinado tema puede requerir una gran inversión
en tiempo, dinero y recursos, que la inferencia estadística ahorra,
estableciendo conclusiones generales sobre una población, a partir de datos
específicos obtenidos de una muestra de la misma. Particularmente en la
industria, principal tema de interés de la ingeniería industrial, la inferencia
estadística permite predecir en términos cuantitativos la forma en que podrían
desarrollarse los procesos de producción, y de esta manera hacer una mejor
planeación y organización de los recursos. De igual manera brinda soporte
para establecer parámetros de control y establecer estándares de calidad.
Dicho esto, el presente trabajo busca evidenciar la utilidad de esta disciplina,
dando aplicación a los conceptos desarrollados durante el curso, en un
problema práctico relacionado con un aspecto al que nos enfrentamos
actualmente.
Fundamentos teóricos sobre estadística descriptiva, distribuciones muéstrales y
estimación, servirán de base para cálculo de tamaño de muestras, la
estimación de parámetros mediante intervalos de confianza y la realización de
pruebas de hipótesis, que permitirán analizar los datos recolectados, y a partir
de estos extraer información concluyente sobre la población de estudio.
Se busca conocer el comportamiento del consumo de sustancias psicoactivas
en Colombia, principalmente el tabaco, alcohol y cocaína, comparando de que
manera se ve afectada la mortalidad regional. Adicionalmente se determinara la
existencia de relación o no entre el consumo de estas sustancias y el sexo o la
edad de los colombianos encuestados.
2. MATERIALES Y METODOS
Para el desarrollo de esta investigación se tuvo en cuenta una muestra
estratificada ya que por medio de esta podemos dividir la población de estudio
en grupos o clases que se pueden suponer iguales con respecto a la
característica que vamos a evaluar, en este caso consumo de sustancias
psicoactivas.
Nuestra muestra está constituida por una población entre 12 y 65 años de
edad, de hogares de todos los estratos socioeconómicos residentes en
ciudades capitales y municipios alrededor de todo el país.
Se seleccionaron 39.000 hogares de los cuales se seleccionó una persona
entre la edad mencionada anteriormente, obteniendo al final una muestra
efectiva 29.164 personas. Dicha muestra está distribuida alrededor de todo el
país, comenzando con las capitales como lo son, Bogotá, Medellín y Cali, y
también se tuvieron en cuenta los departamentos más poblados.
2.1 TABLAS DE MUESTREO
Como lo mencionamos anteriormente la muestra total es de 29.164 personas,
que a nivel de población se distribuye en 38% hombres y 62% mujeres, como
se observa en la tabla 1.
Tabla 1. Distribución de la muestra según sexo.
SEXO CANTIDAD %
HOMBRE 11209 38%
MUJER 17955 62%
TOTAL 29164 100%
Por otro lado contamos por la clasificación de estos datos dependiendo las
edades de los evaluados. Existen 5 intervalos donde se cubren las edades
entre 12 a 65 años. Dichos datos los podemos ver en la tabla 2 .
Tabla 2. Distribución de la muestra según rangos de edad.
INTERVALO DE EDAD CANTIDAD %
12-17anos 4281 15%
18-24anos 4881 17%
25-34anos 6351 22%
35-44anos 5466 19%
44-65anos 8185 28%
TOTAL 29164 100%
Finalmente se presenta la distribución geográfica de la muestra en las 27
regiones seleccionadas como se ve en la tabla 3.
Tabla 3. Distribución de la muestra según región nacional.
DEPARTAMENTO TAMANO DE LA MUESTRA
Bogotá D.C 4281
Antioquia 3227
Orinoquia y Amazonia 936
San Andrés y Providencia 531
Atlántico 1528
Bolívar 1052
Boyacá 777
Caldas 1094
Cauca 525
Cesar 740
Córdoba 816
Cundinamarca 1198
Chocó 646
Huila 930
La Guajira 590
Magdalena 910
Meta 736
Nariño 721
Norte de Santander 1035
Quindío 720
Risaralda 895
Santander 1322
Sucre 571
Tolima 1077
Valle del Cauca 2306
TOTAL 29164
2.2 GRAFICOS
Los gráficos permiten una mejor interpretación de los datos, proporcionan una
idea generalizada de los resultados lo cual facilita el análisis y la comparación
de muestras tomadas.
Se utilizaran dos tipos de gráficos, los cuales hemos considerado exponen de
manera mas acertada el comportamiento de los datos y lo que se desea
analizar.
Cajas y bigotes: Son una presentación visual que describe varias
características importantes al mismo tiempo tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y
máximo de los datos, sobre un rectángulo alineado horizontal o verticalmente
(Diagrama de cajas y bigotes)
Pareto: Muestra la importancia relativa de los problemas de forma simple,
rápida para interpretas y en un formato visual. Ayuda a enfocar las causas que
tendrán el mayor impacto si no son resueltas. Se utiliza cuando se desea
buscar las causas principales de los problemas y establecer prioridad de las
soluciones (Diagrama de Pareto)
Por medio de estos gráficos se pretende analizar el comportamiento de la
distribución de cada psicoactivo con relación a la región, y así entender y
determinar factores influyentes en esta tendencia.
2.3 CALCULO DE ESTIMADORES
Un estimador es un estadístico usado para estimar un parámetro desconocido
de la población. Para cada parámetro pueden existir varios estimadores
diferentes. En general, escogeremos el estimador que posea mejores
propiedades que los restantes, como insesgadez, eficiencia, convergencia y
consistencia.
Para cada clase de sustancia psicoactiva escogida decidimos calcular los
siguientes estimadores:
Media muestral: es el promedio de un conjunto de valores, o su
distribución.
x=∑i=1
n
x i
n
Varianza muestral: se puede definir como el “casi promedio” de los
cuadrados de las desviaciones de los datos con respecto a la media
muestral. Su formula matemática para el caso de datos referentes a una
muestra es (varianza muestral):
S2=∑i=1
n
( x−x )2
n−1
Desviación estándar: Al tomar el cuadrado de las desviaciones con
respecto a la media para el calculo de la varianza, las unidades en que
están dados los datos también se expresaran en unidades al cuadrado.
Esto puede no tener sentido. Por otra parte, al tomar el cuadrado, la
diferencia real entre el dato particular y la media se magnifica. Estas
circunstancias condujeron a que se le hiciera una modificación a la
anterior medida y se llegó de esta manera al concepto de desviación
estándar, la cual se define como la raíz cuadrada de la varianza, esto es
(Desviación):
S=√S2
Realizaremos la determinacion de cada estimador par cada una de las
sustancias asociadas por region de colombia, lo cual nos permitira hacer un
analisis de la variabilidad de los datos y posterior desarrollo de los calculos que
complementan la investigacion.
2.4 CALCULO DE INTERVALOS DE CONFIANZA
Un intervalo estimador es lo que su propio nombre indica, un intervalo aleatorio,
cuyos puntos extremos L 1 y L 2 son estadísticos. Esto se utiliza para
determinar un intervalo numérico a partir de la muestra. Se espera que este
contenga el parámetro de la población que está siendo estimado. Si se amplía
el intervalo, se gana error, se pierde confianza. Un intervalo de confianza de µ
del 95% es tal que: . Decir que un intervalo es un
intervalo de confianza del 95% de µ significa que, cuando se utiliza un
muestreo repetido de la población, el 95% de los intervalos resultantes deberá
contener a µ; debido al azar, el 5% no incluirá la verdadera media poblacional.
El grado de confianza deseado es controlado por el investigador (Estimación).
En general el calculo para el intervalo de confianza de cualquier parámetro se
puede obtener a partir de:
p¿
Mediante es uso de los intervalos de confianza pretendemos tener una idea del
comportamiento del parámetro, pues el estimador, como su nombre lo indica
procura describir como podría ser el parámetro, pero aun así no es
exactamente igual. Vale la pena aclarar que estos intervalos no calculan
probabilidades, nos dan percepción de entre que valores se podría encontrar el
parámetro de la población.
2.5 PRUEBA DE HIPOTESIS
consta de hacer una afirmación acerca del valor que el parámetro de la
población bajo estudio puede tomar. Esta afirmación puede estar basada en
alguna creencia o experiencia pasada que será contrastada con la evidencia
que nosotros obtengamos a través de la información contenida en la muestra.
Esto es a lo que llamamos Prueba de hipótesis.
Una prueba de hipótesis comprende cuatro componentes principales:
La hipótesis nula: denotada como H0 siempre especifica un solo valor
del parámetro de la población si la hipótesis es simple o un conjunto de
valore si es compuesta.
La hipótesis alternativa: denotada como H1 es la que responde nuestra
pregunta, la que se establece con base a la evidencia que tenemos.
Como las conclusiones a las que lleguemos se basan en una muestra, hay
posibilidades de que nos equivoquemos.
Dos decisiones correctas son posibles:
Rechazar H0 cuando es falsa
No rechazar H0 cuando es verdadera
Dos decisiones incorrectas:
Rechazar H0 cuando es verdadera
No rechazar H0 cuando es falsa
Tamaño de los errores al tomar una decisión incorrecta
La probabilidad de cometer error tipo I se conoce como nivel de significancia,
se denota como α y es el tamaño de la región de rechazo (Pruebas de
hipótesis).
Plantearemos diferentes pruebas de hipótesis para los estimadores con el fin
de asegurar el comportamiento de los parámetros con respecto a lo calculado.
2.6 PRUEBA DE BONDAD Y AJUSTE
La prueba compara la distribución de frecuencias observada de una variable
usualmente cualitativa, pero también puede ser cuantitativa, con la distribución
de frecuencias de la misma variable medida en un grupo de referencia.
El propósito de la prueba es averiguar si existen diferencias estadísticamente
significativas entre la distribución observada y la distribución esperada (Prueba
de bondad y ajuste). Es decir, sirve para saber si cierto conjunto de datos sigue
una distribución especifica, y analizar a que clase de distribución se asemeja el
histograma.
Verificaremos si la distribución de los datos tomados es normal haciendo uso
de esta prueba, pues para efectuar varios cálculos suponemos normalidad.
2.7 TABLA DE CONTINGENCIA
Se emplea para registrar y analizar la relación entre dos o mas variables,
habitualmente de naturaleza cualitativa, y así determinar si son dependientes o
independientes.
En esta investigación deseamos saber si el consumo de sustancias
psicoactivas se ve relacionado con la edad y el sexo de las personas de la
muestra.
2.8 REGRESION LINEAL SIMPLE
Es una técnica estadística para estudiar la relación entre variables, así como
predecir su comportamiento. Tiene como objeto estudiar como los cambios en
una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir
una relación funcional entre ambas variables que puede ser establecida por
una expresión lineal, es decir su representación grafica es una línea recta
(Regresión lineal). Esta recta posee una formula muy simple:
Y i=B0+B1 X i
El coeficiente B1 es la pendiente de la recta: el cambio medio que se produce
en Y i por cada unidad de cambio que se produce en X i. El coeficiente B0 es el
punto en el que la recta corta el eje vertical (Análisis de regresión lineal).
En este caso deseamos estudiar la relación de las sustancias psicoactivas con
las muertes que se presentan en cada una de las regiones asociadas, y por
consiguiente poder realizar una predicción.
2.9 REGRESION LINEAL MULTIPLE
Este procedimiento permite utilizar mas de una variable independiente. La
diferencia con la regresión lineal simple es que la ecuación de regresión ya no
define una recta en el plano, sino un hiperplano en un espacio
multidimensional. La ecuación del modelo de regresión es:
Y=β0+β1 X1+β2X2+…+ βnX n+ϵ
De acuerdo con este modelo o ecuación, la variable dependiente (Y) se
interpreta como una combinación lineal de un conjunto de n variables
independientes (Xi), cada una de las cuales va acompañada de un coeficiente (
βn) que indica el peso relativo de esa variable en la ecuación. La ecuación
incluye además una constante (β0) y un componente aleatorio (los residuos:ϵ )
que recoge todo lo que las variables independientes no son capaces de
explicar (Análisis de regresión lineal múltiple).
Por medio de este procedimiento, al igual que con el anterior, se estudiara la
relación de las sustancias presentadas con las muertes presentadas en las
regiones de Colombia tomadas.
3. RESULTADOS
A partir de la muestra general tomada de cierta cantidad de personas
correspondientes a determinadas regiones del país, se encuestaron con el fin
de adquirir datos correspondientes a el consumo de tabaco, alcohol y cocaína.
Estos datos fueron clasificados según el genero, las edades y el dominio
departamental. A cada uno de ellos se aplicaran los métodos mencionados
anteriormente para llevar a cabo el objeto de la investigación.
3.1 ENCUESTAS
Tabaco:
“El tabaquismo en el mundo es, hoy por hoy, el origen de más de cinco
enfermedades mortales que han generado gran impacto en los sistemas de
salud de los países, por los altos costos asociados a los tratamientos; además,
será la causa en el 2025 de la muerte de 10 millones de personas en el
planeta.” (Portafolio 2013)
En primer lugar podemos ver como el 42,6% de las personas encuestadas
afirmaron haber consumido tabaco, siendo significativamente mayor el
consumo de tabaco en hombres con un 56,25% en comparación con las
mujeres que solo representan un 34,15% en el consumo de este tipo de
sustancia. Los porcentajes y cantidades de personas según sexo que
consumen tabaco están mostrados en la tabla número 4.
Es necesario aclarar que al ser las muestras diferentes la suma de los
porcentajes no va a ser 100%, recordemos que el número de hombres
encuestados es diferente al de mujeres y los porcentajes mostrados a
continuación son obtenidos teniendo en cuenta cada uno de esos números
mencionados anteriormente.
Tabla 4. Consumo de tabaco según sexo
SEXO CANTIDAD %
HOMBRE 6305 56,25%
MUJER 6132 34,15%
TOTAL 12437 42,6%
En la Tabla 5 se presentan los resultados para los diferentes grupos de edad
definidos.
Entre los jóvenes de 12 a 17 años de edad, el consumo actual de cigarrillo es
significativamente inferior al consumo de cualquiera de los otros grupos de
edad, y entre estos las diferencias son muy pequeñas.
Tabla 5. Consumo de tabaco según grupo de edades en anos.
INTERVALO DE EDAD CANTIDAD %
12-17anos 254 5,93%
18-24anos 1018 20,85%
25-34anos 1219 19,19%
35-44anos 1000 18,30%
44-65anos 1532 18,72%
TOTAL 5023 17,22%
Al considerar los departamentos, se observa que varios tienen un consumo de
cigarrillo
Similar al de Bogotá, con prevalencias superiores a 20%: Caldas,
Cundinamarca, Nariño y Quindío. De otra parte, hay varios departamentos con
tasas inferiores a 10%: Atlántico, Córdoba, Chocó, Huila, Guajira, Magdalena y
Sucre.
Tabla 6. Consumo de tabaco por dominio departamental.
CONSUMO DE TABACODEPARTAMENTO # DE PERSONAS %
Bogotá D.C 971 22,68%Antioquia 1015 31,46%Orinoquia y Amazonia 129 13,78%San Andrés y Providencia 71 13,38%Atlántico 130 8,53%Bolívar 112 10,63%Boyacá 137 17,59%Caldas 251 22,90%Cauca 82 15,71%Cesar 77 10,46%Córdoba 71 8,71%Cundinamarca 271 22,60%Chocó 63 9,79%
Huila 84 9,06%La Guajira 56 9,54%Magdalena 73 7,98%Meta 125 16,97%Nariño 165 22,92%Norte de Santander 130 12,60%Quindío 162 22,56%Risaralda 143 15,97%Santander 135 10,18%Sucre 46 7,97%Tolima 204 18,98%Valle del Cauca 649 28,14%
TOTAL CONSUMO DE TABACO 5353 18,355%
Sumatoria de x 5353Sumatoria (x-xN )2 1660278
En esta tabla podemos observar una tercera columna la cual representa el
porcentaje de personas que consumen tabaco dado el número de personas
encuestado en cada región. Esto quiero decir que el 22,68% de los bogotanos
encuestados fuma.
Alcohol
“Aunque el consumo de alcohol en Colombia no supera el de Europa o países
como Canadá y Estados Unidos, en Sudamérica es una de las naciones donde
más se ingieren estas bebidas: 6,3 litros de alcohol anuales por persona. De
hecho, en la región sólo es superada por Venezuela, donde el consumo per
cápita es 8,9 litros al año, y Brasil, donde es de 6,9 litros.” (Numa 2012)
En esta sección se presentan los resultados sobre consumo de alcohol. La
Tabla 7 muestra los indicadores de consumo. 85,4% de las personas de la
muestra declaran haber consumido alcohol al menos alguna vez en la vida,
siendo mayor el consumo entre los hombres que entre las mujeres, 90% y 82%
respectivamente. Cabe aclarar que los porcentajes tanto de hombres como
mujeres es hallado teniendo en cuenta el número de hombres y de mujeres que
se encuestaron. En este caso 90,26% de 11209 de los encuestados equivale a
10117 hombres el cual es el número mostrado en la tabla.
Tabla 7. Consumo de alcohol según genero
SEXO CANTIDAD %HOMBRE 10117 90,26%MUJER 14795 82,40%TOTAL 24912 85,4%
Por otro lado contamos con los datos referentes al consumo de alcohol
dependiendo el rango de edades con el que hemos venido trabajando. Como lo
vemos en la tabla numero 8 podemos ver como el consumo de esta sustancia
es significativamente más alta en el rango de 18-24 años y 25-34 años, lo que
quiere decir que en los periodos de estudio universitario y comienzos del
trabajo los ciudadanos alrededor del país tienen a consumir una mayor
cantidad de alcohol. Igualmente es necesario que se entienda que cada uno
de los porcentajes que aparecen en la tabla son dados teniendo en cuenta en
número de personas que hay en cada uno de los rangos propuestos.
Tabla 8. Consumo de alcohol por rango de edades.
INTERVALO DE EDAD CANTIDAD %12-17anos 837 19,55%18-24anos 2257 46,25%25-34anos 2716 42,77%35-44anos 2029 37,12%44-65anos 2228 27,22%
TOTAL 10068 34,52%
Finalmente en la tabla numero 9 mostramos el consumo de alcohol tenido en
cuenta la región del país, e igualmente como en el caso anterior se muestra en
la tercera columna el porcentaje de personas que hacen uso de esta sustancia,
basado en el número de personas encuestadas por región.
Tabla 9. Número de personas que consumen alcohol dominio departamental.
CONSUMO DE ALCOHOLDEPARTAMENTO # DE PERSONAS %
Bogotá 1618 37,79%Antioquia 2403 74,47%Orinoquia y Amazonia 349 37,27%San Andrés y providencia 231 43,48%Atlántico 462 30,24%Bolívar 343 32,61%Boyacá 364 46,79%Caldas 424 38,77%Cauca 150 28,48%Cesar 194 26,20%Córdoba 252 30,88%Cundinamarca 499 41,63%Choco 180 27,83%Huila 240 25,80%La Guajira 150 25,46%Magdalena 306 33,61%Meta 253 34,35%Nariño 186 25,81%Norte de Santander 324 31,27%Quindío 212 29,38%Risaralda 310 34,60%Santander 440 33,30%Sucre 146 25,57%Tolima 340 31,55%Valle del cauca 1361 59,03%
TOTAL CONSUMO ALCOHOL 11734 40,24%
Sumatoria de x 11734Sumatoria (x-xC)2 6013008,652
Cocaína
“El consumo de drogas ha aumentado en Colombia especialmente entre los
universitarios, advirtió el coordinador residente de la ONU en el país, Fabrizio
Hochschild, al instalar un foro ciudadano sobre las drogas ilícitas en el marco
de los diálogos de paz del Gobierno con las Farc.” (Radio, 2013)
Finalmente observaremos los resultados obtenidos con respecto al consumo de
cocaína. Se observa que 2.2% de las personas encuestadas reportaron haber
consumido cocaína, con un consumo cuatro veces más alto entre los hombres
que entre las mujeres. Tabla 10.
Al igual que en el análisis de consumo de tabaco y alcohol es necesario aclarar
que los porcentajes de hombres y mujeres son tomados teniendo en cuenta el
número tanto de hombres como de mujeres que se encuestaron.
Tabla 10. Consumo de cocaína según género.
SEXO CANTIDAD %HOMBRE 466 4,16%MUJER 180 1,00%TOTAL 646 2,2%
En términos de la edad, tal como lo muestra la siguiente tabla, la prevalencia del último año más alta se encuentra en el grupo de 25 a 34 años, con 1.36%, seguida del grupo de 18 a 24 años, con 1.2%.
Tabla 10. Consumo de cocaína por rango de edades
INTERVALO DE EDAD CANTIDAD %12-17anos 33 0,78%18-24anos 59 1,20%25-34anos 86 1,36%35-44anos 19 0,34%44-65anos 4 0,05%
TOTAL 201 0,69%
En la Tabla 11 se muestra el uso de cocaína, en función de los dominios
departamentales. Se observan diferencias notorias entre el consumo, que van
desde 0% a 0.3% en Risaralda, Chocó, Norte de Santander, Huila y
Magdalena, hasta cerca de 2.1% en Medellín, y mayores a 1% en San Andrés
y Providencia, Quindío y Sucre.
Tabla 11. Consumo de cocaína por dominio departamental.
CONSUMO DE COCAINADEPARTAMENTO # DE PERSONAS %
Bogotá D.C 27 0,63%Antioquia 83 2,58%Orinoquia y Amazonia 4 0,46%San Andrés y Providencia 7 1,28%Atlántico 14 0,89%Bolívar 4 0,42%Boyacá 2 0,22%Caldas 9 0,79%Cauca 4 0,80%Cesar 1 0,17%Córdoba 4 0,55%Cundinamarca 3 0,25%Chocó 0 0,05%Huila 1 0,06%La Guajira 2 0,27%Magdalena 1 0,08%Meta 2 0,27%Nariño 3 0,37%Norte de Santander 0 0,03%Quindío 9 1,26%Risaralda 0 0,00%Santander 6 0,48%Sucre 6 1,11%Tolima 6 0,60%Valle del Cauca 20 0,86%
TOTAL CONSUMO DE COCAINA 219 0,75%
Sumatoria de x 219Sumatoria (x-xC)2 6628,004
3.2 GRAFICOS Y DIAGRAMAS
Tabaco
# DE PERSONAS0
200
400
600
800
1000
1200
Del anterior diagrama se puede interpretar que la distribución de los datos es
considerablemente asimétrica por la parte superior, ya que la longitud de los
bigotes es mucho mayor a la inferior. Con respecto a la composición de la caja,
se puede observar que la fracción verde es un poco más grande que la
morada, lo cual indica que el número de personas comprendidas entre el 25% y
el 50% son más dispersas que las comprendidas entre el 50% y el 75%. Es
importante destacar la gran longitud del bigote superior, lo cual nos indica que
hay gran cantidad de valores atípicos, estos son aquellos valores que se
encuentran por encima de un límite calculado de la siguiente manera:
MIN=Q 1−1.5∗RIC
MAX=Q3+1.5∗RICRIC=Q 3−Q 1
De lo cual se obtuvo:
MIN=−55MAX=297RIC=88
Concluyendo que existen valores extremadamente atípicos, lo cual lo hace
sesgada la distribución.
Antioquia
Valle d
el Cau
ca
Caldas
Nariñ
o
Risara
lda
Santan
der
Norte de S
antan
derM
etaHuila
Cesar
San A
ndrés y
Provid
encia
ChocóSu
cre
0
1000
2000
3000
4000
5000
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
# DE PERSONAS% Acum
Se puede observar que el consumo de tabaco se concentra en la región de Antioquia, Bogotá y Valle del Cauca principalmente. Por lo cual se puede determinar que debe haber una mayor acción con respecto a la conciencia del daño que el uso de este psicoactivo puede causar en la salud de los habitantes de estas regiones.
Dado que ya comenzamos a trabajar con los datos que queremos interpretar y
comparar es necesario que estimemos de manera exacta los parámetros que
describen esta muestra, como lo son el promedio, la varianza y la desviación
estándar muestral.
Alcohol
# DE PERSONAS0
500
1000
1500
2000
2500
3000
En este caso la distribución de los datos se comporta similar a la anterior, pero
existe menos dispersión entre los datos compuestos en la caja. Pero aun así lo
hace extremadamente asimétrica en la parte superior, debido a la longitud del
bigote. Habiendo valores extremadamente atípicos:
MIN=−205MAX=841RIC=278
Aunque el valor máximo en este caso es 2403, hay gran concentración de los
datos en valores considerablemente más pequeños, lo cual lo hace muy
atípico.
Antioquia
Valle d
el ca
uca
Atlantic
o
Caldas
Orinoquia
y Am
azonia
Tolima
Risara
lda
Meta
Huila
Quindio
Nariñ
oCau
caSu
cre
0
2000
4000
6000
8000
10000
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
# DE PERSONAS% Acum
Al igual que con el tabaco y, las regiones que presentan mayor consumo de
alcohol son Antioquia, Bogotá y Valle del Cauca. Por lo tanto se reafirma el
hecho de que debe haber un mayor esfuerzo de concientización de las
consecuencias de sustancias psicoactivas en estas zonas.
Cocaína
# DE PERSONAS0
10
20
30
40
50
60
70
80
90
Al igual que en la gráfica anterior se puede observar que existe gran asimetría
de las distribución, pero por el contrario, la fracción morada de la composición
de la caja es un poco más grande que la verde indicando que hay más
dispersión en el número de personas comprendidas entre el 50% y el 75%. Con
respecto a los bigotes, el superior es mucho más grande que el inferior,
señalando la existencia de varios valores atípicos:
MIN=−5.5MAX=14.5RIC=5
Siendo el valor máximo 83, por lo cual hay valores extremadamente atípicos y
haciendo la distribución sesgada.
Antioquia
Valle d
el Cau
ca
Caldas
San A
ndrés y
Provid
encia
Su
cre
Orinoquia
y Am
azonia
Cauca
Cundinam
arca
Boyacá
Meta
Huila
Chocó
Risara
lda
0
50
100
150
200
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
# DE PERSONAS% Acum
como se puede observar la mayor parte del consumo de cocaína se concentra
en las mismas zonas anteriores, es por esto que se puede realizar una
priorización de actividades en contra de este consumo. Al igual se puede
relacionar esta causa a la densidad poblacional de estas áreas con respecto a
las otras tomadas en el estudio.
3.3 CALCULO Y ANALISIS DE LOS ESTIMADORES
Tabaco
Cálculo y análisis de la media muestral.
x=∑i=1
25
x i
n=535325
=214,1194
x=214,1194 personasEl promedio de personas que consumen tabaco en las 25
regiones seleccionadas es de 215 personas aproximadamente.
Cálculo y análisis de la varianza muestral
S2=∑i=1
25
( x−x )2
n−1=1660278
24=69178,258
S2=69179 personas ²
De acuerdo a lo anterior, es posible decir que el promedio de personas que
fuman en 25 regiones del país es de 214 personas con una varianza ajustada
de 69178 personas2.
Cálculo y análisis de la desviación estándar de la muestra
S=√S2
S=√69178
S=263,01 personas
El promedio muestral fue de 215 personas con una variabilidad de 263
personas de acuerdo con los cálculos realizados.
Alcohol:
Cálculo y análisis de la media muestral.
x=∑i=1
25
x i
n=11734
25=469,3759
x=469,3759 personasEl promedio de personas que consumen alcohol en las 25
regiones seleccionadas es de 470 personas aproximadamente.
Cálculo y análisis de la varianza muestral
S2=∑i=1
25
( x−x )2
n−1=6013008
24=25054,0272
S2=250542,0272 personas ²
De acuerdo a lo anterior, es posible decir que el promedio de personas que
beben alcohol en 25 regiones del país es de 470 personas con una varianza
ajustada de 250542 personas2.
Cálculo y análisis de la desviación estándar de la muestra
S=√S2
S=√250542
S=532,619 personas
El promedio muestral fue de 470 personas con una variabilidad de 500
personas de acuerdo con los cálculos realizados.
Cocaína:
Cálculo y análisis de la media muestral.
x=∑i=1
25
x i
n=21925
=8,76
x=8,76 personasEl promedio de personas que consumen cocaína en las 25
regiones seleccionadas es de 9 personas aproximadamente.
Cálculo y análisis de la varianza muestral
S2=∑i=1
25
( x−x )2
n−1=6628,004
24=276,16
S2=276,16 personas ²
De acuerdo a lo anterior, es posible decir que el promedio de personas que
consumen cocaína en 25 regiones del país es de 9 personas con una varianza
ajustada de 278 personas2.
Cálculo y análisis de la desviación estándar de la muestra
S=√S2
S=√278
S=16,71 personas
El promedio muestral fue de 9 personas con una variabilidad de 17 personas
de acuerdo con los cálculos realizados.
3.4 CALCULO DE INTERVALOS DE CONFIANZA
Para la estimación de las personas que consumen sustancias psicoactivas
haremos intervalos de confianza con el fin de entender el comportamiento de
los parámetros poblacionales.
Tabaco
Intervalo de confianza para la media poblacional de consumo de tabaco.
P(x− t(1−α
2 )∗S
√n<μ<x+
t(1−α
2 )∗S
√n )=1−α
P(215−2,06390∗263√25<μ<215+2,06390∗263
√25 )=0,95P (107<μ<324 )=0,95
P (107 personas<μ<324 personas )=0,95
Intervalo de confianza para la varianza poblacional de consumo de tabaco
p( (n−1 ) s2
X21−α2,n−1
≤σ2≤(n−1 ) s2
X 2α2, n−1 )=1−α
p( (25−1 )2632
39,3641≤σ 2≤
(25−1 )2632
12,4012 )=0,95P (42171,8<σ2<133863 )=0,95
P (42171,8 persona s ²<σ2<133863 personas ² )=0,95
Alcohol
Intervalo de confianza para la media poblacional del consumo de alcohol.
P(x− t(1−α
2 )∗S
√n<μ<x+
t(1−α
2 )∗S
√n )=1−α
P(470−2,06390∗533√25<μ<470+ 2,06390∗533
√25 )=0,95P (250<μ<690 )=0,95
P (250 personas<μ<690 personas )=0,95
Intervalo de confianza para la varianza poblacional de consumo de alcohol
p( (n−1 ) s2
X21−α2,n−1
≤σ2≤(n−1 ) s2
X 2α2, n−1 )=1−α
p( (25−1 )5332
39,3641≤σ 2≤
(25−1 )5332
12,4012 )=0,95
P (33099,6<σ2<105065 )=0,95
P (33099,6 personas ²<σ2<105065 personas ² )=0,95
Cocaína
Intervalo de confianza para la media poblacional del consumo de cocaína.
P(x− t(1−α
2 )∗S
√n<μ<x+
t(1−α
2 )∗S
√n )=1−α
P(9−2,06390∗17√25<μ<9+ 2,06390∗17
√25 )=0,95P (2<μ<16 )=0,95
P (2 personas<μ<16 personas )=0,95
Intervalo de confianza para la varianza poblacional de consumo de cocaina
p( (n−1 ) s2
X21−α2,n−1
≤σ2≤(n−1 ) s2
X 2α2, n−1 )=1−α
p( (25−1 )172
39,3641≤σ2≤
(25−1 )172
12,4012 )=0,95P (176,2<σ2<559,301 )=0,95
P (176,2 personas ²<σ2<559,301 personas ² )=0,95
Al elaborar los intervalos para la media, mostrados anteriormente observamos
que los tres dan límites demasiado distantes, lo cual significa que la muestra no
es suficientemente grande para estimar un valor real. Al ver el tamaño de la
muestra en comparación a toda la población colombiana es evidente que esta
no es ni siquiera la cincuentava parte del total.
Esto también se debe a la variabilidad que existe entre los datos lo cual
también va relacionado con el tamaño de la muestra y es causante de la gran
diferencia entre los límites del intervalo.
Por otro lado calculamos los intervalos de confianza pertinentes para las
varianzas de cada uno de los datos tomados con el fin de conocer la
dispersión de los datos en el momento de hablar de la población colombiana
en total y reafirmando la gran diferencia que hay entre los intervalos de la
media.
3.5 PRUEBAS DE HIPOTESIS
A partir del intervalo de confianza realizado para el parametro de la media
poblacional, platearemos la hipotesis de que el valor de la media poblacional
sera igual al extremo superior del intervalo, o alternativamente, que sea menor
a este para corroborar con lo propuesto por el intervalo. Tomando un nivel de
significancia del 5%.
Tabaco
H 0 : μ=324
H a : μ<324
obteniendo como estadístico de prueba:
t p=−2.09
y como estadístico critico:
t c=−1.711
como el estadístico de prueba es menor al estadístico critico, se rechaza la
hipótesis nula, es decir se asume que la media poblacional es menor a 324, lo
cual coincide con el intervalo de confianza.
Alcohol
H 0 : μ=690H a : μ>690
obteniendo como estadístico de prueba
t p=−2.06
y como estadístico critico
t c=1.711
como el estadístico de prueba es menor al estadístico critico, se acepta la
hipótesis nula, es decir se asume que la media poblacional es igual a 690, lo
cual coincide con el intervalo de confianza.
Cocaína
H 0 : μ=16
H a : μ>16
obteniendo como estadístico de prueba
t p=−2.05
y como estadístico critico
t c=1.711
como el estadístico de prueba es menor al estadístico critico, se acepta la
hipótesis nula, es decir se asume que la media poblacional es igual a 16, lo
cual coincide con el intervalo de confianza.
Para el análisis de la varianza se hará una prueba de hipótesis mediante la cual
se verificara el comportamiento del parámetro poblacional tomando como
referencia el extremo superior del intervalo de confianza.
Tabaco
H 0 :σ2=133863H a :σ
2>133863
obteniendo como estadístico de prueba
x p2=12.4
y como estadístico critico
x24,5%2=36.4
como el estadístico de prueba es menor al estadístico critico, se acepta la
hipótesis nula, rechazando la suposición de que pueda ser mayor. Esto
corrobora el intervalo de confianza
Alcohol
H 0 :σ2=105065H a :σ
2>105065
obteniendo como estadístico de prueba
x p2=64.89
y como estadístico critico
x24,5%2=36.4
como el estadístico de prueba es mayor al estadístico critico, se dice que hay
suficiente evidencia para rechazar la hipótesis nula, por lo tanto en este caso la
varianza poblacional se comporta diferente a como lo propone el intervalo de
confianza. Esto lo podemos asociar a la variabilidad que presentan lo datos de
la muestra, ya que la densidad poblacional en las regiones de Colombia es muy
cambiante.
Cocaína
H 0 :σ2=559.301H a :σ
2>559.301
obteniendo como estadístico de prueba
x p2=12.4
y como estadístico critico
x24,5%2=36.4
como el estadístico de prueba es menor al estadístico critico, se acepta la
hipótesis nula, rechazando la suposición de que pueda ser mayor. Esto
corrobora el intervalo de confianza.
3.6 PRUEBA DE BONDAD Y AJUSTE
Tabaco
Como se dijo anteriormente determinaremos si el conjunto de datos del
consumo de sustancias psicoactivas se distribuye de cierta manera. Para este
caso determinaremos si se distribuye normalmente.
Por medio del análisis de bondad y ajuste concluimos que los datos no se
distribuyen normal. Para lograr esta conclusión fue necesario hacer intervalos y
calcular la amplitud para cada uno de ellos.
INTERVALOS Oi Ei ((Oi-Ei)^2)/Eix<46 0 6,608 6,61
46<x<239,8 20 6,78 25,78239,8<x<433,6 2 6,59 3,20433,6<x<627,4 0 3,55 3,55
821,2<x 3 0,27 27,6066,74
Cabe aclarar que son 5 intervalos dado que por medio del calculo de √25=5
aseguramos que son este número de intervalos.
El Oi representa la cantidad de datos que hay en cada intervalo y por otro lado
el Ei representa la probabilidad de los intervalos multiplicados por el tamaño de
la muestra el cual es 25 para nuestro caso. Finalmente la sumatoria de
((Oi-Ei)^2)/Ei es el valor de prueba que utilizaremos para determinar si el
conjunto de datos se distribuye normalmente.
Después de comparar el valor de prueba con el valor critico obtenido por medio
de las tablas de chi-cuadrado podemos ver claramente que la hipótesis nula, la
cual corresponde a que los datos se distribuyen normal, es rechazada.
Alcohol y Cocaína
INTERVALOS Oi Ei((0i-Ei)^2)/Ei
X<146 0 6,85 6,85146<X<597,4 22 7,91 25,0983692597,4<X<1048,8 0 6,72 6,721048,8<x<1500,2 1 2,83 1,18335689X>1500,2 2 0,07 53,2128571
93,0645832
Para el caso de alcohol y cocaína se prosiguió a elaborar el mismo
procedimiento que el de tabaco para al final concluir lo mismo que en la
primera prueba, que el grupo de datos no se distribuye de manera normal. Esto
se puede concluir para cocaína directamente ya que estamos tratando con las
mismas regiones y con la mismo tipo de muestreo.
3.7 TABLAS DE CONTINGENCIA
Por medio de las tablas de contingencia evaluaremos si las variables son dependientes o independientes. Para esto tendremos en cuenta es sexo y los intervalos de edades.
Primero evaluaremos si el consumo de tabaco tiene relación con el sexo y con la edad.
A BCONTINGENCIA TABACO
SI NO TOTALC HOMBRE 6305 4904 11209D MUJER 6132 11823 17955
TOTAL 12437 16727 29164
Al tener la tabla de contingencia podemos hallar los valores de Oi y de Ei para posteriormente calcular el punto de prueba y por medio de las tablas determinar el punto crítico.
Oi Ei ((Oi-Ei)^2)/EiAUC 6305 4780,08274 486,471214AUD 6132 7656,91726 303,6956746BUC 4904 6428,91726 361,7051765BUD 11823 10298,0827 225,8063672
1377,678432
El punto de prueba es 1377,678432 mientras que el crítico 3,841 lo cual quiere decir que las variables son dependientes y tienen relación entre sí.
Ahora evaluaremos la relación de consumo que hay entre las edades y el consumo de tabaco.
A BINTERVALO DE EDAD SI NO TOTAL
C 12-17anos 254 4027 4281D 18-24anos 1018 3863 4881E 25-34anos 1219 5132 6351F 35-44anos 1000 4466 5466
G 44-65anos 1532 6653 8185TOTAL 5023 24141 29164
Oi Ei ((Oi-Ei)^2)/EiAUC 254 737,329002 316,8286114AUD 1018 840,668735 37,40638383AUE 1219 1093,85108 14,31844931AUF 1000 941,424976 3,644510741AUG 1532 1409,7262 10,60552132BUC 4027 3543,671 65,92229465BUD 3863 4040,33126 7,783118595BUE 5132 5257,14892 2,979229149BUF 4466 4524,57502 0,758310652BUG 6653 6775,2738 2,20668297
462,4531126
En este caso sucede lo mismo que con el sexo lo único que cambia es que el crítico es, 16.919, pero aun así la conclusión es la misma. Que el consumo de tabaco depende directamente de la edad.
Al realizar las otras tablas de contingencia se llega al mismo resultado. El consumo de coca y de alcohol depende tanto del género como de la edad, siendo los hombres los que más consumen.
3.8 REGRESION MULTIPLE
Para el desarrollo de la regresión tendremos en cuenta las defunciones por dominio departamental, y analizaremos si dichas muertes se explican con el número de personas que consumen o no sustancias psicoactivas.
Departamento DefuncionesBogota 27698Antioquia 29118Orinoquia y Amazonia 3282San andres y providencia 210Atlantico 8958Bolivar 6086Boyaca 6583Caldas 5904Cauca 5266Cesar 3674Cordoba 4678Cundinamarca 10616Choco 1342Huila 4752La Guajira 1648Magdalena 4307Meta 3908Nariño 5966Norte de Santander 6439Quindio 3200Risaralda 5412Santander 9556Sucre 2577Tolima 7412Valle del cauca 23312
TOTAL 191904
Xbarra 7676,1600VARIANZA 58246135
DESVIACION 7631,915551
Estadísticas de la regresiónCoeficiente de correlación múltiple 0,978806923Coeficiente de determinación R^2 0,958062992R^2 ajustado 0,952071991Error típico 1670,814562Observaciones 25
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los
cuadrados FValor
crítico de F
Regresión 3133928319
2 446427731 159,91701 1,279E-14Residuos 21 58624047,3 2791621,3
Total 24139790723
9
Coeficientes Error típicoEstadístico
tProbabilida
dInferior
95%Superior
95%Inferior 95,0%
Superior 95,0%
Intercepción 481,1420234 547,897701 0,87816032 0,38979377 -658,27362 1620,55767 -658,27362 1620,55767Variable X 1 -178,9216237 57,8337214 -3,0937249 0,00550197 -299,19343 -58,649816 -299,19343 -58,649816
Variable X 2 14,36285838 3,99358525 3,59648222 0,00169764 6,05774319 22,6679736 6,05774319 22,6679736Variable X 3 9,399008714 5,98530844 1,57034659 0,13128054 -3,0481216 21,846139 -3,0481216 21,846139
Por medio de la regresión elaborada con la herramienta de Excel podemos
observar que el R2 ajustado cuenta con un porcentaje lo suficientemente alto
para considerar que el modelo de regresión explica satisfactoriamente los datos
relacionados. Este es el porcentaje de la variabilidad de la variable dependiente
que es explicado por el modelo de regresión, tomando como ecuación:
Y=β0+β1 x1+β2 x2+β3 x3
4. CONCLUSIONES
Al ser una muestra estratificada con tanta variabilidad en los datos se
puede contemplar que los resultados en las pruebas realizadas no son
siempre homogéneos, ya que se tomaron muestras diferentes para cada
una de las regiones, generando una posible interpretación y análisis
contraria para cada una.
Una forma de dar solución a lo anterior es aumentando nuestro N para
de esta manera disminuir nuestro S (desviación estándar) y conseguir
datos con menor variabilidad. Esto no se realizo durante el desarrollo del
trabajo ya que se estaría tratando una población tan grande como lo es
el numero de habitantes en Colombia y el porcentaje de los que
consumen sustancias psicoactivas, haciendo que la estimación requiera
de un estudio mas profundo y elaborado.
Por medio de la prueba de bondad y ajuste pudimos determinar que
estos datos no se distribuyen de manera normal pero puede ser debido
a la misma razón que tratamos anteriormente, por el tamaño de la
muestra y por la dispersión de los datos.
Los datos están concentrados en las capitales, mientras que en las otras
regiones hay muy pocos datos lo cual hace que haya presencia de
muchos datos extremos y por ende se presente la variabilidad que
hemos venido tratando anteriormente.
El consumo de sustancias psicoactivas esta ligado tanto a la edad como
al genero, como se pudo observar en la prueba.
Finalmente podemos concluir que existe un relación muy directa entre el
hecho de que el consumo de sustancias psicoactivas sea un causante
de muerte en las regiones estudiadas de Colombia.
REFERENCIAS
Diagrama de cajas y bigotes,
http://www.estadisticaparatodos.es/taller/graficas/cajas.html, 2008.
Diagrama de Pareto, http://www.slideshare.net/tebanv87/diagrama-de-pareto-
diapositivas, agosto 29 2011.
La varianza muestral,
http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_130_30.h
tml, 2001.
La desviación estándar muestral,
http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_132_32.h
tml, 2001.
Estimación,
http://www.virtual.unal.edu.co/cursos/odontologia/2002890/lecciones/
estimacion/estimacion.htm, 2001.
Pruebas de hipótesis,
http://www.biostat.jhsph.edu/~lcollado/Courses/MEyAdDG/day2/Pruebas%20de
%20Hip%C3%B3tesis.pdf, 2013.
Prueba de bondad y ajuste,
http://www.facmed.unam.mx/deptos/salud/censenanza/planunico/spii/antologia
2012/3.pdf, 2013.
Regresión lineal, http://e-stadistica.bio.ucm.es/mod_regresion/regresion_2.html,
2013.
Análisis de regresión lineal,
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/
materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf, 2013.
Análisis de regresión lineal múltiple, http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin_SPSS.pdf , 2013.
El consumo de tabaco es base de varias afecciones mortales, http://www.portafolio.co/portafolio-plus/el-consumo-tabaco-es-base-varias-afecciones-mortales, 2013.
Colombia, tercero en consumo de alcohol, http://www.elespectador.com/noticias/salud/articulo-390021-colombia-tercero-consumo-de-alcohol, 2012.
El consumo de drogas entre universitarios ha aumentado, http://www.elmundo.com/portal/noticias/gobierno/el_consumo_de_drogas_entre_universitarios_ha_aumentado.php, 2013.