UNIVERSIDAD NACIONAL DE COLOMBIA TRABAJO FINAL:...
Transcript of UNIVERSIDAD NACIONAL DE COLOMBIA TRABAJO FINAL:...
UNIVERSIDAD NACIONAL DE COLOMBIA TRABAJO FINAL: METODOS
ESTADISTICOS USO DE OGM DE MAIZ EN EL AÑO 2012 SEMESTRE A Y B
EN COLOMBIA
Diego Chiguachi. I.A. Est Msc Ciencias Agrarias. Universidad Nacional de Colombia.
Teniendo como insumo las conclusiones del análisis realizado en el taller 11 (Anexo 1) de
la evolución de la siembras de maíz OGM en Colombia durante 2012 se evidencia la
necesidad de analizar a profundidad la importancia del tipo de tecnología en relación
con el área de siembra de maíz OGM durante 2012.
1 Las principales conclusiones fueron:
En las clases 1, 2 y 3 se concentra el 99% de los datos, es decir, las siembras de
maíz OGM en Colombia en 2012 corresponden a siembras de menos de 91
hectáreas, que es el límite superior de la clase 3.
Se puede observar como los valores de moda, mediana y promedio se ubican en la
clase 1, clase en la que se ubica el 95,5% de los datos.
El coeficiente de asimetría es positivo lo que indica que la distribución de los datos
es asimétrica positiva y el coeficiente de curtosis es positivo y mayor a cero lo que
indica que la distribución de los datos es leptocurtica y existe una alta
concentración de los datos, en la región central de los datos.
Se realizan test de normalidad, de homogeneidad de varianzas entre los totales de área
sembrada por tipo de tecnología. Para determinar la dependencia entre el tipo de
tecnología y su adopción por los agricultores se realiza un prueba de Chi-cuadrado.
En el anexo 2 se muestra la programación utilizada.
Homogeneidad de varianzas
Inicialmente se obtienen los estadísticos preliminares como moda, mediana, promedio,
desviación estándar, varianza, coeficiente de variación y curtosis. Estos valores corroboran
las conclusiones finales del taller 1. Como se observa el coeficiente de variación es muy
alto (523) lo que indica alta variabilidad en los datos.
Para los test de normalidad la hipótesis nula es que los datos se distribuyen
normalmente y la hipótesis alterna es que los datos no se distribuyen normalmente. Como
se observa los valores de alfa obtenidos por medio de los test de Kolgomorov-Smirnov,
Cramer-Von mises y Anderson Darling son menores a el alfa fijado por el investigador que
es de 0.05; por lo anterior es posible afirmar que los datos no se distribuyen normalmente
con un grado de significancia de 0.05%.
Una vez corroborado que los datos no se distribuyen normalmente, se ha procedido a
realizar los test de homogeneidad de varianza, tomando como hipótesis nula que el área
de siembra de los diferentes maíces OGM es igual (homogeneidad de varianzas) y
como hipótesis alterna que el área de siembra de los diferentes maíces OGM es
diferente (heterogeneidad de varianzas) con un alfa de 0.05%.
Como se observa en la imagen, la prueba de homogeneidad de varianzas de Tukey muestra
que el valor estimado (0.28) es mayor al alfa fijado por el investigador, por lo que no
rechazamos la hipótesis nula es decir que la existe homogeneidad de varianzas, es posible
afirmar que las diferentes variedades de maíz OGM sembradas en Colombia durante 2012,
no presentan diferencias estadísticamente significativas con un alfa del 0.05%.
Utilizando el programa estadístico Statistix 9, tomando el tipo de tecnología como un
tratamiento, utilizando el diseño de bloques completamente al azar con un alfa fijado de
0.05, se encuentra que el valor estimado (0.16) es superior el alfa fijado por lo que no
rechazamos la hipótesis nula, es decir no hay diferencias en el número de hectáreas
sembradas en las diferentes tipos de maíz OGM.
Utilizando el mismo programa y diseño, el test de Barlett presenta un alfa estimado
(0.0001) menor al alfa fijado (0.05), es decir rechazamos la hipótesis nula, por lo cual
podemos afirmar con un grado de significancia del 0.05% que el tipo de tecnología que
posea un maíz OGM influye en el número de hectáreas sembradas.
Chi-cuadrado.
La hipótesis nula planteada es que existe independencia entre el tipo de tecnología de ADN
recombinante y el grado de adopción por los agricultores expresado en número de hectáreas
sembradas, la hipótesis alterna es que existe dependencia entre estos dos factores.
Inicialmente se genera una tabla de contingencia para los datos, como se muestra a
continuación:
Tabla de contingencia para prueba de Chi-cuadrado de dependencia entre tipo de tecnología y adopción de
maíces OGM
Como se observa, el maíz YGVPROX2 presenta el mayor porcentaje de distribución de
siembra (32 %) seguido de el maíz Herculex (29.6%) y en tercer lugar el maíz HXXRR
(21.85%). Estos datos preliminares permiten esperar rechazar la hipótesis nula planteada
para la prueba de Chi-cuadrado, es decir que han dependencia entre área de siembra y tipo
de tecnología de maíz OGM.
En la prueba de dependencia de Chi-cuadrado se observa que el alfa estimado es menor al
alfa fijado (0.05) por lo que rechazamos la hipótesis nula, es decir es posible afirmar, que
existe evidencia estadísticamente representativa con un alfa de 0.05 que existe dependencia
entre área de siembra y tipo de tecnología de maíz OGM.
2 Ofrece resistencia a barrenador del tallo (Diatrea sp), trozado (Spodoptera frugiperda), Isoca de la espiga (Helicoverpa sp) y Diabrotica sp
Modelo de regresión lineal
Para los datos que se muestran en la tabla 1 se realizo el procedimiento en Excel para
obtener el coeficiente de correlación y obtener que modelo de regresión que explica mejor
la respuesta en rendimiento de una variedad de ajo sembrada a diferentes densidades de
plantas por hectárea.
Tabla 1. Comportamiento de una variedad de ajo en diferentes densidades de siembra
Densidades Rendimiento
400 10.9
600 12.4
800 12.8
1000 13.02
1200 14.27
400 10.63
600 12.8
800 14.5
1000 15.2
1200 16.4
400 11.15
600 14
800 12.22
1000 20.22
1200 18.6
La tabla de datos utilizada en el cálculo del modelo de regresión lineal simple fue la
siguiente:
Densidades Rendimient
o Exiyi xi2 yi2 media xi media yi xi -media yi-media
400 10.9 4360 160000 118.81 745.5 13.7 -345.5 -2.8
600 12.4 7440 360000 153.76 745.5 13.7 -145.5 -1.3
800 12.8 10240 640000 163.84 745.5 13.7 54.5 -0.9
1000 13.02 13020 1000000 169.5204 745.5 13.7 254.5 -0.68
1200 14.27 17124 1440000 203.6329 745.5 13.7 454.5 0.57
400 10.63 4252 160000 112.9969 745.5 13.7 -345.5 -3.07
600 12.8 7680 360000 163.84 745.5 13.7 -145.5 -0.9
800 14.5 11600 640000 210.25 745.5 13.7 54.5 0.8
1000 15.2 15200 1000000 231.04 745.5 13.7 254.5 1.5
1200 16.4 19680 1440000 268.96 745.5 13.7 454.5 2.7
400 11.15 4460 160000 124.3225 745.5 13.7 -345.5 -2.55
600 14 8400 360000 196 745.5 13.7 -145.5 0.3
800 12.22 9776 640000 149.3284 745.5 13.7 54.5 -1.48
1000 20.22 20220 1000000 408.8484 745.5 13.7 254.5 6.52
1200 18.6 22320 1440000 345.96 745.5 13.7 454.5 4.9
12000 209.11 175772 10800000 3021.1095 817.5 3.61
745.5838546 13.7081022 668306.25
El β1 estimado es igual a 0.00441 =((817.5*3.61)/668306.25)
El βo estimado es igual a 10.41= (13.7-(745.58*0.00441)
El modelo de regresión lineal hallado es igual a Y=10.41+0.00441X
Hallando el coeficiente de correlación en Excel, el modelo de regresión lineal presenta un
coeficiente de correlación de 0.566 y el modelo de regresión con línea de tendencia
logarítmica presenta un coeficiente de correlación de 0.5612. Bajo esta mirada, y teniendo
presente que un modelo explica o modela de una mejor manera el comportamiento de los
datos en tanto que su coeficiente de correlación se acerque a uno, es posible afirmar que
ambos modelos tanto el lineal como el logarítmico explican adecuadamente el
comportamiento de los datos.
Grafica 1. Grafica de dispersión, línea de tendencia y coeficiente de correlación en un modelo de
regresión lineal.
Grafica 1. Grafica de dispersión, línea de tendencia logarítmica y coeficiente de correlación en un
modelo de regresión.
La prueba de hipotesis a traves de regresion lineal no pude realizarla porque el cuadro
resumen me arrojaba valores negativos.
fv GL S.C. C.M Fc
modelo 1 38.3333204 38.3333204 -
7.27364344
error 13 -
68.5121796 -
5.27016766
total 14 106.8455
Anexo 1
A. Análisis de datos no agrupados.
Las variables mostradas a continuación hacen parte de información recolectada para
observar como es la adopción y uso de OGM en cultivos de maíz en el país los datos acá
mostrados corresponden al año 2012.
1. VARIABLES CUALITATIVAS
1.1 Tipo de tecnología utilizada:
- Tabla de frecuencia
xi ni Ni fi Fi
YGVTPRO X RR 1108 1108 0,62 0,62
YG X RR 420 1528 0,23 0,85
RR 262 1790 0,15 1,00
1790
- Gráfico de pastel
Con la tabla de frecuencias y el gráfico de pastel podemos observar que la
tecnología de OGM de mayor distribución dentro de los productores a nivel nación
es la YGVTPRO X RR con un 62% de adopción dentro de los agricultores
encuestados. Esto podría reflejar unas mejores características y respuesta de este
material.
1.2 Departamento donde se encuentran ubicados los productores y usuarios de
estas tecnologías
- Tabla de frecuencias
xi ni Ni fi Fi
Huila 64 64 0,04 0,04
Cauca 19 83 0,01 0,05
Caldas 14 97 0,008 0,05
Valle 121 218 0,068 0,12
Tolima 412 630 0,230 0,35
Risaralda 14 644 0,008 0,36
Meta 43 687 0,024 0,38
Cundinamarca 9 696 0,005 0,39
Córdoba 1035 1731 0,578 0,97
Antioquia 2 1733 0,001 0,97
Norte de
Santander 1 1734 0,001 0,97
Quindío 5 1739 0,003 0,97
Sucre 9 1748 0,005 0,98
Cesar 27 1775 0,015 0,99
Vichada 5 1780 0,003 0,99
Santander 1 1781 0,001 1,00
Bolívar 2 1783 0,001 1,00
Casanare 7 1790 0,004 1,00
- Gráfico de pastel
El grafico de pastel nos permite identificar los departamentos con mayor producción de
maíz con la tecnología OMG, observando que los departamentos de Cordoba, meta y valle
son los que presentan una mayor adopción de esta tecnología.
-
2. Variables cuantitativas
2.1 Hectáreas cultivadas con maíz OMG
- Tabla de frecuencias
Xi n N f F
0-181 1782 1782 0,996 0,996
181-362 6 1788 0,003 0,999
362-543 2 1790 0,001 1,000
Dentro de los datos se presenta una alta variación puesto que la gran mayoría de los
productores presentan o poseen áreas de producción menores a 5 has, lo cual dificulta la
elaboración de la tabla de frecuencias. Aplicando la formula se deberían manejar doce
intervalos pero con estos datos nos quedarían rangos o intervalos con una frecuencia de
cero, por esta razón aplicamos tres intervalos para la elaboración de la tabla de frecuencias.
*orden de las productores las primeros 1107 corresponde a tecnología YGVTPRO X RR,
los 420 siguientes corresponden a la tecnología YG X RR y los 263 finales corresponden a
la tecnología RR.
La grafica líneal nos permite observar la gran variabilidad que existe en cuanto al número
de hectáreas con tecnología OMG que poseen los productores en el país. También es claro
que la mayoría de productores que tienen estos cultivos OMG poseen menos de 50 has.
Hectáreas por tecnología
De igual manera podemos ver que la tecnología YGVTPRO X RR tiene el mayor área
cultivada que corresponde con la gráfica de número de productores.
- Métodos numéricos de presentación de datos
Podemos encontrar que el número de has promedio por ha corresponde a 11,85; sin
embargo debemos tener claro que los datos presentan una alta variabilidad con datos muy
extremos lo que se refleja en su coeficiente de variación se descarta que existan errores en
la toma de datos. El coeficiente de asimetría es positivo lo que indica que la distribución de
los datos es asimétrica positiva y esto podemos observarlo claramente en el gráfico y el
coeficiente de curtosis es positivo y mayor a cero lo que indica que la distribución de los
datos es leptocurtica y existe una alta concentración de los datos, en la región central de
los datos.
2.2 Longitud de la mazorca del material parental (línea macho) de un nuevo hibrido de
maíz para la altillanura. Con los datos anteriores no contábamos con otra variable
cuantitativa y recurrimos a otros datos también en maíz.
Media 11,85
Mediana 5,00
Moda 3,00
Varianza 703,86
Desviación estándar 26,53
Coeficiente de variación 223,92
Curtosis 132,93
Coeficiente de asimetría 9,33
Mediana 15,55
Moda 16
En el grafico podemos observar que la longitud de la mazorca de este material esta
alrededor de los 12 y 20 cm con un promedio de 15,5 cm, el comportamiento de esta
característica es estable con un coeficiente de variación del 12% (es un rango óptimo de
variación). La curtosis es de 0,12 y el coeficiente de asimetría es de 0,06; que en
estadística se suele aproximar a 0 para efectos de la curtosis y la simetría encontrando de
esta manera que los datos son simétricos y son mesocurticos con una concentración normal
de los datos. Se dice que distribuciones con estas características se le denomina curva
normal. La estabilidad de la variable medida se debe principalmente a la alta o baja
dependencia que esta tenga del ambiente, en este caso podríamos decir que esta
característica se comporta estable y podría ser un buen indicador para identificar y
caracterizar el material.
Análisis de datos agrupados.
Obtención de datos primarios para clasificar la distribución de aéreas de maíz OGM en
Colombia sembradas en 2012.
Sturges 11,807
Rango 540,960
Amplitud del
intervalo 45,818
Rango sintético 540,960
D 0,000
Lo 0,040
Tabla. Clasificación por rangos de de aéreas de maíz OGM en Colombia sembradas en
2012.
Promedio 15,52
Varianza 3,51
Coeficiente de
variacion 0,12
Desviación
estándar 1,87
Curtosis 0,12
Coeficiente de
simetría 0,06
NUMERO Límite
inferior
límite
superior ni Ni fi Fi
1,000 0,040 45,858 1710,000 1710,000 95,531 95,531
2,000 45,858 91,675 47,000 1757,000 2,626 98,156
3,000 91,675 137,493 23,000 1780,000 1,285 99,441
4,000 137,493 183,311 2,000 1782,000 0,112 99,553
5,000 183,311 229,129 2,000 1784,000 0,112 99,665
6,000 229,129 274,946 1,000 1785,000 0,056 99,721
7,000 274,946 320,764 2,000 1787,000 0,112 99,832
8,000 320,764 366,582 0,000 1787,000 0,000 99,832
9,000 366,582 412,400 1,000 1788,000 0,056 99,888
10,000 412,400 458,217 0,000 1788,000 0,000 99,888
11,000 458,217 504,035 1,000 1789,000 0,056 99,944
Como se observa en la clase 1, 2 y 3 se concentra el 99% de los datos, es decir, las
siembras de maíz OGM en Colombia en 2012 corresponden a siembras de menos de
91 hectáreas, que es el límite superior de la clase 3.
Se puede observar como los valores de moda, mediana y promedio se ubican en la
clase 1, clase en la que se ubica el 95,5% de los datos.
Visulamente esta informacion puede presentarse de manera interactiva de manera
general , de la siguiente manera3, cada punto muestra nodos que suma la cercania de
puntos georeferenciados de maiz OGM, el peso porcentual de los puntos cercanos y
3 Disponible en el siguiente link http://www.arcgis.com/apps/SimpleMapViewer/index.html?appid=60bc9530def34367ac36c80bc9a94f80
lo muesta visualmente, siendo la siembra de 84 hectareas mas grande que la siembra
de 21 hectareas.
Cabe recordar que no existe consenso sobre el real avance de los cultivos de maíz OGM en
Colombia. El ICA en las anteriores respuestas4 únicamente reporta de manera
georeferenciada y detallada el 47% de las siembras de OGM que supuestamente existen,
para ello existen dos posibles causas:
Se afirma que hay más maíz OGM de lo que realmente hay.
O existen más siembras de las que el ICA puede demostrar se les hace el
debido seguimiento.
Departamento maíces OGM
área
reportada
2010
área
reportada
2011
área
reportada
2012
Diferencia
(incremento?) año
anterior
Antioquia 274 274
Bolivar 45 45
Boyacá RR, YGRR 0 2,1 0 -2,1
Cundinamarca
RR, YGRR,
B2RF,
RRFlex Y
BGxRR
413 236 152 -84
Caldas RR, YGRR 85,35 22 217 195
Casanare YGRR 401,75 4,5 666 661,5
4 Respuesta a derecho de petición sobre siembras de maíz transgénico en 2009 y 2010.
Cauca
RR, YG,
TGRR,
YGTVRRpro
222,29 493 127 -366
Cordoba
RR, YG,
TGRR,
YGTVRRpro
9339,6 4902 17214 12312
Huila
RR, YG,
TGRR,
YGTVRRpro
933,53 585 821 236
Meta
RR, YG,
TGRR,
YGTVRRpro
6167,68 4043 10087 6044
Norte Santander RR 53,8 38 8 -30
Quindio RR, YGRR 380,6 81,6 70 -11,6
Risaralda RR, YGRR 53,8 560 506,2
Tolima
B2RF, BG X
RR, RR,
RRFLEX,
YG, YGRR,
YGTVRRpro,
YGVPRRpro
6600,31 10930,6 11201 270,4
Valle del Cauca
RR, YG,
TGRR,
YGTVRRpro
10658,47 4769,4 12964 8194,6
TOTAL 38896,05 26161 54406 28245
Anexo 2
OPTIONS ps=60 ls=80 nodate;
data OGM;
input cultivo$ tecnologia$ area;
datalines;PROC FREQ;
WEIGHT Area;
TABLES Area*Tecnologia/CHISQ;
RUN;
OPTIONS PS=60 ls=80 nodate;
data uno;
input individuo CA CD;
datalines;
PROC TTEST;
paired CD * CA;
RUN;
PROC GLM;
CLASS tecnologia;
MODEL area=tecnologia/P;
MEANS area/TUKEY LINES;
OUTPUT OUT=NORMAL R=Rarea;
RUN;
PROC GLM;
CLASS tecnologia;
MODEL area=tecnologia/P;
MEANS area/HOVTEST=LEVNE;
OUTPUT OUT=NORMAL R=Rarea;
RUN;