Correlacion y regresion zas

UNIVERSIDAD AUTÓNOMA AGRARIA ANTONIO NARRO

DIVISION DE AGRONOMIA DEPARTAMENTO FORESTAL

REPORTE DE PRÁCTICA:

Uso de estadística parametrica (correlación y regresión) para construir

modelos de volumen

ASIGNATURA: EPIDOMETRIA FOR 415 TITULAR: DR.JORGE MENDEZ GONZALEZ EQUIPO # 3: ESTRADA GARCIA JUAN PATRICIO HERNANDEZ NAZARETH DIAZ PEREZ LIBNIN SAMUEL MARTINEZ SANCHEZ EMILIO IRENE VAZQUEZ DE LA TORRE CARLOS DE JESUS ESPECIALIDAD: ING. FORESTAL CUARTO SEMESTRE GRUPO 1

BUENAVISTA SALTILLO COAHUILA A 12 MARZO DE 2010

INTRODUCCION

En probabilidad y estadística, la correlación indica la fuerza y la dirección de

una relación lineal entre dos variables aleatorias. Se considera que dos

variables cuantitativas están correlacionadas cuando los valores de una de

ellas varían sistemáticamente con respecto a los valores homónimos de la otra:

si tenemos dos variables (A y B) existe correlación si al aumentar los valores de

A lo hacen también los de B y viceversa. La correlación entre dos variables no

implica, por sí misma, ninguna relación de causalidad

Recordemos que para el caso de una variable, la varianza era un parámetro

que nos mostraba cuanta variación existía entre la media un conjunto de datos.

En el mismo tenor, estamos en determinar la dependencia entre dos variables

por lo que una primera propuesta es construir una medida que nos permita en

forma análoga tratar la “variación”.

La regresión estadística o regresión a la media es la tendencia de una

medición extrema a presentarse más cercana a la media en una segunda

medición. La regresión se utiliza para predecir una medida basándonos en el

conocimiento de otra.

En este caso realizaremos el grado de la relación existente entre variables

utilizando modelos matemáticos y representaciones de grafica. Así pues, para

representar la relación entre dos o más variables desarrollaremos ecuaciones

que permitan estimar una variable en función de la otra.

La correlación es el grado de relación entre dos variables; para presentar esta

relación utilizaremos una representación grafica llamada diagrama de

dispersión y finalmente el modelo matemático para estimar el valor de una

variable basándose en el valor de la otra, en lo que llamaremos análisis de

regresión.

http://es.wikipedia.org/wiki/Probabilidad

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/Variable_aleatoria

JUSTIFICACION

El motivo por el cual se realiza el análisis de correlación es determinar cuáles

variables estimadas en nuestras parcelas permanentes tienen una buena

correlación o en otras palabras cuales tienen mejor igualdad o relación entre

ellas para determinar cuáles son las que tienen mejor relación par utilizarlas

para poder estimar otras variables por ejemplo estimar el volumen mediante las

variables altura y diámetro. Por lo que respecta al análisis de regresión es la

continuación del análisis de regresión que nos sirve para poder estimar

cualquier variable con la ayuda de dos variables con mejor correlación

realizando varias o ejecutando varios modelos para determinar cuál es el mejor

se ajuste para ocuparlo en la determinación u estimación de cualquier variable.

OBJETIVOS DE LA PRÁCTICA

Aplicar estadística paramétrica (correlación) para identificar variables

dasométricas útiles para construir modelos de regresión.

Aplicar estadística paramétrica (regresión) para construir modelos de

volumen.

Fomentar el uso de programas estadísticos para analizar datos reales

provenientes de ecosistemas forestales.

METODOLOGÍA Obtuvimos datos de nuestras parcelas y

utilizamos un método estadístico para hacer

correlaciones.

Ya teniendo todos los datos ordenados de

nuestra parcela en Excel, revisamos el video

para observar el procedimiento que se seguía

y así poder realizar las correlaciones.

Después colocamos los comandos en el

editor, donde el comando input seguido de el

colocamos todas las variables y que se

utilizarían, dando el comando de cards para

introducir todos los valores de cada variable,

todo esto al final con “punto y coma” hasta que apareciera un color amar

En este caso obtuvimos los datos de todas las

variable, es decir de todas las subparcelas de

manera general. Luego le presionamos en la

pestaña del mismo programa para eliminar los

valores que tenia log y output.

Posteriormente regresamos al editor para introducir

los otros comandos o cambiar para tener resultados

por subparcelas individuales.

Luego introducimos los comandos para que nos ordenara los datos y al tener

que darle clic en el ejecutor no nos iba a dar ninguno resultado si no que solo

ordenaba.

Por ultimo obtivimos las graficas por subparcelas.

Resultados

Mediante los analisis de correlacion realizados con los datos de las parcelas

permanentes obtuvimos las siguientes graficas, mismas que interpretan que

variables de subparcela tienen mejor correlacion entre ellas se encontraron:

.

Como se muestra en el

grafico de la correlación

entre el DAP y el VOL son

las que mostraron mayor

correlación con una r de

0.9606 por tanto podemos

decir que esta es la mejor

correlación que se presento

en el sitio 4.

Conclusiones.

Con la ayuda del software sas 9.1 obtuvimos 2 subparcelas que presentaban

una correlacion positiva, siendo estas la subparcela 4 con las variables

diametro y volumen con una r de 0.9606, la otra parcela fue: subparcela 12 con

las variables diametro a la altura de pecho con volumen ya que presento un

coeficiente de correlacion alto mismo que fue de 0.9227. por tanto según el

coeficiente de correlacion entre mas alto sea sin rebasar el 1 significa que la

correlacion de estas variables es buena.

Ademas pudimos observar que algunas de nuestras parcelas presentaban

correlacion negativa por tanto se descartan las variables para continuar con el

proceso llamado regresion ya que no si no tienen relacion no sirven para

estimar otras variables.

REGRESIÓN LINEAL Y NO LINEAL

Metodología segunda parte

Para comenzar con la realización de estos análisis comenzamos por abriendo

el programa de zas versión 9.1 castellano para lo cual al comenzar a trabajar le

cambiamos la fecha a la

computadora a al 30 de enero.

Una vez ejecutado el programa zas

ya en el editor comenzamos a

escribir unos comandos o texto que

se introducen en el zas para que

pueda correr los modelos.

Como se muestra en la figura se

introduce los datos de volumen, el

nombre de las variables y después

los valores de cada variable estas

siempre separándolas con un punto

y coma para diferenciarlos.

Después le procedíamos a realizar

una regresión no lilial por el método

de derivadas, se le anexaban

parámetros con valore cualquiera,

se sustituía el modelo y por ultimo

correr.

Este procedimiento se realizaba para solo para modelos no lineales si después

en salida verificamos si el modelo fue correcto mediante la nota pudimos ver si

nuestro modelo fue corrido o ejecutado correctamente.

Por lo que respecta a los modelos no lineales a continuación se menciona el

procedimiento.

De la misma forma que en los lineales introducir el comando con lo que trabaja

el zas con la variable a estimar: data volumen; input; cards; después de

introducir el nombre de las variables y sus valores respectivos indicamos que

se proceda a realizar una regresión lineal.

Como se indica en la figura se le indica al programa que proceda a realizar una

regresión lineal de los datos de volumen y después se anexa la el modelo y run

o correr para que el software comience a buscar los parámetros.

Y estos fueron los procedimientos por los cuales se corrieron modelos lineales

y no lineales para encontrar los valores del parámetro b0, b1, b2 según tengan

los modelos para después sustituirlos en Excel y así poder estimar o predecir

los valores de volumen ya que en este caso es la variable a estimar.

RESULTADOS Y DISCUSIÓN.

Ajuste de los modelos pudimos obtener las siguientes graficas las cuales

interpretan cada modelo y con su grafica de residuales cada

Grafico modelo 1

Según la grafica de los residuales podemos observar que los datos presentan

homocedasticidad ya que a medida de qué los diámetros aumentan el volumen

igual aumenta de una forma normal tomando en cuenta 3 valores que se

pueden ver que están fuera del rango de los datos por lo que nos lleva a

observar por que presentan esta forma y es porque tiene un mayor volumen

que la mayoría.

0.000

0.500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

0 10 20 30 40 50

VOLUMEN

VOLM1

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 10 20 30 40 50

RESIDUALES

RESIDUALES

Modelo dos con sus residuales.

Modelo 4 con sus residuales

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 10000 20000 30000 40000 50000 60000

VOLUMEN

VOLM2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 10000 20000 30000 40000 50000 60000

RESIDUALES

RESIDUALES

-0.5

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 10 20 30 40 50

VOLM4

VOLUMEN

Modelo 5

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0.000 1.000 2.000 3.000 4.000 5.000

RESIDUAL

RESIDUAL

-0.500

0.000

0.500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

- 10.00 20.00 30.00 40.00 50.00

VOLUMEN

VOLM5

-1.5000

-1.0000

-0.5000

0.0000

0.5000

1.0000

1.5000

2.0000

2.5000

0 10 20 30 40

RESIDUALES

RESIDUALES

-0.500

0.000

0.500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

0 10 20 30 40 50

VOL

VOLM6

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 500 1000 1500 2000 2500

RESIDUALES

RESIDUALES

-0.500

0.000

0.500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

0 20000 40000 60000

VOLUMEN

VOLM7

Modelo 8

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 10000 20000 30000 40000 50000 60000

RESIDUOS

RESIDUOS

0.000

0.500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

0 1 2 3 4 5

VOLUMEN

VOLM8

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 1 2 3 4 5

RESIDUOS

RESIDUOS

Modelo 9

Modelo 10

0.000

0.500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

0 10 20 30 40 50

VOLUMEN

VOLM9

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 10 20 30 40 50

RECIDUALES

RECIDUALES

0.000

1.000

2.000

3.000

4.000

5.000

6.000

7.000

8.000

0 10 20 30 40 50

VOLUMEN

VOLM10

Modelo11

-7

-6

-5

-4

-3

-2

-1

0

1

2

0 10 20 30 40 50

RESIDUOS

RESIDUOS

0.000

0.500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

0.00 10000.0020000.0030000.0040000.0050000.0060000.00

VOLUMEN

VOLM11

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

0.00 10000.0020000.0030000.0040000.0050000.0060000.00

RESIDUALES

RESIDUALES

ESTADISTICOS DE LOS MODELOS

MOD C.M.E f-valor error M VOL

CV R2 AJU

Pr > F b0 b1 b2 b3 V-VM

1 0.261 42.88 0.511 0.590 86.56 <.0001 0.0002 2.5034 -0.55

2 0.275 42.43 0.524 0.586 89.46 0.588 <.0001 0.0279 0.0000 0.00

4 0.268 22.57 0.518 0.586 88.39 0.598 <.0001 -0.8120 0.0601 0.01

5 0.275 14.77 0.525 0.586 89.54 0.588 <.0001 0.0577 0.0014 - 0.02463 9.72E-07

1.50

6 0.260 46.39 0.510 0.586 87.04 0.610 <.0001 -0.1753 0.0012 -0.01

7 0.277 21.39 0.527 0.586 89.88 0.584 <.0001 -0.3104 0.0230 0.00003

0.00

8 0.261 42.88 0.511 0.586 87.15 <.0001 -8.6994 2.5034 -0.52

9 0.282 38.6 0.531 0.590 89.94 <.0001 -2.5051 0.0742 -1.21

10 0.774 92.69 0.880 0.590 149.10 <.0001 -5.1467 0.1517 -6.95

11 0.681 109.25 0.825 0.586 140.78 <.0001 -12.3915 1.2328 1.59

-1.000

0.000

1.000

2.000

3.000

4.000

5.000

6.000

7.000

8.000

0 10 20 30 40 50

volu

me

n

Diametro

MODELOS ESTIMADOS

VOLM1

VOLM2

VOLM4

VOLM5

VOLM6

VOLM7

VOLM8

VOLM9

VOLM10

VOLM11

CONCLUCIONES

Considerando los estadísticos y con una escala del 1 al 10 se calificaron los

modelos.

Donde el 1 representaba el menor cv, error y el valor más alto de la r cuadrada

ajustada y r normal, utilizando estas características se sumaron los resultados

pudiendo observar que el modelo 1 se ajustaba mejor para este caso con los

datos que seleccionamos ya que además se observa que los modelos 9 y 10

presentaban mayor r2 y r2 ajustada pudieran ser ajustados pero presentaban

mayor variabilidad y mayor error por tanto no podemos utilizarlos.

BIBLIOGRAFÍA

Food and Agriculture Organization of the United Nations (1999). A statistical

manual for forestry research. Food and Agriculture Organization of the United

Nations. Regional Office for Asia and the Pacific. Bangkok. 234 p.

Husch B, C I Millar, T W Beers (1972). Forest mensuration. Jhon Wiley & Sons.

USA. 410 p.

Loetsch, F., Zohrer F., Haller K.E. (1973). Forest inventory. Munich, DE, BLV

Verlagsgesellschaft. 469 p.

Nájera L. J. A. (1999). Ecuaciones para estimar biomasa, Volumen y

Crecimiento en Biomasa y Captura de Carbono en diez especies típicas del

R R2 R2 AJU

MOD CV E SM R R2AJ R2 R SM

0.868 0.754 1 1 2 3 3 3 3 15

0.776 0.603 0.588 2 5 4 9 10 3 9 40

0.791 0.626 0.598 3 4 3 7 7 2 6 29

0.794 0.630 0.588 4 6 5 11 6 3 5 36

0.790 0.624 0.610 5 2 1 3 8 1 7 22

0.783 0.613 0.584 6 7 6 9 4 8 34

0.868 0.753 7 3 2 4 4 3 16

0.857 0.734 8 8 7 5 5 4 29

0.876 0.768 9 10 9 2 2 2 25

0.892 0.796 10 9 8 1 1 1 20

Matorral Espinoso Tamaulipeco del noreste de México. Tesis de maestría.

Facultad de ciencias forestales, UANL. N.L. México. 93 p.

Steel, R.G.D. and Torrie, J.H. (1988). Bioestadística: principios y

procedimientos. México, McGraw-Hill. 613 p.

Klepac, D. (1976). Crecimiento e incremento de árboles y masas forestales.

UACh. México. 356 p. Clave: SD 555, K53, C3, 1976.

TESIS RECIENTES

Domingo López López (2009). Crecimiento de Picea mexicana Martínez en las

Poblaciones naturales de México. Tesis de licenciatura. Universidad Autónoma

agraria Antonio Narro.

Correlacion y regresion zas

Education

Transcript of Correlacion y regresion zas