calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se...

35
MODELOS PREDICTIVOS PARA LA ESTIMACIÓN DE LA RADIACIÓN SOLAR Msc. Jesús Suniaga 1 . Ing. José Barrios 2 . Ing. Luis Chirinos 3 Universidad Nacional Experimental Politécnica de la Fuerza Armada. Núcleo Nueva Esparta. Dirección de Extensión. Unidad de Extensión Académica. Juan Griego. Venezuela. 1 Email: [email protected] 2 Email: [email protected] 3 Email: [email protected] RESUMEN El objetivo de la presente investigación consistió en obtener modelos predictivos para la estimación de la radiación solar en cuatro estaciones meteorológicas de Colombia “El Rosario”. “Santa Bárbara”. “La Trinidad” y “Maracay” representativas de las Zonas: Norte. Cordillera Oriental. Sur y Zona central Andina tomando como datos la información meteorológica presentada por Orlando Guzmán Martínez. José Vicente Baldión Rincón y otros (2013).

Transcript of calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se...

Page 1: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

MODELOS PREDICTIVOS PARA LA ESTIMACIÓN DE

LA RADIACIÓN SOLAR

Msc. Jesús Suniaga1. Ing. José Barrios2. Ing. Luis Chirinos3

Universidad Nacional Experimental Politécnica de la Fuerza Armada. Núcleo Nueva

Esparta. Dirección de Extensión. Unidad de Extensión Académica. Juan Griego.

Venezuela.

1Email: [email protected]

2Email: [email protected]

3Email: [email protected]

RESUMEN

El objetivo de la presente investigación consistió en obtener modelos predictivos

para la estimación de la radiación solar en cuatro estaciones meteorológicas de Colombia

“El Rosario”. “Santa Bárbara”. “La Trinidad” y “Maracay” representativas de las Zonas:

Norte. Cordillera Oriental. Sur y Zona central Andina  tomando como datos la información

meteorológica presentada por Orlando Guzmán Martínez. José Vicente Baldión Rincón y

otros (2013).

En este trabajo se usó la metodología de Aprendizaje automático (Machine learning)

para ajustar cinco modelos de Regresión a la data. Los modelos considerados fueron: lineal

simple, exponencial, potencial, cuadrático y cúbico tomando como variable independiente

el brillo solar y como variable dependiente la radiación solar.

Los principales resultados fueron la obtención de cuatro modelos de regresión

diferentes, uno para cada estación meteorológica lo que permitirá predecir la Radiación

Solar (y) para nuevos valores del Brillo Solar (x). Para la estación de El Rosario, se obtuvo

Page 2: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

el modelo cúbico y=76.43−49.67 x+12.74 x2−1.04 x3 (R2=82.67 %). Para la Estación de

Santa- Bárbara el modelo obtenido fue el modelo cúbico:

y=76.43−49.67 x+12.74 x2−1.04 x3 con un coeficiente R2=94.7 %. Para la Estación La-

Trinidad. se obtuvo el modelo exponencial: y=e2.306∗e0.094 x con un R2=97.30 % y para la

Estación de Maracay el modelo fue cúbico dado por la ecuación

y=−28.88+25.88 x±5.17 x2+0.35 x3. ( R2=96.64 % ) .

Palabras claves: Radiación Solar. Brillo Solar. modelos de Regresión. Aprendizaje

automático

ABSTRACT

The objective of the present investigation was to obtain predictive models for the

estimation of solar radiation in four meteorological stations of Colombia: "El-Rosario",

"Santa Bárbara", "La Trinidad", and "Maracay" representative of the Zones: North.

Cordillera Oriental, Sur and Central Andean Zone respectively, taking as data the

meteorological information presented by Orlando Guzmán Martínez, José Vicente Baldión

Rincón and others (2013).

In this work we used the methodology of Machine Learning to adjust five models of

Regression to data. The models considered were: simple linear, exponential, potential.

quadratic and cubic, taking the solar brightness as an independent variable and the solar

radiation as a dependent variable.

The main results were the obtaining of four different regression models, one for

each meteorological station, which will allow predicting Solar Radiation (y) for new values

of solar brightness (x). For the El-Rosario station was obtained the cubic model

Page 3: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

y=76.43−49.67 x+12.74 x2−1.04 x3 (R2=82.67 %¿. For Santa Barbara Station the model

obtained was the cubic model: y=76.43−49.67 x+12.74 x2−1.04 x3 withR2=94.7%. For

the La Trinidad Station, the model obtained was the exponential: y=e2.306∗e0.094 x (

R2=97.30 % ) and for the Maracay Station the model was cubic given by the equation

y=−28.88+25.88 x±5.17 x2+0.35 x3. ( R2=96.64 % )

Keywords: Solar Radiation. Solar Brightness. Regression models. Machine

Learning

Page 4: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

1. INTRODUCCIÓN

La gran demanda energética en todo el mundo ha suscitado un gran interés por el

uso de energías no convencionales tales como fuente de energías renovables que es la que

se aprovecha directamente de los recursos considerados inagotables tales como la energía

solar. Esta fuente no es contaminante ni generan residuos, como las de origen de generación

eléctrica convencional.

La energía solar es un recurso viable en las óptimas condiciones meteorológicas que

predominan en la región, sin embargo las diferentes mediciones respecto a los parámetros

de radiación en algunos casos no se pueden obtener directamente por carecer del debido

equipo instrumental que es costoso y muchas veces no están disponibles en la región. Una

alternativa poco costosa es la de usar un modelo predictivo adecuado para calcular la

radiación solar en función de alguna variable relacionada más fácil de medir como el brillo

solar. Una vez validado el modelo podríamos usar la ecuación correspondiente para

predecir la Radiación solar para cualquier valor nuevo de la variable independiente en este

caso el brillo solar

La metodología de Aprendizaje automático que ha sido usada exitosamente en

muchas áreas ofrece una guía para generar modelos que tengan la capacidad de hacer

predicciones confiables sobre datos nuevos. El aprendizaje Automático utiliza datos para

crear un modelo y luego usa ese modelo para hacer predicciones.

El objetivo de la presente investigación consistió en obtener modelos predictivos

para la estimación de la radiación solar en cuatro estaciones meteorológicas de Colombia

“El Rosario”. “Santa Bárbara”. “La Trinidad” y “Maracay” representativas de las Zonas:

Norte. Cordillera Oriental. Sur y Zona central Andina tomando como datos la información

Page 5: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

meteorológica presentada por Orlando Guzmán Martínez. José Vicente Baldión Rincón y

otros (2013).

2. OBJETIVOS

Objetivo General

Obtener modelos predictivos de la radiación solar en función del brillo solar

Objetivos Específicos

1. Calcular los modelos de regresión simple, cuadrática, cubica exponencial y potencial para estimar la radiación solar en función del brillo solar

2. Medir la precisión de cada modelo en las zonas seleccionadas

3. Comparar los modelos en base al estadístico R2 (porcentaje de variabilidad explicado por el modelo)

4. Seleccionar el mejor modelo para cada región

3. EL PROBLEMA

El problema consistió en determinar la radiación solar en función del brillo solar a

través de métodos indirectos como lo son los modelos de regresión. Estos métodos

indirectos son apropiados cuando no se disponga de los equipos de medición requeridos,

los que muchas veces no están disponibles en la región. En el caso específico que trata este

artículo se utilizaron los datos de cuatro regiones meteorológicas de Colombia, y se

obtuvieron modelos estadísticos confiables, evaluados con datos nuevos obteniéndose un

alto grado de precisión. La metodología empleada se puede usar para cualquier base de

Page 6: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

datos similar, como por ejemplo los producidos en las estaciones meteorológicas del estado

Nueva Esparta

4. METODOLOGÍA

4.1 Población

La radiación solar y el número de horas de sol obtenidas en diecisiete estaciones

meteorológicas localizadas a lo largo y ancho de la zona cafetera colombiana, para el

período 1988- 2002

4.2 Muestra

La radiación solar y el número de horas de sol obtenidas en las estaciones

meteorológicas “El Rosario”. “Santa Bárbara”. “La Trinidad” y “Maracay” representativas

de las Zonas: Norte. Cordillera Oriental. Sur y Zona central Andina de Colombia, para el

período 1988- 2002

4.3 Propuesta de acción sugerida o desarrollada

La data para desarrollar este trabajo fue la Información cronológica presentada por

Orlando Guzmán Martínez, José Vicente Baldión Rincón y otros en su trabajo:

“COEFICIENTES PARA ESTIMAR LA RADIACIÓN SOLAR GLOBAL A

PARTIR DEL BRILLO SOLAR EN LA ZONA CAFETERA COLOMBIANA” (2013).

El procesamiento de los datos se realizó usando la metodología de aprendizaje

automático, el cual es un campo de la matemática que se encarga de la creación de modelos

confiables, adaptados a un problema específico que son derivados de los datos obtenidos

sobre el problema.

Page 7: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

La metodología de Aprendizaje automático toma datos para crear un modelo y

luego los utiliza para hacer predicciones. Esta metodología está en boga actualmente para

generar modelos que tengan la capacidad de hacer predicciones confiables

4.4 Definición de Aprendizaje automático (Machine Learning)

El Aprendizaje automático es un campo de la matemática que se encarga de la

creación de modelos confiables, adaptados a un problema específico que son derivados de

los datos obtenidos sobre el problema.

La metodología de Aprendizaje automático toma datos para crear un modelo y

luego los utiliza para hacer predicciones. Esta metodología está en boga actualmente para

generar modelos que tengan la capacidad de hacer predicciones confiables.

Una definición más completa es la dada por Mitchel (1997) “Se dice que un

programa de computadora aprende de la experiencia E con respecto a alguna clase de tareas

T y la medida de rendimiento P. si su desempeño en tareas en T. medido por P. mejora con

la experiencia”

En nuestro caso la experiencia son los datos, la tarea es determinar la radiación solar

basado en el brillo solar y la medida del rendimiento es la discrepancia entre los datos

observados y calculados con el modelo, el cual puede expresarse en varias métricas

El Aprendizaje automático, según Jason (2018) consta, fundamentalmente de cinco etapas:

1. Definir el problema

2. Preparar los datos (en esta etapa consta de la recolección de los datos. el análisis

exploratorio. selección de variables y la división de los datos aleatoriamente en

dos conjuntos: datos entrenamiento y datos de prueba (en este caso tomamos

66% y 33%) respectivamente.

Page 8: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

3. Desarrollar modelos predictivos con los datos de entrenamiento. para producir

varios modelos predictivos.

4. Evaluación de los modelos predictivos encontrados usando los datos de prueba y

selección del modelo final.

5. Presentación de los resultados

4.5 Modelos de Regresión

La regresión es un método estadístico para estimar las relaciones entre variables. En

el análisis de regresión hay dos tipos de variables: variables independientes que se denotan

generalmente por x y las variables dependientes que se denotan por y. Las variables

independientes se les llaman también predictoras o explicativas y las dependientes variables

respuestas o criterio. El objetivo del análisis de regresión es analizar la influencia de la(s)

variable(s) predictora(s) sobre la variable respuesta y predecir valores futuros de y en base a

valores de x.

Existen muchos modelos de regresión, en esta investigación trabajaremos con cinco

modelos:

1. Lineal Simple: y=a+bx+e

2. Cuadrático: y=a+bx+c x2+e

3. Cubica: y=a+bx+cx 2+dx3+e

4. Exponencial: y=a ebx+e

5. Potencial: y=a xb+e

Todos los modelos tienen un error (e) que representa la diferencia entre los datos

observados y los calculados por el modelo

Page 9: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

4.6 Evaluación de los modelos

Entre los métodos para evaluar los modelos tenemos: la media - suma de cuadrados

del error (MSE), la raíz cuadrada de la media -suma de cuadrados del error (RMSE). Y el

porcentaje de variabilidad de los datos explicados por el modelo (R2).

4.6.1 Media de la suma de cuadrados del error (MSE)

El error cuadrado para una observación se define como la diferencia entre el valor

observado y el valor predicho por el modelo, la media - suma de cuadrados del error MSE

es el promedio de esos errores mide el error de predicción del modelo, se calcula así:

MSE=mean(observado−predicho)2

4.6.2 Raíz cuadrada del error cuadrado medio (RMSE)

Como el MSE viene expresado en unidades cuadradas, es lógico tomarle la raíz

cuadrada para expresarlo en las mismas unidades que las observaciones, de allí surge el

RMSE el cual es: RMSE=√mean(observado−predicho)2, se denota por RMSE por sus

siglas en inglés (Root Mean Squared Error). Cuanto menor sea el RMSE, mejor será el

modelo

4.6.3 R-Cuadrado (R2)

Es el cuadrado de la correlación existente entre los valores observados y predichos:

R2=cor ( yobs . ypred)2

Tiene la propiedad que se expresa entre 0 y 1 y se interpreta como el porcentaje de

variabilidad explicado por el modelo. Cuanto mayor sea el R2, mejor será el modelo.

4.7 Lenguaje R

Page 10: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

Este es uno de los lenguajes de computación más usados en Aprendizaje

automático. A continuación se presentan los scripts en lenguaje R usados para el

procesamiento de los datos en este trabajo.

4.7.1 Scripts para extraer los datos de una estación y crear la

partición

Tomando como ej. La Estación Santa Bárbara:

pb=subset(colombia. subset=Estación == 'Santa-Bárbara')

Estadísticos Básicos

summary(x); summary(y)

Partición de los datos

set.seed(1); n = nrow(pb)

trainIndex = sample (1:n. size = round(0.7*n). replace=FALSE)

train = pb[trainIndex .]

test = pb[-trainIndex .]

4.7.2 Scripts para el cálculo de los modelos

reg1=lm(y~x); summary(reg1) # Modelo de regresión lineal:

reg2=lm(log(y)~x); summary(reg2) # Modelo de regresión exponencial

reg3=lm(log(y)~log(x)); summary(reg3) # Modelo de regresión potencial

reg4=lm(y~I(x)+I(x^2)); summary(reg4)# Modelo de regresión cuadrático:

Page 11: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

reg5=lm(y~I(x)+I(x^2)+I(x^3)); summary(reg5) # Modelo regresión cúbica:

4.7.3 Script para la el Diagrama de dispersión

Tomando como ej. La Estación Santa Bárbara

plot(x.y.pch=4.col="orangered".xlab="brillo solar (hrs)".ylab="radiacion

solar (Mj/m2)".main="Grafica #1"

5. RESULTADOS

2.1.

5.1 Resultados para la Estación “El Rosario”

5.1.1. Análisis exploratorio para la Estación “El Rosario”

Estadísticos Básicos:

Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo Solar (x) 2.600 3.600 4.200 4.406 5.100 8.500

Radiación Solar (y) 11.1 14.0 14.9 15.3 16.53 22.5

Los estadísticos Básicos para el Brillo Solar de la Estación “El Rosario” son: media:

4.2 horas, el valor máximo: 8.5 horas, el valor min: 2.6 horas. Mientras que para la

Radiación Solar, tenemos un valor medio de 15.3 MJ ¿ m2, siendo un valor mínimo de 11.1

MJ ¿ m2y un valor máximo 22.5 MJ ¿ m2

El diagrama de dispersión entre las variables Brillo solar (x) y la Radiación Solar (y) se

muestra en la gráfica #1

Page 12: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

Como se puede apreciar del diagrama de dispersión no se observa una tendencia

clara en cuanto a que modelo se puede ajustar a los datos, por ello usaremos cinco posibles

modelos, los que calcularemos con la función lm del lenguaje R.

5.1.2. División de los datos para la Estación “El Rosario”

La base de datos usada para esta Estación comprendía 12 valores para el brillo solar

(x) y los 12 valores respectivos para la radiación solar (y). Esta base de datos se dividió

aleatoriamente en dos partes: datos de entrenamiento (2/3) y datos de prueba (1/3)

N. Datos Mes Estación x (horas) y(MJ ¿ m2

)

Datos de entrenamiento

1 4 El Rosario 4,50 14.82 5 El Rosario 4,90 15.63 6 El Rosario 5,80 16.54 9 El Rosario 4,60 15.15 2 El Rosario 5,00 15.16 7 El Rosario 6,60 17.87 10 El Rosario 4,40 14.38 12 El Rosario 4,20 13.7

Datos de prueba

1 1 El Rosario 6,40 16.92 3 El Rosario 5,10 15.93 8 El Rosario 6,50 17.34 11 El Rosario 4,50 14.2

Page 13: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

5.1.3 Modelos de Regresión para la Estación “El Rosario”

Modelos Modelo de regresión R2

Modelo Lineal y=7.635+1.545 x 0.939Modelo Exponencial y=e2.24 [e0.098 x ] 0.923

Modelo Potencial y=e1.89 . x0.523 0.923Modelo Cuadrático y=2.43+3.52 x−0.18 x2 0.935

Modelo Cúbico y=−71.53+45.97 x−8.20 x2+0.50 x3 0.950

Todos los modelos propuestos resultaron adecuados ya que tuvieron un valor

predictivo superior al 92%, destacándose el modelo cúbico con un valor predictivo

( R2=0.95 ).

5.1.4 Evaluación de los modelos para la Estación “El Rosario”

Para evaluar los modelos, se calculan los valores predichos por cada modelo en los

datos de prueba y los comparamos con los valores observados. La siguiente tabla muestra

esta comparación.

Datos Modelos X y-observado Lineal Cuadrático Cúbico Exponencial Potencial

6.4 16.9 17.523 17.5852 17.878 17.587704 22.156350855.1 15.9 15.5145 15.7002 15.9605 15.483888 17.655842084.9 16.5 15.2055 15.3562 15.6655 15.183359 16.963456126.6 17.8 17.832 17.8212 18.428 17.935823 22.84873681

R2 0.83970571 0.826091573 0.866577033 0.84494002 0.83970571

En la tabla podemos apreciar que la función cúbica tiene la más alta correlación

entre los valores de y calculados vs observados. El coeficiente R2 para los datos de prueba

del modelo cúbico es: 86.67%, por lo tanto tenemos una alta confianza que el modelo

y=−71.53+45.97 x−8.20 x2+0.50 x3 es el mejor para predecir y para futuros valores de x.

Page 14: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

5.2 Resultados para la Estación de “Santa Bárbara”

5.2.1 Análisis exploratorio para la Estación de “Santa Bárbara”

Estadísticos Básicos:

Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo solar (x) 2.900 3.300 3.650 3.733 4.175 4.600

Radiación Solar (y) 13.30 13.88 14.00 14.27 14.53 16.00

Los estadísticos Básicos para el Brillo solar de la Estación “Santa Bárbara” son:

media: 3.65 horas, el valor máximo: 4.6 horas, el valor min: 2.9 horas, Se puede apreciar

que la magnitud de los datos de brillo Solar son inferiores a la de la Estación de “El

Rosario” Mientras que para la Radiación Solar, tenemos un valor medio de 14.27 Mj/m2, un

valor mínimo de 13.3 Mj/m2 y un valor máximo 16 Mj/m2, asimismo, se aprecia que la

magnitud de los datos de Radiación Solar de esta Estación son inferiores a la de la Estación

de “El Rosario”

El diagrama de dispersión entre las variables Brillo solar (x) y la Radiación Solar

(y) de la Estación “Santa Bárbara” se muestra en la gráfica #2

Page 15: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

Se puede apreciar que los datos de la Estación “Santa Bárbara” están muy dispersos

en el plano y no se aprecia una tendencia clara

5.2.2 División de los datos para la Estación de “Santa Bárbara”

La base de datos usada para esta Estación comprendía 12 valores para el brillo Solar

(x) y los 12 valores respectivos para la radiación Solar (y). Esta base de datos se dividió

aleatoriamente en dos partes: datos de entrenamiento (2/3) y datos de prueba (1/3).

N. Datos Mes Estación x (horas) y(Mj /m2)

Datos de entrenamiento

1 4 Santa Bárbara 3.10 13.82 5 Santa Bárbara 3.40 14.53 6 Santa Bárbara 3.70 14.04 9 Santa Bárbara 3.60 13.95 2 Santa Bárbara 3.30 13.96 7 Santa Bárbara 4.60 16.07 10 Santa Bárbara 4.10 15.28 12 Santa Bárbara 3.30 13.3

Datos de prueba

1 1 Santa Bárbara 4.40 14.52 3 Santa Bárbara 2.90 13.53 8 Santa Bárbara 4.60 14.64 11 Santa Bárbara 2.80 14.0

5.2.3 Modelos para la Estación de “Santa Bárbara”

A continuación presentamos los modelos encontrados para la Estación de Santa Bárbara

Modelos Modelo de regresión R2

Modelo Lineal y=8.5209+1.5956 x 0.7796Modelo Exponencial y=9.649055 . e0.10819 x 0.7679

Modelo Potencial y=8.483983 x0.40683 0.7440Modelo Cuadrático y=19.3670−4.1334 x+0.7432 x2 0.7821

Modelo Cúbico y=76.43−49.67 x+12.74 x2−1.04 x3 0.7444

Como puede apreciarse de la tabla anterior. los modelos presentan un R2 muy

similares. siendo el modelo cuadrático ligeramente mejor que los otros. La evaluación de

los modelos con los datos de prueba nos indicará cual es el mejor modelo

Page 16: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

5.2.4 Evaluación de los modelos para la Estación de “Santa

Bárbara”

A continuación se presentan los valores de y estimados por cada uno de los modelos

con los datos de prueba y el R2 para cada modelo:

Datos Modelos

X y-observado Lineal Cuadrático CúbicoExponencia

l Potencial4.4 14.5 15.54064 15.568392 15.93704 15.5319 15.186770742.9 13.5 13.14724 13.630452 14.16584 13.205204 10.009462534.6 14.6 15.85976 16.079472 16.29696 15.871642 15.87707852.8 14 12.98768 13.620168 14.40552 13.063107 9.664308651

R-cuadrado 0.897214531 0.911363043 0.947060484 0.89884644 0.897214531

La evaluación del modelo con los datos de prueba indica que el modelo cúbico

Y=76.43−49.67 x+12.74 x2−1.04 x3 obtuvo el coeficiente R2=94.7% más alto, por lo tanto

podemos usar con confianza este modelo para estimar la radiación Solar en la estación

Santa-Bárbara.

5.3 Resultados para la Estación de “La Trinidad”

5.3.1 Estadísticos Básicos:

Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo Solar (x) 3.200 3.375 3.700 4.067 4.325 6.300

Radiación Solar (y) 13.30 13.88 14.00 14.27 14.53 16.00

Los estadísticos Básicos para el Brillo Solar de la Estación “La Trinidad” son:

media: 4.067 horas, el valor máximo: 6.3 horas, el valor min: 3.2 horas, Se puede apreciar

que el brillo Solar se manifiesta con mayor frecuencia que en la Estación de Santa Bárbara

y similares a los de la estación de “El Rosario”, mientras que para la Radiación Solar, el

valor medio es de 14.27 Mj/m2, el mínimo es 13.3 Mj /m2 y el valor máximo 16 Mj/m2,

Page 17: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

asimismo, se aprecia que la magnitud de los datos de Radiación Solar de esta Estación son

superiores a la de la Estación de “Santa Bárbara” y similares a los de la estación de “El

Rosario”.

El diagrama de dispersión entre las variables Brillo Solar (x) y la Radiación

Solar (y) de la Estación “La Trinidad” se muestra en la gráfica #3

Se puede apreciar una tendencia creciente con los datos concentrados en la parte

izquierda

5.3.2 División de los datos para la Estación de “La Trinidad”

La base de datos usada para esta Estación comprendía 12 valores para el brillo Solar

(x) y los 12 valores respectivos para la radiación Solar (y). Esta base de datos se dividió

aleatoriamente en dos partes: datos de entrenamiento (2/3) y datos de prueba (1/3)

N. Datos Mes Estación x (horas) y(Mj/m2)Datos de

entrenamiento 1 4 La Trinidad 3.30 14.02 5 La Trinidad 3.70 14.13 6 La Trinidad 4.30 14.94 9 La Trinidad 4.30 15.85 2 La Trinidad 3.40 13.76 7 La Trinidad 5.50 16.67 10 La Trinidad 4.40 15.5

Page 18: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

8 12 La Trinidad 3.20 12.6

Datos de prueba

1 1 La Trinidad 3.70 13.52 3 La Trinidad 3.40 14.33 8 La Trinidad 6.30 18.14 11 La Trinidad 3.30 13.2

5.3.3 Modelos obtenidos para la Estación de “La Trinidad”

En la siguiente tabla se presentan los resultados obtenidos:

Modelos Modelo de regresión R2

Modelo Lineal y=8.881+1.463 x 0.7796Modelo Exponencial y=e2.306 . e0.094 x 0.7679

Modelo Potencial y=e2.096 . x0.431 0.7440Modelo Cuadrático y=6.223+2.663 x−0.128 x2 0.7821

Modelo Cúbico y=−29.71+27.20 x−5.54 x2+0.386 x3 0.7444

5.3.4 Evaluación de los modelos para la Estación de “La

Trinidad”

La evaluación de los modelos se llevó a cabo calculando los valores de y por cada

uno de los modelos usando los datos de prueba y luego calculando el R-cuadrado para cada

modelo. arrojando los siguientes resultados:

Datos Modelosx y-observado Lineal Cuadrático Cúbico Exponencial Potencial

3.7 13.5 14.29259 14.321294 14.6217305 14.255631 14.165501773.4 14.3 13.85378 13.795676 13.888028 13.856078 13.635684826.3 18.1 18.09561 17.908514 18.1514775 18.238377 18.006597493.3 13.2 13.70751 13.615334 13.5821925 13.725398 13.45340489

R2 0,97144867 0,967707465 0,958966626 0,97301923 0,968823677

Page 19: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

La evaluación de los modelos con los datos de prueba indican que el modelo

exponencial y=e2.306 . e0.094 x obtuvo un R2=97.30 %, siendo el coeficiente R-cuadrado más

alto, por lo tanto concluimos que el mejor modelo la radiación Solar en la estación La

Trinidad es el modelo exponencial.

Page 20: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

5.4 Resultados para la Estación de “Maracay”

5.4.1 Análisis exploratorio

Estadísticos Básicos:

Min. 1st Qu. Median Mean 3rd Qu. Max.Brillo Solar (x) 3.600 3.675 3.950 4.242 4.575 5.900

Radiación Solar (y) 13.20 13.93 14.50 14.57 15.07 16.40

Los estadísticos Básicos para el Brillo Solar de la Estación “Maracay” son: media:

3.675 horas, el valor máximo: 5.9 horas, el valor min: 3.6hrs. Se puede apreciar que la

magnitud de los datos de brillo Solar son similares a la de las otras estaciones consideradas

en este trabajo, para la Radiación Solar se tiene un valor medio de 14.57 Mj /m2, un valor

mínimo de 13.2 Mj /m2 y un valor máximo 16.4 Mj/m2, asimismo, se aprecia que la

magnitud de los datos de Radiación Solar de esta estación son similares a la de las otras

estaciones

El diagrama de dispersión de la data de la Estación “Maracay” se presenta en la

gráfica #4

Se observa una tendencia creciente similares a las otras estaciones

Page 21: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

5.4.2 División de los Datos para la Estación de “Maracay”

Siguiendo con la metodología se dividen los datos en dos partes: Entrenamiento y

Prueba en la relación 2:1, resultando lo siguiente

Datos de Entrenamiento: Los datos de entrenamiento tomados al azar (8 datos)

fueron los siguientes:

N. Datos Mes Estación x (horas) y(Mj /m2)

Datos de entrenamiento

1 4 Maracay 3.60 14.32 5 Maracay 3.60 13.73 6 Maracay 4.90 14.04 9 Maracay 4.80 14.35 2 Maracay 4.10 14.76 7 Maracay 5.20 15.57 10 Maracay 4.40 15.08 12 Maracay 3.70 13.2

Datos de prueba

1 1 Maracay 5.10 15.32 3 Maracay 4.00 15.03 8 Maracay 5.90 16.44 11 Maracay 3.60 13.4

5.4.3 Modelos obtenidos de la Estación Maracay

Usando el comando lm del lenguaje R apropiadamente, se obtuvieron los modelos siguientes:

Modelos Modelo de regresión R2

Modelo Lineal y=10.12+1.07 x 0.7796Modelo Exponencial y=e2.38 . e0.071 x 0.7679

Modelo Potencial y=e2.03 . x0.331 0.7440Modelo Cuadrático y=6.83+2.501 x−0.153 x2 0.7821

Modelo Cúbico y=−28.88+25.88 x−5.17 x2+0.35 x3 0.7444

5.4.4 Evaluación de los Modelos de la Estación Maracay

La siguiente tabla presenta los valores predichos para cada uno de los modelos en

los datos de prueba y la última fila el estadístico R2 que nos permite decidir cuál es el mejor

modelo

Page 22: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

Datos Modelosx y-observado Lineal Cuadrático Cúbico Exponencial Potencial

5.1 15.3 15.577 15.60557 15.06415 15.519542 13.05640244.0 15.0 14.4 14.386 14.32 14.353589 12.047575475.9 16.4 16.433 16.25997 15.72695 16.426568 13.70155363.6 13.4 13.972 13.85072 13.6144 13.951681 11.63466615

R-cuadrado 0.915648763 0.922284866 0.966445981 0.91318319 0.920810051

Se puede apreciar que el valor mayor de R2 se obtiene con el modelo cúbico

y=−28.88+25.88 x−5.17 x2+0.35 x3 teniendo un R2=96.64 %. Por lo tanto este es el

mejor modelo para la Estación Maracay.

6. Conclusiones

El aprendizaje automático ofrece una metodología muy útil para construir modelos

predictivos. Uno de los aspectos fundamentales de esta metodología es la división de los

datos en dos conjuntos disjuntos: entrenamiento y prueba. El modelo se construye con los

datos de entrenamiento y se evalúa con los datos de prueba. Si el modelo presenta un buen

rendimiento con los datos de prueba, entonces podemos tener confianza en usarlo para

datos nuevos. Esto sucedió en la presente investigación donde los modelos seleccionados

presentaron altos niveles de rendimiento con los datos de prueba. Así tenemos que:

6.1 Para la Estación de El-Rosario resultó que el modelo cúbico posee un

coeficiente de R2=84.2% mayor al resto de los modelos para los datos de prueba. Por lo

que podemos usar el modelo cúbico: Y=−71.53+45.97 x−8.20 x2+0.50 x3 para predecir la

Radiación Solar para nuevos valores del brillo Solar (x)

6.2 Para la estación de Santa Bárbara se obtuvo también que el mejor modelo fue el

modelo cúbico con un valor de R2=94%, para los datos de prueba. Por lo que podemos

Page 23: calnum.files.wordpress.com  · Web viewComo se puede apreciar del diagrama de dispersión no se observa una tendencia clara en cuanto a que modelo se puede ajustar a los datos, por

predecir la Radiación Solar (y) para nuevos valores del brillo Solar (x) usando el modelo:

Y=76.43−49.67 x+12.74 x2−1.04 x3

6.3 Para la estación de La Trinidad se obtuvo que el modelo exponencial:

Y=e2.306∗e0.094 x fue el mejor con un R2=97.3 % en los datos de prueba.

6.4 Para la Estación “Maracay” resulto mejor el modelo cúbico

Y=−28.88+25.88 x±5.17 x2+0.35 x3para predecir la Radiación Solar (y) para nuevos

valores del brillo Solar (x) con un R2=96.64 % para los datos de prueba

Bibliografía

Guzmán M.O ; Baldión R. J. et-al (2013) “Coeficientes para estimar la radiación solar

global a parir del brillo solar en la zona cafetera colombiana”. Revista Cenicafé

64(1):60-76. 2013

Jason, Brownlee (2018) “How to guarantee great machine learning results”

https://mail.google.com/mail/u/1/#search/jason/FMfcgxvxBFmbFwddWmRXGGCnf

LkZKlbb. (Revisado el 20 de Julio, de 2018)

Mitchel Tom. “Machine Learning “, McGraw Hill. 1997. Software