UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/52813/1/TFG_ALVARO_GARCIA_NAVALON.pdf · 2018-10-25 ·...

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES

Aplicación de técnicas Boosting al modelado estadístico de las emisiones de autobuses urbanos

TRABAJO FINAL DE GRADO

Autor:

Álvaro García Navalón

Tutores:

José Manuel Mira McWilliams

Natalia Elizabeth Fonseca González

GRADO EN INGENIERÍA EN TECNOLOGÍAS INDUSTRIALES

JULIO 2018


3

Agradecimientos

En primer lugar, quiero dedicar este trabajo y agradecer a mis padres, por hacer posible que haya podido estudiar esta carrera, tanto a nivel económico como educacional; a mi hermana; a mis abuelos; a mis tíos; y a mis amigos y compañeros de universidad por apoyarme, aguantarme, comprenderme y ayudarme durante estos cinco largos años de esfuerzo y sacrificio. En especial a mi madre, a mi hermana, a mis amigos Fernando, Santi Cerdá, Dani, Ariana y Santi Castilla, y a Elena. También a mi abuela Angelines por sus rezos y pensamientos para que todo fuera bien.

En segundo lugar, me gustaría agradecer a mis tutores, Pepe y Natalia, por guiarme, aconsejarme, enseñarme y supervisarme en este Trabajo Final de Grado.

Por último, a mi compañera María Cueto-Felgueroso por su gran ayuda con el proyecto en un momento del mismo en el que todo parecía bastante cuesta arriba.


4


5

Resumen

El Trabajo de Fin de Grado (TFG) que se va a presentar en este texto puede enmarcarse dentro del siguiente proyecto: “Sistema de optimización de ciclos urbanos de conducción. Aplicación a la generación de patrones adaptados a exigencias medioambientales y situaciones de explotación de flotas de vehículos” o, más conocido por su acrónimo, CICLOPE, desarrollado por el Instituto de Investigación del Automóvil (INSIA). Este TFG se puede enmarcar dentro de una de las líneas de investigación de CICLOPE, contando con la colaboración de los tutores José Mira Mcwilliams y Natalia Elizabeth Fonseca.

En el caso de este Trabajo de Fin de Grado, la parte que se estudia es la de la aplicación de métodos estadísticos avanzados para el tratamiento de la información registrada, utilizando el algoritmo denominado Boosting, con los siguientes objetivos principales: elaboración de distintos modelos de predicción de las emisiones de CO2, NOx y partículas por parte de autobuses urbanos; estudio y análisis de la influencia e importancia en las emisiones contaminantes de las variables cinemáticas, ambientales y de la pendiente; elaboración de perfiles de altitud y pendiente en base tiempo; y análisis de la importancia de la pendiente una vez calculados estos perfiles.

Boosting puede clasificarse dentro del marco de los algoritmos de aprendizaje supervisado, encontrándose dentro del denominado Machine Learning.

El objetivo del aprendizaje supervisado es el de crear una función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber visto una serie de ejemplos, los datos de entrenamiento. Boosting trata de conseguir un clasificador fuerte a partir de muchos clasificadores débiles, comúnmente denominados weak learners o base learners. Cada uno de estos clasificadores débiles son modelos: modelos de regresión lineal simple, modelos de regresión lineal múltiple o, por ejemplo, modelos binarios en los que se trabaja con dos tipos de datos (+1 y -1).

El concepto que existe detrás de Boosting es aplicar secuencialmente diferentes base learners con versiones modificadas de los datos para producir una secuencia de base learners (clasificadores débiles) que finalmente den lugar a un clasificador fuerte. Los pasos genéricos son los siguientes:

1. Inicialmente se les asigna el mismo peso a todos los datos del conjunto de entrenamiento. Este peso es 𝑤𝑤𝑖𝑖 = 1

𝑁𝑁 , donde n es el número de datos del conjunto

e 𝑖𝑖 = 1 …𝑁𝑁. 2. Se entrena el modelo con el conjunto de entrenamiento y con los pesos iniciales

wi, obteniendo el primer base learner. 3. Se calcula el error del modelo en el conjunto de entrenamiento con los pesos

anteriores.


6

4. Se incrementan los pesos en los datos en los que el modelo ha clasificado erróneamente. Este punto consigue dar más importancia a los datos mal clasificados para, así, en la siguiente iteración obtener un base learner que los considere más y se acerque más a ellos.

5. Se vuelve a entrenar un nuevo modelo (nuevo base learner) con el conjunto de entrenamiento con los pesos modificados.

6. Se repite la secuencia desde el punto 3 hasta el número de iteraciones fijadas. 7. Cada uno de los modelos obtenidos (base learners) se le habrá asignado un peso.

El modelo final se calcula como una votación ponderada por los pesos de todos los modelos.

Con el fin de cuantificar la precisión de los modelos obtenidos, se han tenido en cuenta diferentes medidas de error. Estas han sido el error relativo promedio, la desviación estándar, el error en el cálculo del factor de emisión, el error cuadrático de validación cruzada y el MAPE.

Estas técnicas estadísticas se aplicarán a una base de datos proporcionada por el INSIA formada por 5 ficheros de Excel, cada uno de ellos con varias hojas. En estos ficheros se encuentran un conjunto de ensayos realizados durante los años 2007 y 2008 por el INSIA sobre autobuses de la Empresa Municipal de Transportes de Madrid (EMT Madrid). Los ensayos contienen información sobre las variables cinemáticas, posicionales y ambientales, así como información sobre las diferentes emisiones contaminantes de los autobuses.

Antes de comenzar el análisis y estudio de las emisiones del CO2, NOx y partículas, se tuvieron que elegir los ensayos a utilizar con el fin de evitar introducción de variabilidad no deseada en los modelos.

Una vez elegidos los ensayos, se hizo una primera búsqueda de las posibles primeras variables explicativas en el proceso de emisión de gases contaminantes que se podían obtener directamente de la base de datos proporcionadas. Se obtuvieron la velocidad y las variables ambientales como posibles variables explicativas. Posteriormente se calculó la aceleración y la sobreaceleración a partir de la velocidad, ya que se suponían imprescindibles para reducir la variabilidad de los modelos.

Al observar las curvas velocidad/emisión de contaminante se detectó que existía un cierto retardo entre la velocidad y las emisiones recogidas en la base de datos. La velocidad iba ligeramente retrasada con respecto a las emisiones contaminantes. Para tratar de corregir esto, se hizo un estudio del retardo existente en la velocidad.

A continuación, se trató de buscar nuevas variables explicativas que aumentaran la variabilidad explicada de los modelos, apoyándonos en el estudio físico del movimiento de un autobús y de la potencia que el motor tiene que realizar para lograr ese movimiento (las variables que influyen en la potencia suministrada por el motor son muy parecidas a las que influyen en las emisiones del motor). En primer lugar, apareció la consideración de la pendiente del terreno. Se calcularon los perfiles de alturas y de pendientes de todas


7

las rutas de las que se disponía información. Para esto, se utilizó el programa GPS Visualizer, partiendo de los valores instantáneos de longitud y latitud que aparecen en la base de datos. También se hizo uso de un código de Matlab y de distintas hojas de Excel que conseguían el suavizado de la pendiente. Un ejemplo de entre los perfiles de alturas obtenidos se muestra en Fig resumen 1.

Tras incluir la pendiente en los modelos y comprobar que la mejora de los mismos era notable (como era de esperar, debido a que la potencia entregada por el motor es directamente proporcional a la pendiente del terreno), se consideraron otras variables partiendo de la fórmula de la potencia que Natalia Fonseca escribe en su tesis doctoral “Aspectos de la medición dinámica instantánea de emisiones de motores. Aplicación al desarrollo de un equipo portátil y una metodología para estudios de contaminación de vehículos en tráfico real”.

Fig resumen 1. Perfil de alturas de la línea 63-vuelta

La fórmula de la potencia utilizada fue la siguiente:

𝑁𝑁 =1ᵑ𝑅𝑅𝑅𝑅

𝑣𝑣 ∗ 𝐹𝐹𝑡𝑡 =1ᵑ𝑅𝑅𝑅𝑅

𝑣𝑣 � 𝐹𝐹𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑖𝑖ó𝑛𝑛𝑎𝑎𝑖𝑖𝑛𝑛𝑎𝑎𝑎𝑎𝑎𝑎

+ 𝐹𝐹𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑛𝑛𝑎𝑎𝑖𝑖ó𝑛𝑛 + 𝐹𝐹𝑎𝑎𝑟𝑟𝑟𝑟𝑎𝑎𝑟𝑟𝑟𝑟𝑎𝑎𝑎𝑎 + 𝐹𝐹𝑎𝑎𝑟𝑟𝑟𝑟𝑎𝑎𝑟𝑟𝑖𝑖𝑎𝑎𝑛𝑛𝑡𝑡𝑟𝑟𝑎𝑎𝑖𝑖𝑎𝑎𝑎𝑎

�

Siendo ᵑ𝑅𝑅𝑅𝑅 el rendimiento del sistema de transmisión, v la velocidad del vehículo y 𝐹𝐹𝑡𝑡 la fuerza de tracción. Desarrollando cada una de las componentes de esta expresión, se decidió probar la introducción de las variables 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣 × 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛, velocidad ×pendiente y velocidad2. La primera introduce en los modelos la componente de la fuerza de tracción correspondiente a la fuerza de aceleración lineal, la segunda la componente correspondente a la fuerza de ascensión y la tercera la componente correspondiente a la fuerza de rozamiento con el aire.

560

580

600

620

640

660

680

700

720

050

010

0015

0020

0025

0030

0035

0040

0045

0050

0055

0060

0065

0070

0075

0080

0085

00

Altu

ra (m

etro

s)

Distancia acumulada (metros)

test080123144605_L63v

test080123162618_L63v


8

El análisis y estudio del CO2 tras la introducción de las variables mencionadas hasta ahora se resume en la Tabla resumen 1. En esta tabla, los modelos “Temperatura”, “Presión”, “Pendiente” y “Pendiente+v*p+v*a+v2+P” representan el modelo en el que se considera un retardo de 4 segundos en cada una de las variables cinemáticas y al que, además, se le ha añadido la variable explicativa que lleva su nombre. Lo mismo ocurrirá con las tablas de NOx y partículas.

Modelo

Error relativo

Desviación estándar

Error FE

Error cuadrático validación cruzada

CO2_000 2,64% 23,82% -11,86% 33,24 CO2_444 1,13% 21,03% -5,06% 23,66

Temperatura -68,60% 37,69% 308,22% 22,88 Presión 0,55% 21,14% -2,49% 23,12

Pendiente 0,18% 15,72% -0,79% 17,74 Pendiente+v*p+v*a+v2+P 0,78% 12,84% -3,53% 12,88

Tabla resumen 1. Resultados de los modelos más significativos en el estudio y análisis del CO2

A la vista de la tabla anterior, se puede observar cómo los modelos mejoran con la introducción del retardo en las variables cinemáticas (el modelo CO2_000 representa el modelo que considera únicamente las tres variables cinemáticas y no considera el retardo en ninguna de las tres variables mientras que el modelo CO2_444 considera retardo 4 segundos en cada una de las variables cinemáticas). Además, se observa que la introducción de la pendiente y de las variables añadidas según la fórmula de la potencia del motor es importante (en la tabla, v*p representa la velocidad × pendiente, v*a representa la 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣 × 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛, v2 representa la velocidad2 y P representa la presión). Por último, puede detectarse un mal comportamiento de los modelos cuando se introduce la variable temperatura.

Los modelos realizados para el análisis de las variables mostrado en la Tabla resumen 1 fueron alimentados con una base de datos en la que se incluían datos de una sola línea, tanto para el entrenamiento como para la prueba. El fin de esta base de datos fue el de eliminar toda la variabilidad no explicada que fuera posible para únicamente tener en cuenta las variables que se iban introduciendo.

Después se comprobaron los modelos obtenidos utilizando diferentes bases de datos que, a priori, iban a proporcionar una mayor complejidad en la búsqueda de los modelos. Esto se hizo igualmente para el NOx y las partículas.

En cuanto al estudio del NOx, la Tabla resumen 2 muestra los resultados más característicos.

Las conclusiones que se obtienen son parecidas a las obtenidas en el caso del CO2.


9

Modelo

Error relativo


Error FE


NOX_000 2,38% 15,85% -13,73% 0,0041 NOX_444 1,67% 12,90% -9,63% 0,003

Temperatura -41,74% 22,50% 240,49% 0,003 Presión 0,91% 13,06% -5,25% 0,003

Pendiente 1,07% 10,45% -6,14% 0,0025 Pendiente+v*a+P 0,51% 10,06% -2,29% 0,0021

Tabla resumen 2. Resultados de los modelos más significativos en el estudio y análisis del NOx

Por último, la Tabla resumen 3 muestra los resultados más significativos obtenidos en el estudio de las partículas en suspensión.

Modelo

Error relativo


Error FE


PART_000 1,85% 10,80% -7,56% 4,59E-09 PART_444 1,25% 10,35% -5,11% 4,89E-09

Temperatura -22,64% 15,42% 92,34% 4,75E-09 Presión 1,16% 10,33% -4,75% 4,89E-09

Pendiente 0,86% 8,46% -3,50% 4,37E-09 Pendiente+v*a+Presión 0,71% 8,38% -2,90% 4,34E-09

Tabla resumen 3. Resultados de los modelos más significativos en el estudio y análisis de partículas

Como conclusiones finales más importantes se puede decir que: los ficheros que se incluyen en la base de datos proporcionada por la EMT Madrid no están sincronizados; los modelos de predicción que utilizan únicamente las variables cinemáticas se quedan muy cortos, siendo necesario la introducción de la pendiente y de las diferentes componentes de la fórmula del cálculo de la potencia de un motor; se ha detectado mediante las gráficas que las predicciones de los modelos son peores cuando la velocidad supera un cierto valor; los picos de emisión no se modelan con una gran precisión. Las conclusiones anteriores llevan a otra más amplia: no es posible explicar toda la variabilidad que existe detrás de la emisión de contaminantes con las variables consideradas ya que existen otras muchas que se deberían tener en cuenta en modelos más avanzados: variables internas del motor, fuerza de rozamiento con el suelo, etc.

Palabras clave: Boosting, base learner, emisiones, CICLOPE, error relativo, desviación estándar, error cuadrático, MAPE, predicción, NOx, CO2, partículas, aprendizaje supervisado, Machine Learning.

Códigos UNESCO: 120302, 120801, 120903, 120909, 120914, 250902, 331313.


10

ÍNDICE 1. INTRODUCCIÓN .................................................................................................. 15

1.1. Proyecto cíclope/Marco de desarrollo del proyecto......................................... 15

1.2. Las consecuencias de las emisiones de gases por parte del ser humano ......... 16

1.3. Estado del arte .................................................................................................. 17

1.4. Motores de combustión interna alternativos (MCIA) ...................................... 19

1.4.1. Emisiones de los MCIA ............................................................................ 20

1.4.1.1. Gases de efecto invernadero emitidos por los MCIA (contaminantes indirectos) 20

1.4.1.1.1. Dióxido de carbono (CO2) ............................................................ 20

1.4.1.2. Gases emitidos por los MCIA con consecuencias directas para la salud humana (contaminantes directos). .............................................................. 21

1.4.1.2.1. Monóxido de carbono (CO) .......................................................... 21

1.4.1.2.2. Óxidos de nitrógeno (NOx) ........................................................... 22

1.4.1.2.3. Hidrocarburos (HC)....................................................................... 22

1.4.1.2.4. Partículas en suspensión (PM) ...................................................... 23

2. OBJETIVOS............................................................................................................ 25

3. FUNDAMENTO TEÓRICO ESTADÍSTICO Y CONCEPTOS BÁSICOS .......... 27

3.1. Algoritmos de aprendizaje automático. Machine Learning ............................. 27

3.2. Algoritmos de aprendizaje supervisado ........................................................... 27

3.3. Boosting ........................................................................................................... 28

3.3.1. Conceptos generales ................................................................................. 28

3.3.2. Pequeño ejemplo del funcionamiento de Boosting. ................................. 29

3.3.3. AdaBoost .................................................................................................. 29

3.3.4. Modelos de regresión y Boosting en este trabajo. Aplicación de Boosting para estos datos........................................................................................................ 36

3.4. Diferencia entre Bagging y Boosting ............................................................... 38

3.5. Ventajas y desventajas de Boosting ................................................................. 39

3.6. Sobreajuste ....................................................................................................... 39

3.7. Medidas de error utilizadas .............................................................................. 41

3.7.1. Error cuadrático de validación cruzada .................................................... 41

3.7.2. Error relativo promedio ............................................................................ 42

3.7.3. Desviación típica o estándar ..................................................................... 43


11

3.7.4. Error en el factor de emisión .................................................................... 43

3.7.5. MAPE ....................................................................................................... 44

3.8. Importancia de las variables............................................................................. 45

3.9. Boosting con R. Sentencias utilizadas en R ..................................................... 45

4. BASE DE DATOS .................................................................................................. 48

4.1. Descripción ...................................................................................................... 49

5. PROCEDIMIENTO ................................................................................................ 53

5.1. Comprensión del alcance del proyecto ............................................................ 53

5.2. Elección de ensayos a utilizar y emisiones a estudiar...................................... 53

5.3. Búsqueda de las variables explicativas que se pueden obtener directamente de la base de datos proporcionada ................................................................................... 54

5.4. Obtención de otras variables cinemáticas ........................................................ 55

5.5. Cálculo de un perfil de pendientes para cada ruta ........................................... 55

5.5.1. Utilización del programa GPS Visualizer ................................................ 56

5.5.2. Obtención de la distancia acumulada ....................................................... 56

5.5.3. Conversión de los datos a base distancia. ................................................. 56

5.5.4. Obtención de la altura promediada y la pendiente en base distancia ....... 57

5.5.5. Conversión de la pendiente a base tiempo................................................ 57

5.5.6. Elaboración de gráficas y comprobación de los resultados ...................... 58

5.6. Búsqueda de otras variables explicativas en la elaboración de los modelos ... 60

5.7. Caracterización del desfase .............................................................................. 60

5.8. Elaboración de las bases de datos finales ........................................................ 61

5.9. Búsqueda del mejor modelo mediante la introducción de las variables consideradas y análisis de los resultados .................................................................... 61

5.10. Comprobación de la utilidad de los modelos ............................................... 62

6. ANÁLISIS Y ESTUDIO DE LAS EMISIONES DE CO2..................................... 64

6.1. Estudio de gráfica emisiones de CO2/velocidad ............................................. 64

6.2. Estudio del retardo en las variables cinemáticas.............................................. 65

6.3. Adición de variables ambientales .................................................................... 68

6.4. Búsqueda del modelo final mediante la adición de nuevas variables según diferentes criterios. Prueba de los modelos con un ensayo de una línea entrenada .... 70

6.4.1. Adición de la pendiente ............................................................................ 71

6.4.2. Adición de variables en función del cálculo de la potencia del motor. .... 73

6.5. Problemática del MAPE .................................................................................. 77


12

6.6. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que ha sido entrenada ............... 80

6.7. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que no ha sido entrenada .......... 81

6.8. Tipo de base learners utilizados en los modelos .............................................. 83

7. ANÁLISIS Y ESTUDIO DE LAS EMISIONES DE NOx .................................... 86

7.1. Estudio de gráfica emisiones de NOx/velocidad ............................................. 86

7.2. Estudio del retardo en las variables cinemáticas.............................................. 87

7.3. Adición de variables ambientales .................................................................... 90

7.4. Búsqueda del modelo final mediante la adición de nuevas variables según diferentes criterios. Prueba de los modelos con un ensayo de una línea entrenada. ... 91

7.4.1. Adición de la pendiente ............................................................................ 91

7.4.2. Adición de las variables en función del cálculo de la potencia del motor 94

7.5. Problemática del MAPE .................................................................................. 96

7.6. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que ha sido entrenada ............... 99

7.7. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que no ha sido entrenada ........ 100

8. ANÁLISIS Y ESTUDIO DE LAS EMISIONES DE PARTÍCULAS ................. 104

8.1. Estudio de gráfica emisiones de partículas/velocidad. .................................. 104

8.2. Estudio del retardo en las variables cinemáticas............................................ 105

8.3. Adición de las variables ambientales ............................................................. 107

8.4. Búsqueda del modelo final mediante la adición de nuevas variables según diferentes criterios. Prueba de los modelos con un ensayo de una línea entrenada .. 109

8.4.1. Adición de la pendiente. ......................................................................... 109

8.4.2. Adición de variables en función del cálculo de la potencia del motor ... 111

8.5. Problemática del MAPE ................................................................................ 113

8.6. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que ha sido entrenada. ............ 115

8.7. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que no ha sido entrenada ........ 116

9. CONCLUSIONES FINALES Y LINEAS FUTURAS ......................................... 120

9.1. CONCLUSIONES ......................................................................................... 120

9.2. LINEAS FUTURAS ...................................................................................... 121

10. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO ......................................... 124


13

10.1. Planificación temporal................................................................................ 124

10.1.1. Investigación y estudio del proyecto................................................... 124

10.1.2. Tratamiento de la base de datos .......................................................... 124

10.1.3. Estudio de los modelos y búsqueda de otras variables ....................... 124

10.1.4. Análisis y estudio de las emisiones de CO2 ....................................... 125

10.1.5. Análisis y estudio de las emisiones de NOx ....................................... 125

10.1.6. Análisis y estudio de las emisiones de partículas ............................... 125

10.1.7. Redacción y corrección de errores. ..................................................... 125

10.2. Presupuesto................................................................................................. 128

11. Bibliografía............................................................................................................ 131

ANEXOS ...................................................................................................................... 136

Anexo 1. Código de R ............................................................................................... 136

Anexo 2. Índice de figuras ........................................................................................ 138

Anexo 3. Índice de tablas .......................................................................................... 141


14


15

1. INTRODUCCIÓN

1.1. Proyecto cíclope/Marco de desarrollo del proyecto

El Trabajo de Fin de Grado (TFG) que se va a presentar en este texto puede enmarcarse dentro del siguiente proyecto: “Sistema de optimización de ciclos urbanos de conducción. Aplicación a la generación de patrones adaptados a exigencias medioambientales y situaciones de explotación de flotas de vehículos” o, más conocido por su acrónimo, CICLOPE.

En este proyecto se trata de conseguir desarrollar un sistema experto capaz de generar patrones de conducción basados en ciclos optimizados bajo algoritmos multicriterio, con los que sea posible establecer prioridades de reducción de cualquiera de las emisiones de interés (CO2, NOx, partículas, CO, hidrocarburos…). También se trata de prever el consumo en función de condiciones medioambientales, cambiantes según la zona urbana y el clima en diferentes periodos temporales, y condiciones cinemáticas. Por otro lado, se plantea el desarrollo de dispositivos embarcados que, mediante una interfaz adecuada, indiquen al conductor las condiciones en que debe operar el tren de potencia del vehículo para lograr los objetivos de optimización deseables en cada caso.

Para lograr los objetivos anteriores se plantea un programa de investigación teórico-experimental, en el que, a partir del análisis teórico de los ciclos de operación de autobuses urbanos, de registros en tiempo real de las emisiones, consumos, velocidades, y otros factores, utilizando equipos embarcados de gran precisión, y mediante la aplicación de métodos estadísticos avanzados para el tratamiento de la información registrada, sea posible identificar y clasificar diferentes ciclos de conducción, establecer criterios de optimización, desarrollar el sistema experto ya mencionado, y validar el sistema en conjunto y cada una de las partes.

En el caso de este Trabajo de Fin de Grado, la parte que se estudia es la de la aplicación de métodos estadísticos avanzados para el tratamiento de la información registrada, utilizando el algoritmo denominado Boosting.

El proyecto CICLOPE comenzó en 2016 y tiene un plazo aproximado de 3 años, llegando a su fin en diciembre de 2018.

Se cuenta también con el compromiso de colaboración de la Empresa Municipal de Transportes de Madrid (EMT Madrid) para llevar a cabo el programa experimental poniendo a disposición del equipo investigador los vehículos y conductores necesarios. Esta empresa está interesada en los resultados del proyecto y así lo manifiesta en el correspondiente documento de compromiso.


16

Este proyecto ha sido desarrollado por investigadores del Instituto de Investigación del Automóvil (INSIA) y por profesores de la Escuela Técnica Superior de Ingenieros Industriales (ETSII) y la Escuela Técnica Superior de Ingenieros de Minas y Energía (ETSI Minas). Este TFG se puede enmarcar dentro de una de las líneas de investigación de CICLOPE, contando con la colaboración de los tutores José Mira Mcwilliams y Natalia Elizabeth Fonseca.

1.2. Las consecuencias de las emisiones de gases por parte del ser humano

Las consecuencias de las emisiones de gases debido al desarrollo de la actividad humana pueden englobarse en dos grandes grupos: la aceleración del cambio climático y las consecuencias directas para la salud humana.

• La aceleración del cambio climático: posiblemente, el cambio climático constituye la amenaza medioambiental más preocupante a la que se enfrenta la humanidad. Según Greenpeace, el aumento de la temperatura global del planeta en el año 2016 fue de 1,6 grados, siendo el mayor aumento de temperatura de la historia de la humanidad. Otros hechos, como la subida del nivel del mar o el deshielo de las masas glaciares, muestran la peligrosidad de este proceso. Alguna de las consecuencias principales del cambio climático son: mayor número de olas de calor, sequías e incendios forestales en el sur y el centro de Europa; fenómenos climáticos cada vez más extremos que pueden provocar inundaciones y el deterioro de la calidad del agua; peligros para la salud humana, tales como muertes súbitas producidas por altas temperaturas; riesgos para la naturaleza; y costes para la sociedad y la economía (entre 1980 y 2011 las inundaciones afectaron a más de 5,5 millones de personas y causaron pérdidas económicas directas por valor de unos 90.000 millones de euros). Pero, ¿cuáles son los gases culpables de esta problemática? Los principales gases de efecto invernadero son el vapor de agua (H2O), el dióxido de carbono (CO2), el óxido nitroso (N2O), el metano (CH4) y el ozono (O3). Además, existen una serie de gases de efecto invernadero en la atmósfera creados íntegramente por el ser humano, como los halocarbonos y otras sustancias con contenido de cloro y bromo.

• Consecuencias directas para la salud humana: algunas de las sustancias emitidas, como los NOx o las partículas en suspensión, suponen un peligro directo para la salud humana, como se detallará más adelante

Si bien es cierto que el sector energético es el principal contribuyente al calentamiento global, este trabajo se centra en el estudio y tratamiento de las emisiones de los motores de combustión (en concreto de los motores de combustión interna alternativos – MCIA).


17

1.3. Estado del arte

La contaminación es un problema de gran importancia. Movidos por todas las consecuencias citadas en el punto anterior, la mayoría de los países y ciudades están tratando de buscar una solución a las emisiones descontroladas de gases nocivos.

En el ámbito local, se puede observar como Madrid ha establecido varias medidas (las denominadas “30 medidas”) para luchar contra la contaminación del aire. El Área Central Cero Emisiones en el distrito Centro de Madrid será establecida en noviembre de 2018. Con esta medida se eliminará el tráfico de paso en el distrito Centro, teniendo el ciclista, el peatón y el transporte público más espacio. Otras de estas 30 medidas serán la prioridad para los peatones, una mejora y ampliación de la red ciclista, ampliación de BiciMad y coordinación con el Consorcio Regional de Transportes, limitación de la velocidad máxima de circulación a 70 km/h en la M30 y en las vías de acceso desde su intersección con la M40, o planes de movilidad laboral sostenible. Dentro de estas 30 medidas recogidas en la página web del Ayuntamiento de Madrid, tiene especial relevancia dentro del marco de este TFG la “ampliación y renovación de la flota de la Empresa Municipal de Transportes de Madrid (EMT)”. El programa 2016-2020 supuso una gran inversión en la búsqueda de nuevos autobuses. La inversión superó los 63 millones de euros, adquiriéndose 130 autobuses estándar y 40 articulados propulsados por gas natural, además de 30 autobuses híbrido (Ayuntamiento de Madrid, 2018).

En España, el Plan Nacional de Calidad del Aire y Protección de la Atmósfera de 2013-2016, regula los objetivos y medidas con respecto a las emisiones contaminantes (Ministerio de agricultura, pesca y alimentación: Ministerio para la transición ecológica, 2018).

Según la Ley 5/2009 de 20 de octubre de la Comunidad de Madrid, de Ordenación del Transporte y la Movilidad por Carretera, y que tiene vigencia hasta el año 2025, muchas mejoras se han llevado a cabo en la flota de autobuses de la Empresa Municipal de Transportes de Madrid (EMT) desde el año 2007, año en el cual se realizaron los ensayos de los que se dispone para realizar este trabajo.

Muchas son las vías de investigación en torno a la materia de las emisiones contaminantes en los vehículos. Además, nuevas leyes como la obligación a colocar la pegatina del distintivo ambiental en los vehículos privados en la Comunidad de Madrid dan más fuerza aún a esta problemática. La figura 1 muestra los diferentes distintivos ambientales que existen actualmente.


18

Figura 1. Distintivos ambientales obligatorios (Ministerio del Interior de España: Dirección general de tráfico, 2018)

A nivel global, el Protocolo de Kyoto de 1997 o el Acuerdo de París de 2015, renovado recientemente, muestran la preocupación por las emisiones contaminantes y sus consecuencias en todo el planeta.

Los antecedentes, en cuanto a este trabajo se refiere, pueden dividirse en dos: antecedentes en el estudio de la emisión de gases contaminantes en vehículos y antecedentes en el estudio y aplicación de la técnica estadística aplicada.

En su tesis doctoral, Natalia Elizabeth Fonseca diseña un equipo de medición para ser embarcado en un vehículo y que sea capaz de medir en tiempo real las concentraciones de emisiones y el caudal de gases de escape, al mismo tiempo que se registran las variables del motor, del vehículo y del entorno. Las conclusiones finales a las que se llega en esta tesis son que es posible medir emisiones másicas y consumo de motores de vehículos en uso real y que los resultados permiten establecer políticas de reducción de impacto ambiental y de eficiencia energética, pero se deben establecer unas metodologías precisas (Fonseca, 2012)

En 2009, P.G. Boulter y I.S. McCrae estudian las diferencias entre modelos de predicción diferentes y el porqué de las mismas. En este proyecto se incluye un importante programa de medición de emisiones. Para el transporte en carretera, las mediciones realizadas en muchos laboratorios de Europa se utilizaron para examinar las razones de la variabilidad de los datos y para formar la base de una guía de “mejores prácticas” para mediciones futuras (Boulter & McCrae, 2007)

Más cercano a este trabajo se encuentra el estudio llevado a cabo en (Aparicio Izquierdo, Jiménez Alonso, López Martínez, & Flores Holgado, 2009) .En este trabajo se comparan, mediante ensayos con equipo de medida embarcados, dos alternativas para controlar las emisiones en autobuses urbanos circulando por una ruta tipo que comprende zonas urbanas e interurbanas.


19

En 2014, Alfonso Román de Andrés escribe en su tesis doctoral una metodología para optimizar la asignación de una flota de vehículos a sus rutas, consiguiendo reducir el consumo y las emisiones contaminantes. Esta tesis doctoral fue realizada en la Escuela Técnica Superior de Ingenieros Industriales (ETSII), al igual que el presente trabajo (Andrés, 2014).

En cuanto a la aplicación del método Boosting se refiere, Raquel Úbeda Navarro aplica Boosting en el campo de la detección de objetos en su trabajo final de carrera. El trabajo consiste en la creación de un sistema capaz de procesar una imagen y determinar si en ella, se encuentra o no un determinado objeto. En particular, estudia las matrículas de diferentes vehículos (Navarro, 2004).

Esteban Alfaro Cortés, en su tesis doctoral, aplica el método Boosting para la predicción del fracaso empresarial en España (Cortés, 2005).

Mención aparte merece el libro “The elements of Statistical Learning: Data mining, Inference and Prediction”, de Hastie, Tibshirani y Friedman. Este libro ha sido muy importante en el proceso de aprendizaje y comprensión de los conceptos que existen detrás del Boosting. Para aquellos que, más allá del presente trabajo, deseen ahondar en estos temas se recomienda la lectura y estudio de este libro.

Por último, Benjamin Hofner, Andreas Mayr, Nikolay Robinzonov y Matthias Schmid escriben un interesante artículo acerca de Boosting aplicado en R en “Model-based Boosting in R:a hands-on tutorial using the R package mboost” . Este artículo es uno de los pioneros en la materia y ha servido de gran uso en el proceso de comprensión de la herramienta aplicada en el programa estadístico a utilizar (Hofner, Mayr, Robinzonov, & Schmid, 2012).

1.4. Motores de combustión interna alternativos (MCIA)

Los motores de combustión interna alternativos son motores térmicos que obtienen energía mecánica gracias a la energía química de un combustible que arde dentro de la cámara de combustión. Los gases provenientes de la reacción exotérmica mencionada empujan al pistón, desplazándolo en el interior de un cilindro y haciendo girar un cigüeñal para obtener un movimiento de rotación.

Existen diferentes clasificaciones para este tipo de motores:

1. Según la forma de provocar el encendido de la mezcla: Motores de encendido provocado (MEP): son los motores tradicionales de

gasolina. Motores de encendido por compresión (MEC): son los motores diésel. Motores de mezcla pobre estratificada (MMPE): son otro tipo de motores

de gasolina. 2. Según la forma de hacer la renovación de carga:


20

Ciclo de cuatro tiempos. Ciclo de dos tiempos.

Los MCIA presentan ventajas e inconvenientes. Como ventajas más destacables se pueden mencionar el uso de combustibles líquidos de gran poder calorífico, lo que proporciona elevadas potencias y alta autonomía; la obtención de rendimiento aceptables (de entre el 25 y el 40% en automoción); o el amplio campo de potencias. El inconveniente principal es la contaminación debido a la emisión de gases contribuyentes en el smog fotoquímico y en el efecto invernadero. Precisamente este inconveniente es el que se va a tratar en este trabajo.

Son numerosas y variadas las aplicaciones de este tipo de motores (maquinaria de obra pública, maquinaria agrícola y ferrocarril, motores marinos, grupos generadores de energía eléctrica), pero ha de destacarse la utilización en los automóviles.

1.4.1. Emisiones de los MCIA Como se ha explicado anteriormente, dos grandes grupos engloban las consecuencias fundamentales de la emisión de gases de los MCIA. Se describirán todos estos gases incluyéndolos en uno de estos dos grupos.

1.4.1.1. Gases de efecto invernadero emitidos por los MCIA (contaminantes indirectos)

1.4.1.1.1. Dióxido de carbono (CO2) El dióxido de carbono es un gas incoloro y vital para la vida en la Tierra. Este compuesto químico se encuentra en la naturaleza y está compuesto de un átomo de carbono unido con enlaces covalentes dobles a dos átomos de oxígeno.

El dióxido de carbono es el principal gas de efecto invernadero que existe. Al absorber y emitir radiación infrarroja, calienta la superficie y la atmósfera inferior y enfría la atmósfera superior. De hecho, la mayoría de los climatólogos hablan del aumento de la concentración atmosférica de CO2 como la principal causa del aumento de la temperatura media global desde mediados del siglo XX.

Como puede observarse en la figura 2, suministrada por el “U.S. Global Change Research Program (USGCRP)”, el aumento de la concentración de CO2 en la atmósfera ha traído consigo un aumento de la temperatura media global desde unos 13,72 grados centígrados en 1880 hasta unos 14,5 grados centígrados a principios del siglo XXI.


21

Figura 2. Aumento de la temperatura global y de la concentración de CO2 Mundial (U.S. Global Change Research Program, 2018)

1.4.1.2. Gases emitidos por los MCIA con consecuencias directas para la salud humana (contaminantes directos).

1.4.1.2.1. Monóxido de carbono (CO) El monóxido de carbono es un gas inodoro y altamente tóxico que se produce por la combustión incompleta de gas natural u otros productos que contengan carbono, como el petróleo o la gasolina, debido a un exceso de combustible o a una falta de oxígeno en la mezcla.

En este punto, cabe definir el dosado del motor. El dosado es la proporción de aire que entra al motor. Cuanto mayor sea el dosado se dice que es “menos rico” puesto que tiene una proporción de aire mayor y, por lo tanto, una proporción de combustible menor. El dosado estequiométrico es 14,57 y, con él, la explosión en el motor es la más equilibrada posible. Una vez descrito esto, es fácil deducir que cuanto más rico sea el dosado – o lo que es lo mismo, menor valor tenga- mayores serán las emisiones de CO. También las de CO2 y el consumo de combustible. Los dosados más característicos son 12, 15, 18 y más de 20. Cabe destacar que los motores diésel suelen trabajar con exceso de aire, es decir, con un dosado elevado. Por el contrario, los motores de gasolina suelen utilizar mezclas cercanas a la estequiométrica consumiendo más y, por consiguiente, produciendo unas mayores emisiones de CO que los motores diésel.

Este gas es muy peligroso para la salud humana puesto que, incluso en una pequeña concentración, es realmente tóxico. Puede provocar problemas respiratorios, dolor en el pecho, coma, mareo, somnolencia, desmayo, etc. Además, es el causante de la conocida “muerte dulce”. De hecho, el CO es la causa principal de muerte por intoxicación en los Estados Unidos.


22

1.4.1.2.2. Óxidos de nitrógeno (NOx) Con el nombre de NOx se designa a un grupo de compuestos químicos gaseosos formados por la combinación de oxígeno y nitrógeno. Los más importantes dentro de este grupo son el óxido nítrico (NO) y el dióxido de nitrógeno (NO2).

El origen de estos dos gases es principalmente antrópico. Su formación se debe a la oxidación que sufre el nitrógeno atmosférico a temperaturas elevadas, alcanzándose los 1500ºC. El exceso de oxígeno favorece el proceso de oxidación:

N2 + 02 ↔ 2NO

El principal gas emitido por los vehículos es el NO, sin embargo, éste se oxida en NO2 a medida que la temperatura va disminuyendo (fuera del motor y del sistema de escape). Por tanto, cerca de la fuente emisora, el ratio NO/NO2 es mucho más alto que en las zonas más alejadas.

En el caso de los NOx, el dosado influye de forma contraria a los que sucedía en el caso del monóxido de carbono. Cuanto más rica es la mezcla (menor es el dosado), menores cantidades de emisiones de NOx se presentan. Por el contrario, si el dosado se encuentra por encima de 15 o, lo que es lo mismo, por encima del dosado estequiométrico, las emisiones de NOx empiezan a crecer junto con el dosado. Debido a todo esto, los motores diésel emiten una mayor cantidad de NOx que los motores de gasolina.

El NO2 es una seria amenaza para la salud de las personas. Las consecuencias de la inhalación del NO2 pueden clasificarse en función del tiempo de exposición y de la cantidad de contaminante al que se está expuesto:

1. Exposición a bajos niveles de NO2 durante un período de tiempo elevado: sensación de ahogo e irritación, debilitación de la resistencia de los pulmones ante posibles infecciones en los asmáticos, enfisema.

2. Exposición a altos niveles de NO2 durante un período corto de tiempo: quemaduras en la piel, ojos y garganta, y lesiones en las vías respiratorias y en los pulmones.

1.4.1.2.3. Hidrocarburos (HC) Son hidrocarburos no quemados o quemados parcialmente debido a una combustión incompleta. Se producen cuando no ha habido suficiente oxígeno para la combustión completa debido a diferentes razones (mal funcionamiento del suministro de aire, condiciones de funcionamiento con un dosado elevado…). Al producirse con defecto de oxígeno, son más típicos de los motores de gasolina.

Los hidrocarburos más perjudiciales son los de peso molecular más bajo, tanto los alifáticos saturados y no saturados, como los aromáticos, así como los policlorobifenilos, dioxinas, furanos, etc.

Son tóxicos y pueden provocar irritación en los ojos, en la piel y en los pulmones (hidrocarburos alifáticos) y cáncer (hidrocarburos aromáticos).


23

1.4.1.2.4. Partículas en suspensión (PM) Son una serie de diminutos cuerpos sólidos o de gotitas de líquidos dispersos en la atmósfera. Se generan sobre todo por la combustión en los motores, pero también por el roce de las ruedas con el pavimento.

En la combustión, se forman debido a la deshidrogenación de los hidrocarburos llevándose a cabo mediante una combustión incompleta. Son, por tanto, características de los motores diésel. Cuanto mayor sea el dosado, mayor será la cantidad de partículas emitidas por el motor.

La clasificación más típica de este tipo de partículas es la que tiene que ver con su medida y con la forma en que se comportan al respirarlas. Por un lado, están las partículas de tamaño aerodinámico igual o inferior a 10 µm (PM10), que suelen llegar más allá de la garganta. A continuación, pueden clasificarse las que tienen un tamaño menor o igual a 2,5 µm (PM2,5), que pueden llegar hasta los pulmones. Finalmente, están las ultrafinas (tamaño menor a 0,1 µm), que pueden pasar de los alveolos pulmonares a la sangre.

Los efectos nocivos de este tipo de partículas en la salud son numerosos: deterioro de los sistemas respiratorio y cardiovascular, alteración de los sistemas de defensa del organismo, daños al tejido pulmonar, carcinogénesis y mortalidad prematura.


24


25

2. OBJETIVOS

Todo esto no hace más que reafirmar la importancia que tiene el tratamiento de las emisiones contaminantes debido al transporte público de un tiempo a esta parte y, por tanto, la importancia de los objetivos de este trabajo:

• Elaborar distintos modelos de predicción de las emisiones contaminantes más relevantes (en nuestro caso, NOx, CO2 y partículas) con el fin de obtener un modelo final de entre estos. Estos modelos se realizarán utilizando el algoritmo Boosting sobre los ensayos que se encuentran en la base de datos proporcionada por la EMT. Especial importancia cobrará el tratamiento de las emisiones de NOx, debido a que se va a trabajar con los datos correspondientes a los motores diésel (MEC). El algoritmo Boosting se aplicará en el programa estadístico R.

• Estudio y análisis de la influencia e importancia en las emisiones contaminantes de las distintas variables que, de un modo teórico previo al estudio experimental, pueden considerarse influyentes. Éstas son las variables cinemáticas (velocidad, aceleración y sobreaceleración), las variables ambientales (temperatura, presión y humedad) y la pendiente del autobús en cada momento.

• Elaboración de perfiles de altitud y pendiente en base tiempo, conocidas la latitud y la longitud en cada instante, medidas por un sensor GPS integrado en los autobuses.

• Análisis de la importancia de la pendiente. Comprobación de que la pendiente es una la variable explicativa principal de los modelos de emisión junto con las variables cinemáticas y las combinaciones entre estas.

• Análisis y posibles soluciones y/o respuestas a los posibles problemas o malos resultados en el estudio de los errores de predicción.


26


27

3. FUNDAMENTO TEÓRICO ESTADÍSTICO Y CONCEPTOS BÁSICOS

3.1. Algoritmos de aprendizaje automático. Machine Learning

Machine Learning – en español, aprendizaje automático- nació en la década de los 60 como rama asociada a la Inteligencia Artificial. Es una subdisciplina de la Inteligencia Artificial, producto de las ciencias de la computación, las neurociencias y de la estadística, que proporciona a los computadores la habilidad de aprender sin ser explícitamente programados.

El objetivo de este tipo de algoritmos es el de conseguir que, mediante una base de datos y unas determinadas instrucciones, éste aprenda de una forma parecida a la que lo haría un humano sin necesidad de un código ni de una programación específica.

El campo de aplicación de este tipo de algoritmos cada vez es más extenso. Algunas de las aplicaciones actuales más importantes son los motores de búsqueda, diagnósticos médicos, detección de fraude en el uso de tarjetas de crédito, análisis de mercado de valores, etc.

Los algoritmos de Machine Learning pueden ser clasificados en tres grandes grupos: los de aprendizaje supervisado, los de aprendizaje no supervisado y los de aprendizaje por refuerzo.

3.2. Algoritmos de aprendizaje supervisado

En este tipo de algoritmos, los datos sobre los que se trabaja son datos que representan escenarios que ya han sucedido y de los que se conoce su “desenlace”.

El objetivo del aprendizaje supervisado es el de crear una función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber visto una serie de ejemplos, los datos de entrenamiento (Wikipedia, 2018).

Para poder explicar esto de una manera más asequible para el lector, se puede decir que el procedimiento es el siguiente:

1. Se tiene una serie de datos con unas variables de entrada y una variable de salida. 2. Se conocen los valores de las variables de entrada y de la variable de salida. 3. Con algunos de los datos se constituye el conjunto de entrenamiento sobre el que

se entrena el modelo. El objetivo en esta etapa es que el programa aprenda de una gran cantidad de ejemplos y elabore un modelo que se ajuste lo mejor posible a


28

ellos para que, a partir de ese momento, el programador no tenga que volver a variar nada.

4. Con el conjunto de datos restantes, denominado conjunto de test o de prueba se comprueba que el modelo ha sido entrenado de manera correcta y que, introduciendo las variables de entrada, los valores de la variable salida son precisos o tienen la forma esperada. Esto se realiza comparándolos con los datos de la variable salida del conjunto de test, que son conocidos.

Dentro del marco de los algoritmos supervisados puede encontrarse el meta-algoritmo que se ha aplicado en este trabajo: Boosting.

3.3. Boosting 3.3.1. Conceptos generales

El concepto que existe detrás del término Boosting es el de conseguir un clasificador fuerte a partir de muchos clasificadores débiles, comúnmente denominados weak learners o base learners. Estos clasificadores pueden entenderse como modelos: modelos de regresión lineal simple, modelos de regresión lineal múltiple o, por ejemplo, modelos binarios en los que se trabaja con dos tipos de datos (+1 y -1), como en AdaBoost, método que se explicará en detalle más adelante.

Un clasificador débil es aquel cuya tasa de error es solo ligeramente mejor que una predicción aleatoria. Esto quiere decir que tiene una probabilidad de acierto algo mayor que el 50% (Hastie, Tibshirani, & Friedman, 2008).

En este punto, es de importancia hablar del concepto de ensemble. Un ensemble es una combinación o un conjunto de modelos (también referidos como miembros del ensemble). Cada uno de los modelos del ensemble es un base learner. Por ejemplo, si se tienen base learners que son modelos de regresión lineal múltiple, el ensemble estará formado por un número m de modelos de regresión lineal múltiple teniendo cada uno unos valores de la variable salida diferentes.

Las causas principales de error en el aprendizaje en algoritmos de aprendizaje supervisado son el ruido, la varianza y el sobreajuste. Los métodos que se basan en un ensemble ayudan a disminuir estos factores y aumentan la precisión.

Existen una serie de métodos denominados ensemble methods que utilizan el concepto de ensemble para conseguir un clasificador final fuerte.

Dos son los modelos fundamentales que se pueden enmarcar dentro de este grupo: Boosting y Random Forest, que aplica un método para la manipulación del conjunto de entrenamiento denominada Bagging. Tanto en Bagging como en Boosting se manipula el conjunto de entrenamiento para construir nuevos base learners, pero en cada caso se hace con una estrategia diferente.


29

3.3.2. Pequeño ejemplo del funcionamiento de Boosting. Antes de detallar los fundamentos de AdaBoost se va a comentar un ejemplo que el profesor de Ingeniería Eléctrica y Computer Science en la Universidad de Michigan, Jason Corso, explica con el fin de hacer más inteligible el estudio de AdaBoost.

Este ejemplo hace referencia al proceso de obtener un filtro capaz de discernir si un correo es correo no deseado o no lo es. La idea sería establecer muchas “etiquetas” para los distintos correos que llegaran en función de distintas características que se encontraran en el correo. Algunas podrían ser:

1. Si en el correo pone “compra ahora”, el correo es clasificado como no deseado. 2. Si el correo sólo tiene una imagen, el correo es no deseado. 3. Si el correo tiene solo un link a otra página web, el correo es no deseado. 4. Si el correo proviene de un dominio conocido (por ejemplo, etsii.upm.es), si es

deseado. 5. Si el correo viene de una fuente conocida, si es deseado.

Lo ideal sería poder establecer infinitas etiquetas que englobaran todas las condiciones posibles. Es fácil entender que cada una de las etiquetas que se han considerado no son lo suficientemente fuertes como para clasificar un correo como deseado o no por sí solas. Si se aplica, por ejemplo, únicamente la primera etiqueta, no va a ser sencillo clasificar el correo como deseado o no porque un correo puede, perfectamente, no tener escrito “compra ahora” y ser no deseado. Por tanto, cada una de las cinco etiquetas anteriores es un base learner o clasificador débil.

Si se combinan las cinco etiquetas, se podrá obtener un clasificador más fuerte. Si, por ejemplo, 4 de estas etiquetas dicen que el correo es no deseado y 1 dice que el correo si es deseado entonces el correo será no deseado porque el peso de esas 4 será mayor que el peso de la única que dice que el correo sí es deseado.

Se ha obtenido, entonces, un “clasificador fuerte”.

Es importante destacar que este algoritmo no sería un algoritmo de aprendizaje supervisado puesto que no se conoce el “desenlace” del correo: no se comprueba después si era spam o no ni se entrena con un conjunto de entrenamiento y se prueba con un conjunto de test.

3.3.3. AdaBoost En Boosting, siempre se trabaja con el conjunto completo de datos. El conjunto de entrenamiento se manipula dándole diferente peso a los datos en la construcción de los diferentes base learners.

Con el fin de facilitar la comprensión del funcionamiento del método Boosting, se va a explicar la aplicación del método para un algoritmo de clasificación, pero el presente


30

proyecto ha utilizado Boosting aplicado a problemas de regresión, como se explicará más adelante. Este algoritmo de clasificación se llama AdaBoost.

AdaBoost es el algoritmo Boosting más popular y fue desarrollado por Freund and Schapire en 1997. El objetivo de Boosting es aplicar secuencialmente diferentes base learners con verisones modificadas de los datos para producir una secuencia de base learners que finalmente den lugar a un clasificador fuerte. En esta versión de Boosting, los datos son binarios o categóricos, es decir, pueden tomar el valor 1 o el valor -1. Los pasos que utiliza AdaBoost son los siguientes:

8. Inicialmente se les asigna el mismo peso a todos los datos del conjunto de entrenamiento. Este peso es 𝑤𝑤𝑖𝑖 = 1

𝑁𝑁 , donde n es el número de datos del conjunto

e 𝑖𝑖 = 1 …𝑁𝑁. 9. Se entrena el modelo con el conjunto de entrenamiento y con los pesos iniciales

wi, obteniendo el primer base learner. 10. Se calcula el error del modelo en el conjunto de entrenamiento con los pesos

anteriores. Se cuenta cuántos objetos han sido mal clasificados y se identifica cuáles son.

11. Se incrementan los pesos en los datos en los que el modelo ha clasificado erróneamente. Este punto consigue dar más importancia a los datos mal clasificados para, así, en la siguiente iteración obtener un base learner que los considere más y se acerque más a ellos.

12. Se vuelve a entrenar un nuevo modelo (nuevo base learner) con el conjunto de entrenamiento con los pesos modificados.

13. Se repite la secuencia desde el punto 3 hasta el número de iteraciones fijadas. 14. Cada uno de los modelos obtenidos (base learners) se le habrá asignado un peso.

El modelo final se calcula como una votación ponderada por los pesos de todos los modelos.

En términos matemáticos, este algoritmo puede desarrollarse de la siguiente manera.

𝑋𝑋 es el vector de las variables de entrada e 𝑌𝑌 es el vector de la variable de salida.

Si 𝑁𝑁 es el número de datos en el conjunto de entrenamiento, 𝑤𝑤𝑖𝑖 = 1𝑁𝑁

son los pesos iniciales de cada uno de los datos.

𝑚𝑚 = 1 …𝑀𝑀, representa una determinada iteración, siendo M el número de iteraciones.

𝐺𝐺𝑟𝑟(𝑥𝑥) representa cada uno de los modelos o base learners calculados en cada una de las 𝑀𝑀 iteraciones.

𝛼𝛼𝑟𝑟 representa la contribución al modelo final del base learner 𝐺𝐺𝑟𝑟(𝑥𝑥). Habrá por tanto 𝑀𝑀 valores de 𝛼𝛼𝑟𝑟.

Con todo esto, en cada una de las iteraciones se tienen unos base learners 𝐺𝐺1(𝑥𝑥), 𝐺𝐺2(𝑥𝑥), ..., 𝐺𝐺𝑀𝑀(𝑥𝑥). Tras cada una de las iteraciones se calcula el error del modelo de la siguiente manera:


31

𝑣𝑣𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎𝑟𝑟 =∑ 𝑤𝑤𝑖𝑖𝐼𝐼(𝑦𝑦𝑖𝑖 ≠ 𝐺𝐺𝑟𝑟(𝑥𝑥𝑖𝑖))𝑁𝑁𝑖𝑖=1

∑ 𝑤𝑤𝑖𝑖𝑁𝑁𝑖𝑖=1

En la fórmula anterior 𝐼𝐼(𝑦𝑦𝑖𝑖 ≠ 𝐺𝐺𝑟𝑟(𝑥𝑥𝑖𝑖)) es igual a 1 si 𝑦𝑦𝑖𝑖 ≠ 𝐺𝐺𝑟𝑟(𝑥𝑥𝑖𝑖) y es igual a -1 si 𝑦𝑦𝑖𝑖 =𝐺𝐺𝑟𝑟(𝑥𝑥𝑖𝑖).

Tras el cálculo del error se calcula la contribución de ese base learner al modelo final:

𝛼𝛼𝑟𝑟 = 𝑣𝑣𝑣𝑣𝑙𝑙 (1 − 𝑣𝑣𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎𝑟𝑟𝑣𝑣𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎𝑟𝑟

)

Aquí se puede observar que, cuanto menor sea el error, mayor será la contribución de ese base learner al modelo final. Como los base learners mejoran a medida que el conjunto de entrenamiento es modificado mediante la variación de pesos, aquellos correspondientes a las últimas iteraciones serán los que tengan una mayor contribución al modelo final.

Finalmente, se vuelven a calcular los pesos de cada uno de los datos que forman el conjunto de entrenamiento:

𝑤𝑤𝑖𝑖 ← 𝑤𝑤𝑖𝑖 × 𝑣𝑣𝑥𝑥𝑒𝑒 [𝛼𝛼𝑟𝑟𝐼𝐼(𝑦𝑦𝑖𝑖 ≠ 𝐺𝐺𝑟𝑟(𝑥𝑥𝑖𝑖))], con i = 1,2, … , N

Una vez que se ha realizado esto para cada una de las iteraciones (m), se tendrán M base learners (Gm(x)) y M contribuciones distintas al modelo final (αm), cada una de ellas correspondiente a un base learner. Con todo esto, el cálculo del modelo final es el que sigue:

𝐺𝐺(𝑥𝑥) = 𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛�� 𝛼𝛼𝑟𝑟

𝑀𝑀

𝑟𝑟=1

𝐺𝐺𝑟𝑟(𝑥𝑥)�

La función sign obtiene el signo de un número. Por lo que si, por ejemplo, se tiene que 𝐺𝐺(𝑥𝑥) = sign(1,34), el resultado será igual a 1. Hay que recordar que AdaBoost trabaja con valores binarios (1 o -1).

En la figura 3, se muestra un esquema del algoritmo AdaBoost.


32

Figura 3. Esquema del algoritmo AdaBoost (Hastie, Tibshirani, & Friedman, 2008)

El siguiente ejemplo, muestra el procedimiento que este algoritmo sigue para obtener el clasificador fuerte final buscado.

En este ejemplo se tiene un conjunto de datos que se dividen en positivos (+) y negativos (-) en cuanto a valores posibles de la variable respuesta. El objetivo del clasificador final es obtener una separación lo más exacta posible de los datos positivos y negativos.

En primera instancia, se tienen los datos colocados de la forma que aparece en la figura 4.

El algoritmo busca una primera separación de los datos, llevando a cabo la que se observa en la figura 5.


33

Figura 4. Primer escenario (Ray, 2015)

Figura 5. Primera iteración (Ray, 2015)

En esta primera separación se puede observar como la línea vertical ha separado dos datos positivos a la izquierda y el resto a la derecha. A la derecha quedan 3 datos positivos que no están junto a los otros positivos de la izquierda por lo que están mal clasificados. Al estar estos tres datos mal clasificados se les da un mayor peso para la siguiente iteración. Cabe destacar que, en este ejemplo, la línea vertical estaría representando un base learner de los m base learners que habrá en total. En particular, el base learner o clasificador débil de la primera iteración que, como ya se ha visto, es el G1(x). En esta iteración se tiene que el error1 = 0,3 y el α1 = 0,42.

Al tener los datos con unos nuevos pesos, el conjunto de entrenamiento ha cambiado y, por tanto, el base learner que se obtendrá será distinto. En este caso, según la figura 6, se tiene un base learner que, de nuevo, es una línea vertical. Ahora, a la derecha se encuentran todos los datos negativos y a la izquierda los dos positivos que en la primera iteración habían sido bien clasificados y los tres negativos ya bien clasificados, pero han sido incluidos también tres datos negativos. Estos tres datos negativos estarían mal clasificados y, por lo tanto, sus pesos para la siguiente iteración se verán incrementados. En este caso, el error2 = 0,21 y el α2 = 0,65. Como era de esperar, el error ha

𝑣𝑣𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎1 = 0,3 𝛼𝛼1 = 0,42.


34

disminuido y la contribución de esta iteración al modelo final será mayor que la de la anterior.

La tercera iteración (figura 7) consigue separar los tres valores negativos anteriores y, finalmente, se obtiene mediante una votación ponderada por los pesos de todos los clasificadores débiles el modelo final en el que los datos están perfectamente separados entre positivos y negativos (figura 8).

Figura 6. Segunda iteración (Ray, 2015)

Figura 7. Tercera iteración (Ray, 2015)

𝑣𝑣𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎2 = 0,21 𝛼𝛼2 =0,65

𝑣𝑣𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎3 = 0,14 𝛼𝛼3 =0,92


35

Figura 8. Última iteración (Ray, 2015)

Se observa como los errores van disminuyendo y como las contribuciones de los clasificadores débiles aumentan, lo que es lógico puesto que precisamente ese es el fundamento de AdaBoost.

El modelo final, en este caso podría escribirse como:

𝐺𝐺𝑓𝑓𝑖𝑖𝑛𝑛𝑎𝑎𝑎𝑎(𝑥𝑥) = 𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛�𝛼𝛼1 × 𝐺𝐺1(𝑥𝑥) + 𝛼𝛼2 × 𝐺𝐺2(𝑥𝑥) + 𝛼𝛼3 × 𝐺𝐺3(𝑥𝑥)�= 𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛�0,42 × 𝐺𝐺1(𝑥𝑥) + 0,65 × 𝐺𝐺2(𝑥𝑥) + 0,92 × 𝐺𝐺3(𝑥𝑥)�

Esta fórmula se aplicaría a cada uno de los datos que se tiene. Por ejemplo, para el dato marcado en la figura 9 se tendría:

𝐺𝐺𝑓𝑓𝑖𝑖𝑛𝑛𝑎𝑎𝑎𝑎(𝑣𝑣𝑣𝑣𝑑𝑑𝑣𝑣 𝑚𝑚𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣) = 𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛�(0,42 × −1) + (0,65 × 1) + (0,92 × 1)�= 𝑠𝑠𝑖𝑖𝑙𝑙𝑛𝑛(1,15) = 1

El resultado muestra que, en el modelo final, el dato marcado se encuentra en la región que se quiere.

Como en el modelo de la primera iteración el dato estaba mal clasificado y no se encontraba en la región que le correspondía, el valor de G1(dato marcado) es igual a -1. En la segunda y tercera iteración sí se encuentra bien clasificado y, por tanto, los valores de G2 yG3 son 1.

Figura 9. Dato para el que se desarrolla el ejemplo (Ray, 2015)


36

3.3.4. Modelos de regresión y Boosting en este trabajo. Aplicación de Boosting para estos datos.

Cuando se trata de aplicar Boosting para obtener un modelo que, con unas variables de entrada determinadas, proporcione el valor de las emisiones de un autobús es evidente que un algoritmo binario se queda corto. Los valores de las variables de entrada (velocidad, aceleración, temperatura ambiente, etc) tienen un amplio rango posible, así como el valor de la variable de salida (emisiones de NOx, emisiones de CO2, etc). El concepto que existe detrás de esta nueva versión de Boosting es el mismo que el visto hasta ahora, pero considerando los diferentes base learners como modelos de regresión lineales, modelos no lineales de regresión (más en concreto, los denominados additive models), o árboles de regresión.

En primer lugar, se va a tratar de explicar esta versión de Boosting para el caso más simple: cada uno de los base learners son modelos de regresión lineales simples. Pero, ¿qué es un modelo de regresión lineal simple?

Un modelo de regresión lineal es un modelo matemático usado para describir las relaciones existentes entre distintas variables usando funciones de predicción lineales cuyos desconocidos parámetros son estimados desde los datos.

Un modelo de regresión lineal simple es un modelo de regresión lineal que solamente tiene una variable independiente.

Los modelos de regresión lineal simple se pueden representar gráficamente, como se puede observar en la figura 10.

Figura 10. Modelo de regresión lineal simple (Ruiz, y otros, 2017)


37

Este modelo puede escribirse como:

𝑌𝑌𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1 × 𝑋𝑋𝑖𝑖 + 𝑢𝑢𝑖𝑖

En esta fórmula:

𝑌𝑌𝑖𝑖 representa la variable salida para el dato i. 𝛽𝛽0 representa el valor promedio de la variable dependiente cuando la variable

independiente es cero. 𝛽𝛽1 es el coeficiente de regresión. Representa la relación entre la variable

dependiente y la independiente. Muestra cuánto aumenta (o disminuye) en promedio la variable dependiente cuando la variable independiente aumenta en una unidad.

𝑢𝑢𝑖𝑖 es la componente de error que existe en todo modelo de predicción.

En este trabajo se ha utilizado el algoritmo Boosting para obtener modelos que proporcionen el valor de las emisiones de ciertos gases contaminantes por parte de autobuses de la EMT, dadas ciertas variables explicativas.

En este punto, para facilitar la compresión, se supondrá que el consumo de un conjunto de ciertos automóviles sólo depende del peso de los mismos de forma lineal y se aplicará el método Boosting. Al realizar esto, se obtiene el primer modelo de regresión, que puede observarse en la figura 11.

Figura 11. Modelo de regresión lineal que se adapta a los datos (Caro Huertas, Carpio Huertas, Ruiz, Rodríguez Gallego, & Santos Penido, 2012)


38

Tras obtener el primer modelo de regresión con los datos originales, se puede observar cómo los datos marcados son los que presentan un mayor error en el modelo. Volviendo a las ideas explicadas en el punto 3.3.3, estos datos de trabajo tenían todos el mismo peso (𝑤𝑤𝑖𝑖 = 1

𝑁𝑁) y este primer modelo de regresión es el primer base learner del ensemble, 𝐺𝐺1(𝑥𝑥).

En el caso de modelos de regresión, el error en cada una de las m iteraciones será:

𝑣𝑣𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎𝑟𝑟 =∑ 𝑤𝑤𝑖𝑖(𝑌𝑌�𝑖𝑖 − 𝑌𝑌𝑖𝑖)2𝑁𝑁𝑖𝑖=1

∑ 𝑤𝑤𝑖𝑖𝑁𝑁𝑖𝑖=1

Para realizar la siguiente iteración, los tres datos marcados en la figura 11 tendrán un mayor peso que los demás puesto que serán los que añaden una mayor contribución al error en esa iteración, dando lugar a un nuevo modelo de regresión que será el segundo base learner (𝐺𝐺2(𝑥𝑥)).

Si este proceso se repite 𝑚𝑚 veces se obtendrán m base learners, cada uno de ellos será un modelo de regresión lineal simple distinto.

A continuación, se realizaría una votación ponderada de los 𝑚𝑚 base learners de forma análoga a la que se ha explicado en AdaBoost obteniendo un modelo final en forma de modelo de regresión lineal simple.

Para este trabajo se ha aplicado este mismo algoritmo con la diferencia de que los diferentes base learners no son modelos de regresión lineal simples si no que son:

1. Modelo de regresión múltiple. Se utiliza en cada modelo más de una variable independiente o explicativa. Las variables explicativas utilizadas son variables posicionales (pendiente), variables cinemáticas (velocidad, aceleración y sobreaceleración) y variables ambientales (temperatura, presión, humedad).

2. No tienen por qué ser modelos de regresión lineal. Los modelos ahora pueden ser additive models o modelos de regresión lineal múltiple. En los additive models se considera que las diferentes relaciones individuales variable explicativa/variable dependiente no son lineales si no que pueden tener cualquier otra forma (cuadrática, parabólica, exponencial…). También se han utilizado modelos de regresión múltiples, en los que se utilizan más de una variable explicativa pero las relaciones individuales variable explicativa/variable dependiente son siempre lineales.

3.4. Diferencia entre Bagging y Boosting

Anteriormente se ha dicho que, además de Boosting, existe otro método que manipula los datos de entrenamiento para crear modelos diferentes. Este método es el denominado Bagging.


39

En este método, los datos son manipulados de diferente manera. En lugar de dar diferente peso a los datos en cada iteración, como hace Boosting, con Bagging se trata de extraer muestras diferentes del conjunto de entrenamiento con repetición (mediante un método denominado bootstrap) y se utilizan estas muestras como si fueran el conjunto de entrenamiento verdadero. Por tanto, cada miembro del ensemble es entrenado con una muestra diferente del conjunto de entrenamiento. Cada muestra es del mismo tamaño que el conjunto de entrenamiento original pero no su composición. El resultado final es el promedio de la predicción de cada uno de los miembros del ensemble.

El método de selección de las muestras, bootstrap, hace lo siguiente: sobre la muestra inicial completa de N ejemplos, se selecciona como diferentes conjuntos de entrenamiento para los diferentes ensembles N ejemplos con reemplazamiento, lo que significa que un mismo ejemplo puede estar repetido dos o más veces en un mismo conjunto de entrenamiento. Como conjunto de prueba se utilizan aquellos ejemplos que no han sido incluidos ninguna vez en el conjunto de entrenamiento.

3.5. Ventajas y desventajas de Boosting

Las ventajas más destacables de este algoritmo son:

a) Es simple y sencillo de programar. b) El único parámetro a establecer previamente a la ejecución del modelo es el

número de iteraciones, que tiene una especial relevancia para evitar el sobreajuste. c) El clasificador débil no requiere conocimiento previo. d) Es versátil y rápido.

En cuanto a las desventajas, se pueden citar las siguientes:

a) Los clasificadores débiles complejos pueden llevar al sobreajuste. b) Los clasificadores débiles demasiado débiles (que no den demasiado valor al

modelo final) pueden producir un bajo margen y sobreajuste. c) Es bastante vulnerable al ruido.

3.6. Sobreajuste

Uno de los problemas más típicos al que se puede llegar en la aplicación de algoritmos como Boosting es el sobreajuste, más conocido por su nombre en inglés, overfitting.

Cuando se produce este problema, el modelo será muy complejo, consiguiendo una elevada precisión dentro del conjunto de entrenamiento, pero una muy mala precisión en la predicción ante nuevos datos de entrada, es decir, en los de prueba. Este tipo de modelos no son capaces de obtener predicciones buenas fuera de muestra, es decir, no son capaces de generalizar bien ofreciendo validaciones cruzadas precisas.


40

Cuando se desarrolla un modelo de predicción, lo que se busca es modelar la respuesta en función de las variables de entrada tratando de captar el comportamiento característico existente entre ambas variables. Los demás factores como el ruido o los valores atípicos no deben ser modelados puesto que, en realidad, no explican el comportamiento entre ambas variables.

Para ilustrar esta problemática se puede observar la figura 12. Se tienen tres modelos de regresión simple ajustados a partir del mismo proceso generador de datos. En el primero, el modelo que se obtiene es muy débil. Este modelo no refleja de forma lo suficientemente clara los cambios en la variable respuesta debido a la variable explicativa. Por tanto, una regresión lineal aquí no es correcta. Se estaría en unas condiciones de ajuste muy malo o underfitting.

Figura 12. Ejemplo de sobreajuste y subajuste (Bagnato, 2017)

El segundo modelo se adapta de forma correcta a los datos. Representa de forma adecuada la relación entre variables.

El tercer modelo está sobreajustado (overfitted). Se ajusta como si fuera señal lo que en realidad es ruido. El modelo de predicción trata de recoger todos los cambios en la variable respuesta de forma perfecta y, de esta forma, no está representando la relación entre variables si no muchos factores más (ruido, condiciones puntuales, etc). Si se comprueba la precisión de este modelo sobre los datos de entrenamiento se tendrán unos valores muy elevados de precisión, pero ante nuevos datos de entrada, los resultados serán realmente malos.

En el apartado 3.9 se verá cómo se ha tratado de evitar el sobreajuste en la elaboración de los modelos.


41

3.7. Medidas de error utilizadas 3.7.1. Error cuadrático de validación cruzada

En primer lugar, conviene explicar qué es la validación cruzada.

La validación cruzada es una forma de organizar los datos de los que se dispone para hacer el entrenamiento y la prueba una vez el modelo ha sido entrenado. En la validación cruzada más típica se divide aleatoriamente el conjunto original de datos en 𝑘𝑘 subconjuntos mutuamente excluyentes y de aproximadamente el mismo tamaño. Cada uno de estos conjuntos son denominados folds y el método se conoce como k-fold cross validation.

Cada uno de estos subconjuntos se utilizan como conjunto de prueba para el clasificador construido a partir de los k-1 subconjuntos restantes, teniéndose finalmente k clasificadores distintos con sus respectivas tasas de error en conjunto de prueba. La tasa de error estimada por validación cruzada será igual a la media de las k tasas de error calculadas, ponderando por los tamaños de los subconjuntos si son de distinto tamaño (Cortés, 2005).

Debido a la mayor facilidad computacional y al elevado número de datos con los que se cuenta en el presente trabajo, se ha aplicado la versión más sencilla de validación cruzada denominada método de retención o Holdout method. Este método divide simplemente la muestra total en un conjunto de entrenamiento y un conjunto de prueba. Sobre el conjunto de entrenamiento se calcula el modelo y sobre el conjunto de prueba se comprueba la precisión del modelo. La figura 13 muestra la selección de datos de este método.

Figura 13. Método Holdout (Wikipedia, 2018)

El número de datos seleccionados para el conjunto de entrenamiento tiene que ser bastante mayor al número de datos en el conjunto de prueba. Entre un 70% y un 90% de los datos suelen ser destinados para el conjunto de entrenamiento mientras que el 10-30% restante es destinado para el conjunto de prueba.

Por su parte, el error cuadrático medio o Mean Squared Error (MSE) en inglés es:


42

𝑀𝑀𝑀𝑀𝑀𝑀 =∑ (𝑥𝑥�𝑖𝑖 − 𝑥𝑥𝑖𝑖)2𝑛𝑛𝑖𝑖=1

𝑛𝑛

Donde n es el número de datos del conjunto de entrenamiento, 𝑥𝑥�𝑖𝑖 son las predicciones en el modelo final sobre el conjunto de entrenamiento y 𝑥𝑥𝑖𝑖 es el valor real del conjunto de entrenamiento.

El programa R devuelve el error cuadrático medio de validación cruzada final después de todas las iteraciones realizadas para calcular el clasificador final. Este error es una medida de la precisión con la que el clasificador final se adapta a los datos de entrenamiento.

Un valor de este error muy elevado puede querer decir que el modelo se adapta muy mal a los datos mientras que un valor muy bajo de este error podría querer decir que se está ante un problema de sobreajuste.

A partir de ahora, todos los errores calculados serán de validación cruzada puesto que se calculan sobre el conjunto de prueba o test.

3.7.2. Error relativo promedio Los datos con los que se va a trabajar son valores instantáneos en los que las diferentes variables (velocidad, aceleración, variables ambientales…) cambian en cada segundo. Además, para calcular el error en el cálculo de una predicción de emisiones contaminantes interesará tener en cuenta el rango de valores que puede tomar esa emisión. Es evidente que no es lo mismo un error de 3 unidades sobre un rango que va de 0 a 10 que un error de 3 unidades sobre un rango que va de 0 a 100. El primero supondría un 30% de error y el segundo un 3% de error.

El error relativo instantáneo se puede escribir como:

𝑀𝑀𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎 𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣𝑑𝑑𝑖𝑖𝑣𝑣𝑣𝑣 𝑖𝑖𝑛𝑛𝑠𝑠𝑑𝑑𝑣𝑣𝑛𝑛𝑑𝑑á𝑛𝑛𝑣𝑣𝑣𝑣 =(𝑉𝑉𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎 𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣 𝑣𝑣𝑣𝑣𝑛𝑛𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣 − 𝑒𝑒𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛)

𝑉𝑉𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎 𝑚𝑚á𝑥𝑥𝑖𝑖𝑚𝑚𝑣𝑣 𝑣𝑣𝑣𝑣 𝑣𝑣𝑛𝑛𝑑𝑑𝑎𝑎𝑣𝑣 𝑣𝑣𝑣𝑣𝑠𝑠 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑠𝑠 𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑠𝑠 𝑣𝑣𝑣𝑣𝑛𝑛𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑠𝑠 %

Esto, adaptado a nuestro caso, puede traducirse en que si, por ejemplo, se quiere calcular el error relativo instantáneo en la emisión de CO2 en un segundo determinado se le restará al valor real de emisión (que ya se conoce en la base de datos) la predicción obtenida por el modelo y, al resultado de esta resta, se le dividirá entre el valor máximo de CO2 de entre todos los valores instantáneos de emisión real conocida recogidos en el conjunto de prueba. Esta división lo que hace es adaptar el error a la escala de las emisiones de CO2.

El error relativo promedio se calculará como el promedio de todos estos valores instantáneos en todo el conjunto de prueba que se evalúe. Por ejemplo, si el conjunto de prueba tiene 1000 datos instantáneos, se calcularía el error relativo instantáneo de cada dato y luego se calcularía el promedio sobre los 1000 datos.

De cara a un modelo de predicción este es el error más importante porque muestra un error medio, es decir, si introducimos al modelo final (una vez entrenado y obtenidos los valores de error mediante el conjunto de prueba) un conjunto de valores de las variables


43

explicativas, por término medio, el error adaptado a la escala de trabajo que se tendrá en la predicción será el del error relativo promedio.

3.7.3. Desviación típica o estándar La desviación típica es una medida del grado de dispersión de los datos con respecto al valor promedio. Cuantifica la forma en la que los datos se encuentran repartidos en torno a la media aritmética.

La fórmula matemática de la desviación típica sobre un conjunto de datos es la siguiente:

𝐷𝐷𝑣𝑣𝑠𝑠𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛 𝑑𝑑í𝑒𝑒𝑖𝑖𝑣𝑣𝑣𝑣 (𝑠𝑠) = �∑ (𝑥𝑥𝑖𝑖 − �̅�𝑥)2𝑛𝑛𝑖𝑖=1

𝑛𝑛

Donde xi es el dato i, x� es la media aritmética de la muestra y n es el número de datos que hay en la muestra.

La desviación típica puede ser interpretada como una medida de incertidumbre. La desviación típica de un conjunto de predicciones nos va a decir cuánto se distancian las medidas del valor promedio. Una desviación estándar muy baja nos dirá que las medidas son muy homogéneas y que, por tanto, el modelo tiene poca incertidumbre y es fácil obtener valores buenos de predicción en una alta probabilidad.

En nuestro caso, se ha calculado la desviación típica en el programa Excel. Este programa, según la corrección de Bessel, utiliza la fórmula:

𝐷𝐷𝑣𝑣𝑠𝑠𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛 𝑑𝑑í𝑒𝑒𝑖𝑖𝑣𝑣𝑣𝑣 (𝑠𝑠) = �∑ (𝑥𝑥𝑖𝑖 − �̅�𝑥)2𝑛𝑛𝑖𝑖=1𝑛𝑛 − 1

En la que se sustituye n por n − 1.

Junto con el error relativo promedio, es la medida más importante dentro del estudio de la predicción de los modelos que se realizará.

3.7.4. Error en el factor de emisión El factor de emisión (FE) es la razón, típicamente en g/km, entre la cantidad de emisiones contaminantes totales durante un trayecto y la longitud del trayecto en cuestión. Esto es:

𝐹𝐹𝑣𝑣𝑣𝑣𝑑𝑑𝑣𝑣𝑎𝑎 𝑣𝑣𝑣𝑣 𝑣𝑣𝑚𝑚𝑖𝑖𝑠𝑠𝑖𝑖ó𝑛𝑛 (𝐹𝐹𝑀𝑀) =𝑀𝑀𝑚𝑚𝑖𝑖𝑠𝑠𝑖𝑖𝑣𝑣𝑛𝑛𝑣𝑣𝑠𝑠 𝑑𝑑𝑣𝑣𝑑𝑑𝑣𝑣𝑣𝑣𝑣𝑣𝑠𝑠 𝑣𝑣𝑛𝑛 𝑣𝑣𝑣𝑣 𝑑𝑑𝑎𝑎𝑣𝑣𝑦𝑦𝑣𝑣𝑣𝑣𝑑𝑑𝑣𝑣

𝐿𝐿𝑣𝑣𝑛𝑛𝑙𝑙𝑖𝑖𝑑𝑑𝑢𝑢𝑣𝑣 𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑎𝑎𝑣𝑣𝑦𝑦𝑣𝑣𝑣𝑣𝑑𝑑𝑣𝑣 (𝑙𝑙𝑘𝑘𝑚𝑚)

El error en el factor de emisión consiste en:

𝑀𝑀𝑎𝑎𝑎𝑎𝑣𝑣𝑎𝑎 𝐹𝐹𝑀𝑀 =𝐹𝐹𝑣𝑣𝑣𝑣𝑑𝑑𝑣𝑣𝑎𝑎 𝑣𝑣𝑣𝑣 𝑣𝑣𝑚𝑚𝑖𝑖𝑠𝑠𝑖𝑖ó𝑛𝑛 𝑣𝑣𝑣𝑣 𝑒𝑒𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛 − 𝐹𝐹𝑣𝑣𝑣𝑣𝑑𝑑𝑣𝑣𝑎𝑎 𝑣𝑣𝑣𝑣 𝑣𝑣𝑚𝑚𝑖𝑖𝑠𝑠𝑖𝑖ó𝑛𝑛 𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣

𝐹𝐹𝑣𝑣𝑣𝑣𝑑𝑑𝑣𝑣𝑎𝑎 𝑣𝑣𝑣𝑣 𝑣𝑣𝑚𝑚𝑖𝑖𝑠𝑠𝑖𝑖ó𝑛𝑛 𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣 (%)


44

Siendo el factor de emisión de predicción el cálculo del factor de emisión sobre los datos obtenidos por el modelo de predicción y el factor de emisión real el cálculo del factor de emisión sobre los datos reales de emisión.

Este error nos dirá cuanto de acertada es la predicción del modelo en el cálculo de las emisiones contaminantes totales.

3.7.5. MAPE El MAPE (Mean Absolute Percentage Error) es una medida característica de la precisión de un sistema de predicción. Muy utilizado para sistemas de predicción de la demanda, se puede escribir como:

𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 =1𝑛𝑛�

|𝑥𝑥𝑖𝑖 − 𝑥𝑥�𝑖𝑖|𝑥𝑥𝑖𝑖

𝑛𝑛

𝑖𝑖=1

En nuestro caso, xi es el valor real conocido de la emisión para el segundo i, x�i es la predicción de la emisión para el segundo i y n es el número de datos de los que se tiene predicción, es decir, el número de segundos del conjunto de prueba.

En el cálculo del MAPE existe un problema que se puede deducir de la fórmula. Los datos cuyo valor real sea 0 van a hacer que el MAPE sea infinito. Estos datos se han retirado de la base de datos con el fin de evitar errores.

Además, utilizar el MAPE como única medida de precisión del modelo puede conducir a equívocos. Los modelos de predicción con los que se ha trabajado pueden adaptarse de forma muy buena a los datos en determinadas circunstancias de los valores de las variables de entrada y adaptarse muy mal cuando se dan ciertos valores de estas variables de entrada. El valor del MAPE puede hacer un poco confuso el entendimiento del comportamiento del modelo. Un MAPE muy elevado puede querer decir varias cosas:

a) Que el modelo proporciona malos resultados continuamente. b) Que el modelo proporciona, en general, buenos resultados pero que, para algunas

condiciones determinadas, los resultados son muy malos inflando el valor del MAPE con su contribución.

c) Que ciertos datos atípicos se encuentran lejos del centro de masas del conjunto de datos y penalizan muy fuertemente a la medida del MAPE, que es una medida global.

Debido a estas razones, el MAPE se considera como una medida más del error pero será necesario para hacer una medición más exacta estudiar el error relativo promedio, la desviación típica y graficar los resultados obtenidos junto con los valores reales de emisión conocidos.


45

3.8. Importancia de las variables

La importancia de las variables es uno de los aspectos clave a conocer después de haberse modelado el clasificador final. Este concepto se puede entender como una clasificación de las variables explicativas utilizadas en el modelo en función de cuánto contribuye cada variable a la reducción del error cuadrático medio del modelo final durante las diferentes iteraciones en las que, como ya se ha visto, hay diferentes base learners.

En el programa R, la importancia de las variables se extrae mediante la sentencia varimp(“nombre del modelo del clasificador final”). Este estudio de la importancia de las variables hace que las variables más importantes sean las que más hayan reducido el error entre iteraciones distintas. Un ejemplo de la respuesta que proporciona el programa está representado en la figura 14.

Figura 14. Importancia de las variables

En este caso, la variable que más contribuye a la reducción del error cuadrático en los distintos base learners es la velocidad, seguida de la pendiente y de la aceleración.

3.9. Boosting con R. Sentencias utilizadas en R

El programa estadístico utilizado para la realización de los modelos mediante el algoritmo Boosting ha sido el programa R. El paquete específico utilizado para la aplicación de Boosting ha sido el paquete “mboost”.

Las sentencias más importantes utilizadas en el código y sin la comprensión de las cuales resultaría imposible entender la funcionalidad del mismo son:


46

Rm(list=ls()) → borra todas las variables que se encuentran en el espacio de trabajo.

Read.csv (“nombre del archivo”, sep=”;”) → descarga el archivo csv que lleva por nombre “nombre del archivo” y lo deja en el espacio de trabajo.

Set.seed(“número”) → inicializa el generador de números aleatorios. Gamboost(“Modelo”,data=”base de datos sobre la que calcular el modelo”,…)

→ aplica el método Boosting con el fin de conseguir un clasificador final con las variables que se ha indicado en “Modelo” y sobre los datos que indica el argumento data.

Cvrisk(“Modelo”) → calcula el número de iteraciones óptimo para evitar el sobreajuste.

Mstop(“resultado de cvrisk”) → establece que hay que parar de iterar cuando se llegue al número obtenido en cvrisk.

“Modelo”[mstop(“resultado de cvrisk”)] →le dice a gamboost que deje de iterar cuando se llegue al número de iteraciones óptimo.

Predict(“Modelo obtenido con gamboost”,”datos utilizados para la prueba”) → predice sobre el clasificador final “Modelo obtenido con gamboost” nuevos datos utilizando como conjunto de prueba “datos utilizados para la prueba”.

Varimp(“Modelo gamboost”) → se obtiene la importancia de las variables como ya se ha indicado.

Plot(varimp) → representa en barras la importancia de las variables obtenida mediantes varimp.

En el Anexo 1 se muestra una captura de pantalla del código utilizado para el análisis y estudio de las emisiones de CO2.


47


48

4. BASE DE DATOS

Para la realización de este Trabajo de Fin de Grado se ha dispuesto de una base de datos proporcionada por el Instituto de Investigación del Autonmóvil (INSIA). Esta base de datos está formada por 5 ficheros de Excel, cada uno de ellos con varias hojas. En estos ficheros se encuentran un conjunto de ensayos realizados durante los años 2007 y 2008 por el INSIA sobre autobuses de la Empresa Municipal de Transportes de Madrid (EMT Madrid). Los ensayos contienen información sobre las variables cinemáticas, posicionales y ambientales, así como información sobre las diferentes emisiones contaminantes de los autobuses. Esta información fue obtenida gracias al equipo de análisis de gases PEMS Horiba OBS 2200.

La toma de datos se realizó durante los trayectos habituales correspondientes a líneas regulares de la EMT: 145, C1, 27 y 63.

Los ensayos fueron realizados por el INSIA mediante la aplicación del modelo ECOTRAM bajo el título “Desarrollo de una Metodología de Análisis del Consumo Energético y las Emisiones Contaminantes Producidas por el Transporte Público Urbano de Viajeros”.

En la figura 15 puede verse la metodología que se siguió para la realización de estos ensayos y en la figura 16, una imagen del equipo instalado en los autobuses para analizar las emisiones.

Figura 15. Metodología de ECOTRAM (Instituto de Investigación del Automóvil, Universidad Politécnica de Madrid (INSIA), 2006)


49

Figura 16. Equipo PEMS Horiba OBS 2200 instalado en los autobuses (Instituto de Investigación del Automóvil, Universidad Politécnica de Madrid (INSIA), 2006)

4.1. Descripción

Los ensayos se han realizado todos con un autobús MAN que cumple la normativa EURO IV. Según la flota de autobuses de la EMT (EMTMADRID.ES) este tipo de autobuses siguen estando en circulación a día de hoy. En particular, hay 77 MAN NL 273-F y 4 MAN 313-F Lion’s City G. Estos dos modelos son los MAN que cumplen la normativa EURO IV.

Los 5 archivos de Excel mencionados anteriormente se dividen en función de dos aspectos. El primer aspecto es el combustible que utiliza el autobús sobre el que se realizan los ensayos. Los dos combustibles posibles son gasóleo y biodiesel 100% (B100). El segundo aspecto es la condición de carga del autobús al realizar el ensayo. Tres son las condiciones de carga posible: vacío, media carga y plena carga.

Sumando estos dos aspectos, los 5 ficheros disponibles son los siguientes:

Plena carga B100. Media carga B100. Vacío B100. Media carga gasóleo.


50

Vacío gasóleo.

Como se puede observar, no se dispone de la combinación plena carga-gasóleo.

En cada fichero se tienen un conjunto de hojas. Estas hojas representan los ensayos realizados en una línea concreta (ida o vuelta), un día concreto, y a una hora concreta. Cada una de estas hojas tienen un nombre de la siguiente forma: testAAMMDDHHmmss_LLS. Esto es:

• AAMMDDHHmmss: fecha del ensayo. Año (AA), mes (MM), día (DD), y hora exacta de comienzo del ensayo (HHmmss).

• LL: línea de autobús en la que se ha realizado el ensayo. • S: sentido de movimiento del autobús. Ida (i) y vuelta (v).

Cada una de las hojas contiene un conjunto de datos. El número de datos que se tiene en cada hoja es de entre 1000 y 4000, en función de la duración de la ruta. Estos datos son instantáneos, es decir, están medidos segundo a segundo por lo que se tiene el valor de todas las variables estudiadas en cada uno de los segundos del trayecto.

Estas variables citadas pueden clasificarse de la siguiente manera:

• Datos temporales. Hora de la medida: hora, minuto y segundo. Tiempo transcurrido desde el comienzo del ensayo, en segundos.

• Datos posicionales Latitud [N/S]. Longitud [W/E]. Altitud [m].

• Datos cinemáticos Velocidad instantánea [km/h].

• Condiciones ambientales Humedad relativa [%RH]. Temperatura [°C]. Presión [kPa].

• Emisiones contaminantes CO, en emisión másica [g/s] y en porcentaje en volumen [vol%]. CO2, en emisión másica [g/s] y en porcentaje en volumen [vol%]. THC [g/s y ppmC]. NOx [g/s y ppm]. Partículas [mg/m3 y g/s]. No todos los ensayos disponen de medidas

de partículas. De hecho, con los ensayos que no dispongan de medidas de partículas no se trabajará.

H2O, en porcentaje en volumen [vol%]. • Otros datos adicionales Combustible consumido [g/s].


51

Batería [V]. Relación aire/combustible.

Se ha dicho que en cada uno de los 5 ficheros de Excel se tienen varias hojas correspondientes a cada uno de los ensayos. En total, se tienen 38 ensayos para B100 y 36 ensayos para gasóleo que se pueden dividir como se muestra en las tablas 1 y 2.

Línea Ida/Vuelta Plena carga Media carga Vacío C1 Ida

Vuelta 1 2

4 3

2 2

27 Ida Vuelta

2 2

2 2

2 2

63 Ida Vuelta

2 2

0 0

0 0

145 Ida Vuelta

0 0

2 2

2 2

TOTAL 38 11 15 12

Tabla 1. Número de ensayos de B100 según la carga

Línea Ida/Vuelta Media carga Vacío C1 Ida

Vuelta 2 2

4 4

27 Ida Vuelta

2 2

4 4

145 Ida Vuelta

2 2

4 4

TOTAL 36 12 24

Tabla 2. Número de ensayos de gasóleo según la carga


52


53

5. PROCEDIMIENTO

5.1. Comprensión del alcance del proyecto

La primera fase de la duración del proyecto consistió en la comprensión y entendimiento del algoritmo utilizado, así como del código necesario a implementar en el programa estadístico R para conseguir adaptar el algoritmo mencionado a los datos de los que se disponía.

Por otro lado, se tuvo un primer contacto con la base de datos proporcionada por la EMT con el fin de entender cómo trabajar con ella para sacarle el máximo partido posible.

En esta fase, se estudiaron y consultaron varios artículos acerca de Boosting, teniendo especial importancia el libro (Hastie, Tibshirani, & Friedman, 2008). En cuanto al estudio del programa estadístico R lo que se hizo fue estudiar el libro de estadística de la escuela, así como comenzar a hacer pruebas con modelos más simples que incluyeran alguna de las sentencias ya mencionadas. En esta primera etapa, mi tutor José Mira fue de gran ayuda para conseguir tener claro cuáles eran los objetivos del trabajo.

Posteriormente, cuando los conceptos estaban más claros, se empezó a profundizar en aspectos técnicos que podían tener influencia en el modelado de las emisiones contaminantes. En este punto, fue mi tutora Natalia Fonseca la que me ayudó a comprender ciertos procesos físicos que ocurrían en el funcionamiento de un motor de combustión y que, por tanto, eran de interés para la comprensión de este proyecto.

5.2. Elección de ensayos a utilizar y emisiones a estudiar

A la hora de elegir los ensayos que se van a utilizar para el estudio de las emisiones mediante Boosting se han tenido en cuenta una serie de factores.

El primer factor que se ha tenido en cuenta es la flota actual de la EMT. El objetivo ha sido tratar de acercar el Trabajo lo máximo posible a la situación actual con el fin de que puedan tener una cierta aplicación práctica real los resultados obtenidos fruto de la investigación.

La flota actual de la EMT ha sido renovada recientemente. Los combustibles de los autobuses de la EMT son GNC, Híbrido/GNC, Diésel, Híbrido/Diésel y Eléctricos. A la vista de estos datos, no parece tener demasiado sentido estudiar los ensayos correspondientes a los autobuses con combustible gasóleo. Debido a este primer factor, se decidió utilizar los datos de los ensayos de los autobuses con combustible B100.


54

El siguiente factor que se ha tenido en cuenta es cuáles son las emisiones que se van a estudiar. Por su gran relevancia como gas de efecto invernadero y, por tanto, por su influencia en el cambio climático, se analizó el CO2. Como se ha explicado en el punto 1, los NOx y las partículas son los contaminantes más típicos de los motores diésel debido a las condiciones en que reparten la potencia. Por ello, también se estudiaron estos dos.

Una vez descartados los ensayos de gasóleo, no todos los ensayos de B100 tienen mediciones correctas de todas las emisiones de los tres contaminantes mencionados. Ninguno de los ensayos correspondientes a B100-plena carga tienen medición de la emisión de partículas. Dentro de los ensayos de B100-media carga, 7 tienen medición de partículas y los otros 8 no. Debido a esto, y para facilitar la elaboración de las bases de datos finales para su introducción en el algoritmo se decidió utilizar sólo los ensayos correspondientes a B100-vacío, que sí tienen todos mediciones de partículas, así como de CO2 y NOx. Además, el considerar solo un nivel de carga hace que, a priori, la variabilidad disminuya y no haya que considerar una variable más, categórica en este caso, que diferenciase entre vacío, media carga y plena carga.

Por tanto, se dispone de 12 ensayos para la elaboración de las bases de datos finales, que se pueden clasificar de la siguiente manera:

2 ensayos de la línea 145 de ida y otros 2 ensayos de vuelta. 2 ensayos de la línea 27 de ida y otros 2 ensayos de vuelta. 2 ensayos de la línea C1 de ida y otros 2 ensayos de vuelta.

5.3. Búsqueda de las variables explicativas que se pueden obtener directamente de la base de datos proporcionada

Cada ensayo de la base de datos está compuesto por un conjunto de datos clasificados en columnas y filas. Cada columna representa una variable cuya medición va variando durante el trayecto de las rutas mientras que cada fila representa la medición de estas variables en un segundo determinado.

En este paso se trataron de buscar cuáles podían ser las variables de esta base de datos que podrían tener una influencia directa en la emisión de gases contaminantes ya que, no todas las columnas eran necesarias para la elaboración de los modelos.

Las variables candidatas a ser introducidas en la elaboración de los futuros modelos fueron la velocidad y las variables ambientales: temperatura, aceleración y sobreaceleración.


55

5.4. Obtención de otras variables cinemáticas

En un primer momento, parecía evidente que, igual que la velocidad era candidata a ser una variable con influencia en la modelización de la emisión de gases contaminantes, también lo eran así la aceleración y la sobreaceleración. Estas dos variables se calcularon mediante los datos de velocidad de los que se disponía de la siguiente manera:

𝑀𝑀𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛𝑖𝑖 =𝑉𝑉𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖 − 𝑉𝑉𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖−1

∆𝑑𝑑 (𝑘𝑘𝑚𝑚ℎ𝑠𝑠𝑣𝑣𝑙𝑙

)

𝑀𝑀𝑣𝑣𝑆𝑆𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛𝑖𝑖 =𝑀𝑀𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛𝑖𝑖 − 𝑀𝑀𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛𝑖𝑖−1

∆𝑑𝑑 �𝑘𝑘𝑚𝑚ℎ𝑠𝑠𝑣𝑣𝑙𝑙2

�

Con estos cálculos se obtuvo, por tanto, todos los valores instantáneos de aceleración y sobreaceleración en cada segundo.

5.5. Cálculo de un perfil de pendientes para cada ruta

Tras hacer un estudio en profundidad sobre cuáles serían las variables que influían en las emisiones de gases contaminantes y que no se habían tenido en cuenta hasta ahora se llegó a la conclusión de que la pendiente jugaba un papel fundamental en las emisiones de gases contaminantes.

Como se verá en profundidad en el punto 6 de este texto, la elaboración de un modelo de predicción de emisiones que no tuviera en cuenta la pendiente no tenía demasiado sentido. Sin embargo, la base de datos original no contaba con datos suficientemente fiables como para poder utilizarlos directamente a la hora de entrenar los modelos y probarlos posteriormente.

La base de datos original cuenta con tres variables: las coordenadas de latitud del autobús en cada instante, las coordenadas de longitud del autobús en cada instante y la altura del autobús en cada instante medida en metros sobre el nivel del mar. Las coordenadas instantáneas de latitud y longitud del autobús están expresadas en horas, minutos y segundos.

Según las indicaciones de mi tutora Natalia Fonseca, los valores de altitud no tenían una alta fiabilidad debido a que el aparato medidor varía mucho las mediciones en función de interferencias en la señal, presencia de edificios altos que rodeen al autobús, paso del autobús por túneles, etc. Por el contrario, los valores de longitud y latitud si se pueden considerar correctos ya que no se ven afectados por los factores citados para el problema de la altitud.

La metodología seguida para la obtención de los perfiles de altura y pendiente de cada una de las rutas se explica en los siguientes apartados.


56

5.5.1. Utilización del programa GPS Visualizer Apoyándome en el Trabajo de Fin de Grado realizado por mi compañera Maria Cueto Felgueroso y con la ayuda de ella, se llegó a la conclusión de que el método más rentable en relación a calidad de los datos obtenidos y complejidad era el que se basaba en la utilización del programa GPS Visualizer.

GPS Visualizer es un programa de software libre, de hecho se encuentra en internet teniendo su propia página web. Este programa sirve para obtener altitudes a partir de las coordenadas de la longitud y la latitud, de las que se tienen sus valores precisos en la base de datos. La página web pide un archivo .txt en el que estén recogidas todas las coordenadas instantáneas de las que se quiere obtener su altura, en grados decimales. Este hecho supuso un problema ya que las unidades en las que se tienen la longitud y la latitud en la base de datos son horas, minutos y segundos. Para pasar de horas, minutos y segundos a grados decimales se utilizó una hoja de Excel.

En este primer paso, se introdujo un archivo .txt para cada ruta de la que se quería obtener la pendiente. En este archivo había dos columnas: la latitud y la longitud, ambas en grados decimales. GPS Visualizer devolvía otro archivo .txt con las alturas instantáneas correspondientes a las coordenadas proporcionadas.

5.5.2. Obtención de la distancia acumulada Para poder realizar el siguiente paso, se calculó sobre la base de datos original la distancia acumulada en cada segundo de la ruta en cuestión. Este cálculo se hizo calculando, en primer lugar, el incremento de distancia recorrida en cada segundo como el producto de la velocidad por el incremento del tiempo (en este caso, siempre un segundo). Después se fueron sumando las distancias recorridas en cada segundo sucesivo hasta ir obteniendo las distancias acumuladas. La unidad de medida para la distancia acumulada fue el metro.

5.5.3. Conversión de los datos a base distancia. El objetivo de esta etapa es pasar de la base tiempo que GPS Visualizer maneja a una base distancia en la que el vector de longitud que representa la distancia tenga valores equidistantes. Este procedimiento se realizó mediante un código de Matlab proporcionado por Natalia Fonseca.

Conocidas las alturas en base tiempo obtenidas gracias a GPS Visualizer y la distancia acumulada en cada instante, se realizó un archivo .txt que en una columna tenía las distancias acumuladas y en otra columna las alturas correspondientes. Cabe destacar que se tuvo que eliminar las filas que tenían valores consecutivos iguales de distancia acumulada ya que el código de Matlab daba problemas si se introducía el archivo sin ser corregido de esta manera.

El otro archivo que pide por pantalla el código de Matlab tras su ejecución es un .txt que contenga la base distancia con la división en intervalos de la misma longitud. Se eligió una longitud del intervalo de 100 metros. La base distancia está formada por intervalos de 100 metros hasta llegar a la distancia total de cada ruta. La elección de esta longitud de los intervalos proporciona buenos resultados. De hecho, un intervalo de longitud de


57

100 metros es cercano a la realidad en cuanto a que se pueden aproximar a la longitud de una calle. La elección de intervalos de longitud menor da lugar a resultados erróneos y la elección de intervalos de mayor longitud podría dar lugar a resultados demasiado aproximados.

Al ejecutarse el código completo de Matlab, el programa devuelve por pantalla un archivo Excel en el que se tiene la altura en base distancia, es decir, a cada intervalo de la base distancia introducida se le asigna un valor de altura.

Este código aplica un primer suavizado mediante la función smooth.

5.5.4. Obtención de la altura promediada y la pendiente en base distancia En este paso los objetivos son dos: obtener un perfil promediado de la altura y obtener un primer perfil de pendientes.

La obtención de un perfil promediado de alturas proporciona un nuevo suavizado de las alturas. En un principio, se estudiaron dos opciones: promediar a intervalos de 200 metros o promediar a intervalos de 400 metros. Se eligió promediar a intervalos de 200 metros por ser un suavizado menos potente, aunque en realidad los resultados con ambas opciones son muy parecidos. La fórmula utilizada para la obtención del perfil promedio de alturas, aplicada a cada dato de altura de cada uno de los intervalos de 100 metros fue:

𝑀𝑀𝑣𝑣𝑑𝑑𝑢𝑢𝑎𝑎𝑣𝑣 𝑒𝑒𝑎𝑎𝑣𝑣𝑚𝑚𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖 =𝑀𝑀𝑣𝑣𝑑𝑑𝑢𝑢𝑎𝑎𝑣𝑣𝑖𝑖−1 + 𝑀𝑀𝑣𝑣𝑑𝑑𝑢𝑢𝑎𝑎𝑣𝑣𝑖𝑖 + 𝑀𝑀𝑣𝑣𝑑𝑑𝑢𝑢𝑎𝑎𝑣𝑣𝑖𝑖+1

3

Donde i representa el número de intervalo.

A continuación, se calcularon las pendientes. Estas se calcularon con la fórmula:

𝑀𝑀𝑣𝑣𝑛𝑛𝑣𝑣𝑖𝑖𝑣𝑣𝑛𝑛𝑑𝑑𝑣𝑣𝑖𝑖 =𝑀𝑀𝑣𝑣𝑑𝑑𝑢𝑢𝑎𝑎𝑣𝑣 𝑒𝑒𝑎𝑎𝑣𝑣𝑚𝑚𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖−1 − 𝑀𝑀𝑣𝑣𝑑𝑑𝑢𝑢𝑎𝑎𝑣𝑣 𝑒𝑒𝑎𝑎𝑣𝑣𝑚𝑚𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖+1

𝐼𝐼𝑛𝑛𝑑𝑑𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖−1 − 𝐼𝐼𝑛𝑛𝑑𝑑𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖+1× 100

5.5.5. Conversión de la pendiente a base tiempo Para terminar el procedimiento de cálculo de las pendientes de forma que éstas puedan ser utilizadas en nuestros modelos es necesario hacer el proceso inverso al realizado hasta ahora: convertir el archivo de pendientes a base tiempo. Para esto, se vuelve a usar el mismo código de Matlab. En este caso, Matlab pide dos archivos al ejecutar el código. El primero es un archivo .txt que contenga en una columna la base distancia dividida en los intervalos ya mencionados y en otra columna contigua las pendientes de cada uno de estos intervalos, calculadas de la forma explicada en el apartado anterior. El segundo es un archivo .txt con una sola columna en la que tienen que encontrarse los valores de distancia acumulada, pero esta vez sin eliminar las filas con distancia acumulada consecutiva igual.

Matlab devuelve una última hoja de Excel con dos columnas. La primera columna tiene todos los valores de distancia acumulada sin quitar valores consecutivos iguales y la segunda contiene todas las pendientes instantáneas.


58

5.5.6. Elaboración de gráficas y comprobación de los resultados Aunque se considera que este método es suficientemente preciso, se graficaron las alturas obtenidas de las diferentes rutas de las que se dispone con el fin de encontrar posibles errores de medición o irregularidades.

En la figura 17 se pueden ver todos los ensayos de la ruta C1i de los que se dispone.

Figura 17. Alturas de los ensayos de la ruya C1i

Se puede observar como la ruta test070723135626_C1ida tiene algún problema a partir de, en torno a los 7000 metros. Ese fragmento se eliminará de la base de datos para la futura alimentación de los modelos.

La figura 18 muestra la ruta C1V.

Figura 18. Alturas de los ensayos de la ruta C1v

0100200300400500600700800

050

010

0015

0020

0025

0030

0035

0040

0045

0050

0055

0060

0065

0070

0075

0080

0085

00

Altu

ra (m

etro

s)


test070626074155_C1i

test070626100019_C1i

test080124144119_C1ida

test070723135626_C1ida

test070723160635_C1ida

test080124162538_C1i

test080123100638_C1i

560

580

600

620

640

660

680

700

720

740

060

012

0018

0024

0030

0036

0042

0048

0054

0060

0066

0072

0078

0084

0090

0096

00

Altu

ra (m

etro

s)


test070626074155_C1v

test070626100019_C1v

test070723135626_C1v

test080124144119_C1v

test080124162538_C1v

test080123074955_C1v

test080123100638_C1v


59

Varios ensayos tienen medidas extrañas. Los ensayos que tienen la forma final como test080124162538_C1v, verán como la parte final de los datos no serán incluidos en la base de datos final. Se observa también como la medición de la longitud y la latitud por parte del equipo de medida del ensayo test080123074955_C1v está adelantada con respecto a las demás. Esto es debido a que la medición del autobús empezó en un punto distinto del recorrido.

Las figuras 19, 20 y 21 muestran otras rutas que tienen un muy buen comportamiento.

Figura 19. Alturas de los ensayos de la ruta 63v

Figura 20. Alturas de los ensayos de la ruta 145v

560

580

600

620

640

660

680

700

720

050

010

0015

0020

0025

0030

0035

0040

0045

0050

0055

0060

0065

0070

0075

0080

0085

00

Altu

ra (m

etro

s)


test080123144605_L63v

test080123162618_L63v

580

600

620

640

660

680

700

050

010

0015

0020

0025

0030

0035

0040

0045

0050

0055

0060

0065

0070

0075

0080

0085

00

Altu

ra (m

etro

s)


test070628083917_L145v

test070628100816_L145v

test070720100832_L145v

test070720084435_L145v


60

Figura 21. Alturas de ensayos de la ruta 27v

5.6. Búsqueda de otras variables explicativas en la elaboración de los modelos

Como se explicará en detalle en el apartado 6.4.2, llegados a este punto se trató de obtener nuevas variables que pudieran reducir la variabilidad no explicada de los modelos y aumentar la variabilidad explicada.

Para conseguir esto, se partió de la fórmula de la potencia de un motor de combustión de un vehículo tal y como Natalia Fonseca escribe en su tesis doctoral “Aspectos de la medición dinámica instantánea de emisiones de motores. Aplicación al desarrollo de un equipo portátil y una metodología para estudios de contaminación de vehículos en tráfico real”.

5.7. Caracterización del desfase

Se graficó la velocidad conjuntamente con las emisiones de gases contaminantes a estudiar. Al estudiar las gráficas, se detectó un desfase entre la velocidad y las emisiones contaminantes, yendo las emisiones contaminantes por delante de la velocidad. Esto quiere decir que las medidas de las variables cinemáticas tomadas por el equipo portátil de medida no van a tiempo real si no que presentan un cierto retardo.

Para tratar de resolver esta problemática, se han estudiado diferentes modelos considerando diferentes retardos en las variables cinemáticas.

0

100

200

300

400

500

600

700

800

900

050

010

0015

0020

0025

0030

0035

0040

0045

0050

0055

0060

0065

0070

0075

00

Altu

ra (m

etro

s)


test070711173241_L27v

test070711151012_L27v

test080124075402_L27v

test080124102720_L27v

test080121071121_L27v

test080121082321_L27v


61

5.8. Elaboración de las bases de datos finales

Para la introducción de los datos en R se conforma unas bases de datos con las que se trabaja. Estas son tres:

Base de datos en la que sólo hay ensayos de la línea 145. Base de datos en la que hay ensayos de todas las líneas para el entrenamiento y se

prueba con un ensayo de la línea 145, habiendo sido incluido algún otro ensayo de esta línea en el conjunto de entrenamiento.

Base de datos en la que hay ensayos de todas las líneas para el entrenamiento y se prueba con un ensayo de la línea 145, no habiendo sido incluido ningún ensayo de esta línea en el conjunto de entrenamiento.

Para la elaboración de las bases de datos se tuvo que tener especial cuidado en limpiar los datos correspondientes a las medidas de emisiones de CO2, NOX y partículas para evitar la introducción de datos erróneos o que pudieran hacer complicada la lectura de las futuras medidas de error. Para esto, se eliminaron los datos que fueran menores que 0 y también los datos que fueran igual a 0 ya que en el estudio del MAPE, la contribución de estos datos a la suma total haría que el MAPE fuera infinito.

A estas bases de datos se les iban añadiendo las nuevas variables que se fueran a considerar (velocidad × aceleración, velocidad2 … ).

5.9. Búsqueda del mejor modelo mediante la introducción de las variables consideradas y análisis de los resultados

En este paso, se va buscando el mejor modelo de predicción mediante la adición de las variables que se consideran como influyentes. Estas, después de la aplicación de los apartados vistos hasta ahora, son: las variables cinemáticas, las variables ambientales, la pendiente y las nuevas variables introducidas mediante la aplicación de la fórmula de la potencia de un motor de combustión.

El estudio de los modelos calculados se realiza mediante los resultados de las medidas de error explicadas en el apartado 3.7. Estos son el error relativo promedio, la desviación estándar, el error en el factor de emisión, el error cuadrático medio de validación cruzada y el MAPE.

También servirán de apoyo las gráficas velocidad/emisiones/valores reales de emisión para conocer qué es lo que está ocurriendo en cada modelo y poder buscar una explicación más acertada al respecto. Muchas veces un simple valor de error no nos aporta la suficiente información para conocer el comportamiento exacto del modelo ante las variables explicativas introducidas.

Estos modelos se han realizado utilizando la base de datos en la que sólo hay ensayos de la línea 145.


62

5.10. Comprobación de la utilidad de los modelos

En este último apartado se evalúan los modelos obtenidos en el apartado anterior utilizando bases de datos más complejas a priori. Estas bases de datos serán las dos restantes de las tres de las que se dispone.

Se calculan los valores de error de los modelos más significativos que se han obtenidos y se comparan con los valores de error de los mismos.


63


64

6. ANÁLISIS Y ESTUDIO DE LAS EMISIONES DE CO2

6.1. Estudio de gráfica emisiones de CO2/velocidad

En primer lugar, parece claro que las emisiones de gases contaminantes van a depender de las variables cinemáticas ya citadas en el apartado 5.

Para buscar un punto de partida, se trató de graficar las emisiones instantáneas de CO2 junto con algunas de las variables cinemáticas.

La gráfica velocidad/emisiones de CO2 de un tramo determinado del ensayo test070626100019_C1i es la que muestra la figura 22.

Figura 22. Gráfica velocidad/emisión real de CO2

Se puede observar como las curvas de CO2 y de la velocidad presentan un cierto retardo entre sí. El CO2 va ligeramente adelantado a la velocidad. Esto quiere decir que la medida instantánea de la velocidad es incorrecta por algunos segundos. En un principio, parece que las gráficas muestran en torno a 1-4 segundos de retardo. Se estudiará cuantos son los segundos que hay de retardo para tratar de corregir las medidas con el fin de alcanzar una mayor exactitud en nuestros modelos.

Además, como era de esperar, también se observa que la velocidad no es la única variable explicativa de las emisiones de CO2 puesto que existen multitud de picos y el CO2 no sigue con exactitud a la velocidad.

0

5

10

15

20

25

0

2

4

6

8

10

12

1 12 23 34 45 56 67 78 89 100

111

122

133

144

155

166

177

188

199

210

221

232

243

254

265

276

CO2

(g/s

)

Velo

cida

d (m

/s)

Segundos

Velocidad/CO2

Velocidad (m/s) CO2 (g/s)


65

6.2. Estudio del retardo en las variables cinemáticas

Se van a calcular una serie de modelos utilizando únicamente las tres variables cinemáticas explicadas en los puntos 5.3 y 5.4 con diferentes retardos en las mismas. Se evaluarán los errores en los modelos calculando el error relativo, la desviación estándar de este error, el error en la determinación del factor de emisión, el error cuadrático de validación cruzada y el MAPE.

Para evaluar los retardos óptimos en las variables cinemáticas se ha utilizado una base de datos en la que los datos de entrenamiento corresponden a dos ensayos de la línea 145 ida y un ensayo de la línea 145 vuelta, mientras que los datos de prueba o test corresponden a un ensayo de la línea 145 vuelta. Los cuatro ensayos se han realizado con el autobús vacío. Se ha elegido esta base de datos para disminuir al máximo la variabilidad debido a otros factores – diferencia de líneas con las correspondientes fuentes de variabilidad que esto supone: diferentes pendientes, posible línea utilizada para la prueba no entrenada previamente, variación debido al diferente estado de carga del autobús,etc. En el conjunto de entrenamiento está incluido un ensayo con características, a priori, muy similares al conjunto de prueba (en ambos conjuntos hay datos de un ensayo de la línea 145 vuelta).

El número de datos de esta base de datos asciende a 4132, habiendo sido 3121 de ellos utilizados para el entrenamiento y los otros 1011 para el conjunto de prueba. Estas cifras hacen que en torno a un 75% de los datos hayan sido utilizados para el entrenamiento y el 25% restante para el conjunto de prueba.

Las variables utilizadas, así como los rangos de estas variables en esta base de datos se recogen en la tabla 3.

Variable explicativa Rango de valores (unidades) Caudal másico de 𝐂𝐂𝐂𝐂𝟐𝟐 0,06-53,89 (g

s� ) Velocidad 0-80,4 (km

h� ) Aceleración -10,3-8,9 (km

hs� ) Sobreaceleración -11-9,3 (km

hs2� )

Tabla 3. Rango de valores de las variables explicativas

Los resultados obtenidos se muestran en la tabla 4.

La nomenclatura utilizada es la siguiente: cada modelo se representa con el nombre CO2_XYZ, donde X es el retardo considerado en la velocidad, Y es el retardo considerado en la aceleración y Z es el retardo considerado en la sobreaceleración. Por ejemplo, el CO2_000 es el modelo que utiliza los valores de las variables explicativas tal y como han sido proporcionados en la base de datos original de la EMT.

Los retardos son considerados en segundos.


66

Modelo

Error Relativo


Error FE

Error cuadrático validación

cruzada

MAPE

CO2_000 2,64% 23,82% -11,86% 33,24 4,6 CO2_220 1,96% 22,46% -8,81% 27,26 3,57 CO2_222 1,91% 22,43% -8,59% 27,28 3,56 CO2_230 1,96% 21,48% -8,79% 24,64 3,2 CO2_330 1,48% 21,51% -6,65% 24,33 3,1 CO2_333 1,42% 21,47% -6,40% 24,25 3,08 CO2_440 1,19% 21,24% -5,35% 24,53 3,01 CO2_340 1,62% 21,26% -7,26% 24,85 3,13 CO2_444 1,13% 21,03% -5,06% 23,66 2,99 CO2_344 1,56% 21,09% -7,03% 24,05 3,01

Tabla 4. Resultados de los modelos en los que se varían los retardos

El error relativo de la tabla representa el promedio de todos los errores relativos instantáneos en cada una de las predicciones realizadas en el conjunto de prueba. Los errores relativos instantáneos se han medido como la diferencia entre el valor de emisión real y la predicción del modelo, dividida entre el valor máximo de emisión real de entre todos los valores del conjunto de prueba que, para este conjunto de prueba, ha sido 35,89 g/s. El error relativo promedio quiere decir que, si se introducen en el modelo unos valores determinados de las variables utilizadas como variables explicativas (velocidad, aceleración, sobreaceleración) con los retardos correspondientes, se obtendrá una predicción de la emisión de CO2 que, por término medio, tendrá un error correspondiente al error relativo promedio en la escala de valores de emisiones de CO2 en g/s.

La desviación estándar de la tabla representa la desviación estándar de los errores anteriores.

El error FE de la tabla es el error en la determinación del factor de emisión. Primero se calcula la cantidad total de gramos de CO2 emitidos en el caso real y en la predicción del modelo. Después se dividen estos dos valores por el número de kilómetros que se hacen en la ruta utilizada para el conjunto de prueba que, en este caso, es 8,5 km. Al hacer esta división se han obtenido los factores de emisión reales y predichos, en g/km. Finalmente, se le resta al valor predicho del factor de emisión el valor real y después se le divide entre el valor del factor de emisión real.

El MAPE y el error cuadrático de validación cruzada también van mejorando a medida que aumenta el retardo considerado en las variables.


67

A la vista de los datos obtenidos en la tabla se puede afirmar que el retardo de las tres variables cinemáticas tiene una gran relevancia en el cálculo de las emisiones, como se había pensado.

La mejor combinación obtenida es aquella en la que la velocidad, la aceleración y la sobreaceleración tienen un retardo de 4 segundos con respecto a los valores originales. Al pasar de un modelo con las tres variables cinemáticas en su medida original a otro con las variables cinemáticas con un retardo de 4 segundos se tiene que:

1. El error relativo promedio pasa del 2,64% al 1,13%, mejorando en un 1,51%. 2. La desviación estándar del error relativo pasa del 23,82% al 21,03%, mejorando

en un 2,79%. 3. El error en el factor de emisión pasa de un -11,86% a un -5,06%, mejorando en

un 6,8%. 4. El MAPE pasa de un 4,6 a un 2,99, mejorando en un 1,61. 5. El error cuadrático de validación cruzada pasa de un 33,24 a un 23,66, mejorando

en un 9,58.

Es lógica la obtención de esta combinación como la mejor puesto que los retardos utilizados en las tres variables son iguales.

Otra conclusión importante es la mejora de los modelos con la introducción de la variable sobreaceleración como variable explicativa. Entre el modelo CO2_440 y el modelo CO2_444 se observan ligeras mejoras en los valores indicativos de la precisión del modelo.

En las figuras 23 y 24 se muestran dos gráficas correspondientes al modelo CO2_000 y al modelo CO2_444 respectivamente. En estas se recogen las emisiones reales de CO2, la predicción y la velocidad en un tramo determinado (del segundo 1 al 97) del conjunto de prueba.

Es fácil observar cómo en la figura 23 la velocidad va por delante de las emisiones de CO2 y cómo la predicción es bastante peor que en la figura 24, donde la curva de predicción sigue de forma más fiel a la curva de emisiones reales.


68

Figura 23. Gráfica velocidad/emisión real de CO2/predicción de CO2 en el modelo con variables cinemáticas sin retardos

Figura 24. Gráfica velocidad/emisión real de CO2/predicción de CO2 en el modelo con variables cinemáticas con retardo 4 segundos cada una de ellas

6.3. Adición de variables ambientales

Además de las variables cinemáticas, el resto de variables que pueden incluirse en los modelos como variables explicativas siendo obtenidas directamente de la base de datos proporcionada por la EMT son la temperatura, la presión y la humedad.

Se ha entrenado un modelo con la combinación CO2_444 en las variables cinemáticas y con la adición de las variables ambientales. Los conjuntos de entrenamiento y prueba han sido los mismos que los utilizados en el punto anterior.

Las variables ambientales introducidas se caracterizan en la tabla 5.

Variable explicativa Rango de valores (unidades) Temperatura 19,81-24,52 (℃)

Humedad relativa 44,5-60,58 (%) Presión 94,3-95,15 (KPa)

Tabla 5. Rango de valores de las variables ambientales

-10

0

10

20

30

40

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97

Tiempo (segundos)

CO2 (g/s) Prediccion CO2_000 (g/s) Velocidad (km/h)

-10

0

10

20

30

40

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97Tiempo (segundos)

CO2 (g/s) Prediccion CO2_444 (g/s) Velocidad (km/h)


69

Se hicieron diferentes modelos para testar la influencia de las tres variables ambientales. Los resultados obtenidos se muestran en la tabla 6.

En general, se observa como el error cuadrático de validación cruzada disminuye con la introducción como variables explicativas de cualquier combinación de variables ambientales. Esto tiene sentido puesto que, como ya se ha explicado, este error representa la bondad del modelo en el conjunto de entrenamiento, es decir, cómo de fiel conseguimos que sea el modelo en la representación de los datos de entrenamiento. Cuantas más variables explicativas introduzcamos mayor adaptación tendrá el modelo a los datos teniéndose que tener cuidado con el ya mencionado problema del overfitting o sobreajuste.

Sin embargo, es fácil darse cuenta de que algo ocurre en la predicción de los datos de test cuando se introduce en el modelo la variable temperatura. Hay que recordar que el modelo CO2_444 tenía un error en la predicción del factor de emisión de -5,06%, un error relativo de 1,13% y una desviación estándar de 21,03%. Los errores al introducir la temperatura como variable se disparan. Para encontrar una razón a este hecho se ha graficado la predicción del modelo CO2_444 al que se le ha añadido únicamente la temperatura como nueva variable explicativa en el mismo tramo graficado anteriormente. La gráfica se puede ver en la figura 25.

Modelo

Error relativo


Error FE


cruzada Temperatura+Presión+Humedad -58,80% 37,18% 264,21% 22,00

Temperatura+Presión -68,30% 37,56% 307,87% 22,37 Temperatura+Humedad -59,27% 37,28% 268,31% 22,41

Presión+Humedad 5,23% 21,64% -23,50% 22,93 Temperatura -68,60% 37,69% 308,22% 22,88

Humedad 5,50% 21,47% -24,71% 23,39 Presión 0,55% 21,14% -2,49% 23,12

Tabla 6. Resultados de modelos con la adición de las variables ambientales


70

Figura 25. Gráfica velocidad/emisión real de CO2/predicción de CO2 con la adición de la temperatura al modelo que incluye retardo 4 en todas las variables cinemáticas

Viendo la gráfica, se observa que la adición de la temperatura al modelo hace que se produzca un efecto aditivo en la predicción del CO2: la predicción del CO2 es igual que la del modelo CO2_444 pero sumándole una cantidad adicional que no parece tener mucho sentido. Si bien es cierto que al añadir la temperatura el modelo se adapta mejor a los datos de entrenamiento, hay que tener en cuenta que lo que realmente se busca en un modelo de predicción es que sea capaz de predecir con buena calidad nuevos datos de los que se desconoce los valores reales de la variable respuesta. Por esta razón, se ha concluido que la temperatura no se va a incluir como variable explicativa ya que supone un empeoramiento de los modelos.

La humedad tampoco parece aportar mejoras en el modelo, sino que lo empeora.

La presión, por su parte, añadida al modelo como variable explicativa de forma independiente aporta bastante buenos resultados. Se mejora el error relativo en un 0,58% y el error en el factor de emisión en un 2,57% con respecto al modelo CO2_444. Sin embargo, la desviación típica aumenta ligeramente. Ya que no disminuyen los tres valores significativos de precisión, a partir de ahora se entrenará cada modelo con presión y sin presión para obtener el mejor modelo y poder valorar la influencia de la presión de forma correcta.

6.4. Búsqueda del modelo final mediante la adición de nuevas variables según diferentes criterios. Prueba de los modelos con un ensayo de una línea entrenada

En este apartado, se trata de añadir al modelo CO2_444 -ya obtenido y formado únicamente por variables cinemáticas- otras variables explicativas que, en una primera hipótesis se piense que van a suponer una mejora en el mismo y que no se encuentren directamente en la base de datos proporcionada por la EMT. Después se comprobará estas hipótesis estudiando los valores de error en la predicción obtenidos. Para simplificar este

0

10

20

30

40

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97Tiempo (segundos)

CO2 (g/s) Prediccion (g/s) Velocidad (km/h)


71

proceso y tratar de disminuir al máximo la inclusión de variabilidades no controladas por las variables explicativas, se va a utilizar la misma base de datos que se ha utilizado en los apartados anteriores.

6.4.1. Adición de la pendiente Como ya se explicó en el apartado 5.5, se ha obtenido un perfil de pendientes para cada ruta de la que se dispone. En este caso, los valores que toma la pendiente se encuentran en la tabla 7.

Variable explicativa Rango de valores (unidades) Pendiente -3,45-3,58 (%)

Tabla 7. Rango de valores posibles de la variable pendiente

Se han realizado dos modelos, ambos partiendo del CO2_444: uno con la variable pendiente y la variable presión y otro con la variable pendiente, pero sin la variable presión. Los resultados han sido los mostrados en la tabla 8.

Modelo

Error Relativo


Error FE


cruzada

MAPE Pendiente 0,18% 15,72% -0,79% 17,74 2,70

Pendiente+Presión -0,42% 15,67% 1,91% 17,43 2,77

Tabla 8. Resultados de los modelos con la adición de la presión y de la pendiente

A la luz de los resultados arrojados por ambos modelos, está claro que la introducción de la pendiente como variable explicativa supone una mejora significativa del modelo de predicción y no se puede obviar. La desviación estándar mejora notablemente en ambos modelos, así como el error en el cálculo del factor de emisión. En el modelo en el que únicamente se introduce la pendiente como variable adicional, se tiene una mejora respecto al modelo CO2_444 de un 0,29 en el MAPE, de un 0,95% en el error relativo promedio, de un 5,31% en la desviación estándar, de un 4,27% en el error el factor de emisión y de un 5,92 en el error cuadrático de validación cruzada.

Se observa también como en los dos modelos se mejora tanto la precisión del modelo sobre los datos de entrenamiento como la precisión del modelo en el cálculo de la predicción sobre los datos de prueba.

La figura 26 muestra la predicción de CO2, la emisión real y la velocidad sobre el mismo tramo de datos representado en todas las gráficas anteriores, pero utilizando el modelo en el que se ha añadido únicamente la pendiente.


72

Figura 26. Gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo al que se le ha añadido la pendiente a partir del modelo con retardo 4 segundos en todas las variables cinemáticas

Queda, por tanto, demostrada la importancia de la introducción de la pendiente como variable explicativa. La presión, por su parte, tiende a empeorar la capacidad del modelo para predecir nuevos datos – aunque mejore ligeramente la desviación estándar y el error cuadrático, el resto de errores los empeora -.

La figura 27 ilustra una salida por pantalla que el modelo en R muestra para la cuantificación de la importancia de las variables.

Figura 27. Importancia de las variables de modelo al que se le ha añadido la pendiente a partir del modelo con retardo 4 segundos en todas las variables cinemáticas

-10

0

10

20

30

40

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97

Tiempo (segundos)

CO2 (g/s) Prediccion CO2_444+Pendiente (g/s) Velocidad (km/h)


73

Esta figura muestra como la importancia de la pendiente es muy elevada. Solamente la velocidad tiene una importancia mayor que la pendiente. Se puede observar también cómo la presión tiene una importancia prácticamente despreciable.

6.4.2. Adición de variables en función del cálculo de la potencia del motor. Llegados a este punto, se trata de afinar un poco más en la búsqueda de las mejores variables explicativas posibles con los datos que se tienen. Para conseguir esto, en este apartado se busca encontrar una relación entre los conocimientos físicos en el comportamiento de la emisión de gases contaminantes por parte de los motores de combustión interna y la obtención de nuevas variables que reduzcan la variabilidad del modelo.

Es bien sabido que la cantidad de emisiones contaminantes producidas por un motor de combustión interna depende de la potencia del motor. Tal y como escribe Natalia Fonseca en su tesis doctoral “Aspectos de la medición dinámica instantánea de emisiones de motores. Aplicación al desarrollo de un equipo portátil y una metodología para estudios de contaminación de vehículos en tráfico real”, la potencia de un motor de un vehículo puede escribirse como:



𝑣𝑣 � 𝐹𝐹𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑖𝑖ó𝑛𝑛𝑎𝑎𝑖𝑖𝑛𝑛𝑎𝑎𝑎𝑎𝑎𝑎

+ 𝐹𝐹𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑛𝑛𝑎𝑎𝑖𝑖ó𝑛𝑛 + 𝐹𝐹𝑎𝑎𝑟𝑟𝑟𝑟𝑎𝑎𝑟𝑟𝑟𝑟𝑎𝑎𝑎𝑎 + 𝐹𝐹𝑎𝑎𝑟𝑟𝑟𝑟𝑎𝑎𝑟𝑟𝑖𝑖𝑎𝑎𝑛𝑛𝑡𝑡𝑟𝑟𝑎𝑎𝑖𝑖𝑎𝑎𝑎𝑎

�

Siendo ᵑ𝑅𝑅𝑅𝑅 el rendimiento del sistema de transmisión, v la velocidad del vehículo y 𝐹𝐹𝑡𝑡 la fuerza de tracción. Las componentes a la derecha de la segunda igualdad representan las diferentes fuerzas que el motor debe vencer para dar la potencia necesaria. Estas son la de la aceleración lineal, la fuerza de ascensión debida a la pendiente del terreno y la componente vertical del peso del vehículo, la fuerza de rodadura debida al rozamiento del pavimento y la fuerza necesaria para vencer a la resistencia aerodinámica.

La fórmula anterior puede escribirse como:



𝑣𝑣 �𝑚𝑚𝑣𝑣𝑣𝑣𝑣𝑣𝑑𝑑 + 𝑚𝑚𝑙𝑙𝑠𝑠𝑣𝑣𝑛𝑛 ∝ +𝑚𝑚𝑙𝑙𝑓𝑓𝑎𝑎 +

12𝐶𝐶𝑥𝑥𝑀𝑀𝑣𝑣𝑣𝑣𝜌𝜌𝑎𝑎𝑖𝑖𝑎𝑎𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖𝑎𝑎𝑛𝑛𝑡𝑡𝑟𝑟

2�

Donde 𝑚𝑚 es la masa del vehículo, g la aceleración de la gravedad, ∝ el ángulo de pendiente de la carretera, 𝑓𝑓𝑎𝑎 el coeficiente de rodadura, 𝐶𝐶𝑥𝑥 el coeficiente de resistencia aerodinámica, 𝜌𝜌𝑎𝑎𝑖𝑖𝑎𝑎𝑎𝑎 la densidad del aire y 𝑀𝑀𝑣𝑣𝑣𝑣 el área frontal del vehiculo.

Llegados a este punto, se puede considerar que las variables de las que depende la potencia son las mismas que las variables de las que dependen las emisiones.

Si observamos la fórmula anterior, la velocidad está multiplicando a toda la fuerza de tracción por lo que, en realidad, la velocidad y la aceleración se encuentran multiplicándose y la pendiente y la velocidad también.

Utilizando la base de datos que se tiene, se puede introducir en el modelo la influencia de la fuerza de aceleración lineal y la influencia de la fuerza de ascensión. La primera se


74

introduciría mediante la variable explicativa 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣 × 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑎𝑎𝑣𝑣𝑣𝑣𝑖𝑖ó𝑛𝑛 y la segunda mediante la variable explicativa velocidad × pendiente.

Quedarían por tener en cuenta la fuerza de rodadura y la fuerza necesaria para vencer la resistencia aerodinámica. En cuanto a esta última, se aprecia en la fórmula anterior que únicamente depende de la velocidad del viento ya que el resto de parámetros son constantes. La velocidad del viento, cuando no hay rachas de viento, es prácticamente igual que la velocidad del vehículo. Al estar la velocidad del viento elevada al cuadrado en la fórmula mencionada se puede incluir también la influencia de la resistencia aerodinámica introduciendo en el modelo la variable explicativa velocidad2.

La fuerza de rodadura por su parte depende de muchos factores. Los factores más importantes que influyen son la velocidad, la presión de inflado de los neumáticos, el tipo de neumático, la superficie de rodadura y el vehículo (Fonseca, 2012).

Debido a que se desconocen la mayoría de los factores que regulan esta fuerza, la influencia de la misma no podrá ser incluida en los modelos que se van a mostrar más adelante.

Partiendo del modelo CO2_444 obtenido en el apartado 6.2 y añadiendo las variables pendiente, velocidad × aceleración, velocidad × pendiente, y velocidad2, se han obtenido los modelos y los resultados mostrados en la tabla 9. Se han añadido el modelo CO2_444 y este mismo, pero añadiendo la pendiente (el obtenido en el apartado anterior) para poder hacer una mejor comparación. En la tabla, v*a es velocidad × aceleración, v*p es velocidad × pendiente, y v2 es velocidad2.

Modelo

Error relativo


Error FE


cruzada

MAPE CO2_444 1,13% 21,03% -5,06% 23,66 2,99 Pendiente 0,18% 15,72% -0,79% 17,74 2,70

Pendiente+v*p 1,30% 13,60% -5,84% 16,46 2,35 Pendiente+v*a 0,34% 14,19% -1,54% 14,24 2,11

V*p+v*a 1,50% 12,05% -6,74% 13,05 1,83 V*p+v*a+v2 1,42% 12,64% -6,36% 13,06 1,86

Pendiente+v*a+v*p+v2 1,38% 12,66% -6,21% 13,06 1,87

Tabla 9. Resultados de los modelos en los que se añade las variables según la fórmula de la potencia

Se han resaltado en negrita los dos mejores resultados de cada medida del error. Las filas sombreadas en amarillo son las correspondientes a los modelos ya obtenidos hasta el momento.

Los resultados de la tabla conducen a las siguientes conclusiones:


75

1. La adición de estas nuevas variables supone siempre una mejora en el MAPE, en el error cuadrático de validación cruzada y en la desviación estándar.

2. El error en el factor de emisión aumenta con respecto a CO2_444 en todos los nuevos modelos menos en el que únicamente añade la pendiente y la velocidad × aceleración. Con respecto al modelo CO2_444 más pendiente, todos los nuevos modelos empeoran en este aspecto.

3. El error relativo promedio aumenta en todos los nuevos modelos con respecto al CO2_444 menos en el que únicamente añade la pendiente y la velocidad ×aceleración. Con respecto al modelo CO2_444 más pendiente, todos los nuevos modelos empeoran en este aspecto.

Una vez obtenidos estos modelos, se procede a probar los mismos modelos añadiendo la variable presión, que se había obviado anteriormente. La tabla 10 muestra los resultados. En la tabla, P representa la variable explicativa presión.

Modelo

Error relativo


Error FE


cruzada

MAPE Pendiente+v*p+P 0,67% 13,73% -3% 16,28 2,38 Pendiente+v*a+P -0,18% 14,14% 0,82% 13,94 2,25

V*a+v*p+P 1,08% 12,08% -4,85% 12,88 1,92 Pendiente+v*p+v*a+v2+P 0,78% 12,84% -3,53% 12,88 1,97

V*p+v*a+v2+P 1% 12,72% -4,48% 12,72 1,95

Tabla 10. Resultados añadiendo la presión a los modelos

Se han resaltado en negrita los mejores valores de cada medida de error.

Una vez obtenidos todos estos modelos, la decisión de qué modelo es mejor no es sencilla. No existe un modelo que mejore a los demás por unanimidad.

En realidad, el objetivo de obtener un modelo de predicción lo mejor posible en el presente estudio es el de que, al alimentarle con nuevos datos instantáneos, la predicción que arroje el modelo sea lo más cercana a la realidad posible. El factor de emisión representa las emisiones durante todo el trayecto en g/km por lo que no tiene tanta importancia para nuestro caso como el resto de medidas de error. Por tanto, esta medida se descarta.

Por otro lado, los modelos con errores relativos promedios negativos van a tener, quizás, una predicción de emisiones más pesimista. Un error relativo negativo quiere decir que la curva de la predicción va por encima de la curva de la emisión real en ese instante. Esto hará que las predicciones del modelo sean, en general, mayores que el valor de emisión real. De cara a la toma de medidas que regulen la emisión o que traten de solucionarla


76

puede ser interesante tener modelos que den valores más altos de los reales para cubrirnos en salud y asegurar un correcto aprovechamiento de las medidas implantadas.

Es conveniente recordar que el error relativo promedio es el promedio de los errores relativos instantáneos por lo que un muy bajo valor de este nos muestra un muy buen comportamiento de los datos (o al menos de la mayoría de ellos).

Los resultados del MAPE obtenidos hasta ahora se tratarán en profundidad en el apartado 6.5. A grandes rasgos, que el MAPE tenga un valor elevado y que el error relativo promedio tenga un valor muy pequeño puede querer decir que un conjunto de los datos muy alto se adapta muy bien al modelo pero que el conjunto restante (pequeño) se adapta muy mal y engorda de forma muy importante el valor del MAPE.

Finalmente, parece que el modelo formado por las tres variables introducidas según la fórmula de la potencia (velocidad × aceleración, velocidad × pendiente, y velocidad2) más la variable pendiente y la variable presión es el que menor error relativo da. Las desviaciones típicas son todas similares por lo que se decide elegir este modelo como modelo final. Se subraya en rojo en la tabla 10.

En cuanto a la importancia de las variables de este último modelo, la figura 28 muestra una salida por pantalla que el programa R proporciona.

Figura 28. Importancia de las variables del modelo completo final

Las tres variables que se han introducido según la fórmula de la potencia pasan ahora a ser las de mayor importancia, seguidas de la sobreaceleración, la presión y la velocidad.


77

6.5. Problemática del MAPE

No se va a pasar por alto los elevados valores del MAPE que se han obtenido en los diferentes modelos. Pese a los malos datos de MAPE se han seguido utilizando con el fin de comparar los diferentes modelos ya que, aun siendo los valores malos estos se pueden comparar entre sí.

Observando el resto de medidas del error y las gráficas que representan las predicciones junto con las emisiones reales y la velocidad se ha llegado a la conclusión de que estos valores malos de MAPE son culpa de datos puntuales a los que el modelo se adapta muy mal y que arrojan unos errores muy elevados. En particular, se va a representar la gráfica velocidad/predicción/emisión real del último modelo obtenido en el punto anterior en diferentes tramos. Las figuras 29,30, 31 y 32 muestran estas gráficas.

Figura 29. Tramo 1 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo completo final


-5

0

5

10

15

20

25

30

35

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103

109

115

121

127

133

139

145

151

157

163

169

175

Tiempo (segundos)

CO2 (g/s) Prediccion Velocidad (km/h)

-505

10152025303540

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101

106

111

116

121

126

131

136

141

Tiempo (segundos)

CO2 (g/s) Predicción (g/s) Velocidad (km/h)


78


Figura 32. Tramo con muy bajas velocidades de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo completo final

A la vista de las gráficas, se advierte un peor comportamiento del modelo cuando los valores de velocidad se encuentran elevados. Como se ve en la figura 32, cuando las velocidades son bajas o nulas el modelo predice muy bien. En la figura 29, la mayoría de los datos tienen velocidad por debajo de 30 km/h y también se obtienen muy buenas predicciones. Es en las figuras 30 y 31 donde las velocidades son más elevadas y las predicciones empeoran. Por ejemplo, en la figura 30 se puede observar como en los tramos 16-26 segundos y 106-113 segundos las predicciones son bastante malas, sumando estas un elevado valor al MAPE total del conjunto. En la figura 31 se observa como la curva de la predicción tiene una forma similar a la de las emisiones reales lo que muestra que el modelo responde satisfactoriamente a las variables que regulan las emisiones. Sin

-100

102030405060708090

1 10 19 28 37 46 55 64 73 82 91 100

109

118

127

136

145

154

163

172

181

190

199

208

217

226

235

244

Tiempo (segundos)


0

5

10

15

20

25

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76Tiempo (segundos)



79

embargo, la curva de la predicción se encuentra distanciada de la de la emisión real en todo el tramo, lo que se traduce en un aumento del MAPE total.

Los valores muy bajos del error relativo reafirman el hecho de que muchos datos tienen un error relativo muy bajo y unos pocos tienen un error relativo muy alto. En el cálculo del error relativo estas pocas predicciones malas se difuminan pero en el cálculo del MAPE no.

La gráfica de la figura 33 muestra cómo la mayoría de errores relativos se encuentran en la franja del ±20% y cómo algunos pocos tienen valores muy grandes, llegándose al 60% de error.

En particular, 81 datos tienen un error mayor de 20 y 46 un error menor que -20. Considerando que el número de datos del conjunto de prueba es 1011, solo un 12,5% de las predicciones tienen un error mayor de ±20%.

Como ya se ha dicho, se observa una relación entre el aumento de la velocidad y el aumento del error. Esto puede ser debido a la cuarta componente de la fórmula de la potencia que no ha sido tenida en cuenta en el modelo, la de la fuerza de rozamiento. Esta componente depende de la velocidad, entre otros factores. A mayor velocidad, mayor fuerza de rozamiento. Por lo tanto, esta puede ser una de las fuentes de variabilidad que hacen que a mayor velocidad el error sea mayor.

Figura 33. Gráfica del error relativo del modelo completo final

Otra posible explicación es que simplemente el algoritmo no se adapta bien a los datos que se encuentran lejos del centro de los datos. No hay que olvidar que Boosting tiene detrás un concepto parecido al de un modelo de regresión. Al tratar de encontrar el modelo

-60.0%

-40.0%

-20.0%

0.0%

20.0%

40.0%

60.0%

80.0%

1 35 69 103

137

171

205

239

273

307

341

375

409

443

477

511

545

579

613

647

681

715

749

783

817

851

885

919

953

987

Error relativo

Error relativo


80

que se adapte bien a todos los datos, aquellos más “exóticos” seguro que van a tener una precisión menor en las futuras predicciones.

No obstante, en un modelo de predicción de emisiones como este aportará siempre más información el error relativo entendido como el error dentro de la escala de medición de las emisiones que otros valores como el MAPE, que mide el tamaño del error relativo total en toda la muestra sin considerar la escala de medición.

6.6. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que ha sido entrenada

El objetivo ahora es comprobar el funcionamiento de los modelos obtenidos para un conjunto en el que se tiene un conjunto de entrenamiento con todas las rutas posibles en vacío y un conjunto de prueba formado por la ruta que se ha utilizado en todos los modelos hasta ahora (ruta de la línea 145 vuelta). En el conjunto de entrenamiento también están incluidas rutas de la línea 145 tanto de ida como de vuelta. En este caso, se induce mayor variabilidad añadiendo líneas distintas a la de prueba en el conjunto de entrenamiento, aunque la línea utilizada para prueba también esté entrenada.

La base de datos está formada por 10957 datos, de los cuales 9946 son del conjunto de entrenamiento y los 1011 restantes corresponden al conjunto de prueba. Esto supone que en torno a un 10% de los datos son del conjunto de prueba y en torno a un 90% del conjunto de entrenamiento.

Los resultados obtenidos para los modelos más significativos son los mostrados en la tabla 11.

Modelo

Error relativo


Error FE


cruzada

MAPE CO2_444 1,06% 20,46% -4,75% 16,70 3,25

Pendiente+Presión 1,23% 17,82% -5,51 14,92 3,07 Pendiente+v*p+v*a+v2+P 1,46% 12,88% -6,58 9,08 1,83

Tabla 11. Resultados obtenidos al aplicar una base de datos en la que se incluyen rutas diferentes a la ruta de

prueba

Los resultados de la tabla muestran que los valores son parecidos o, en algunos casos, mejores que los obtenidos hasta ahora. Esto nos quiere decir que el modelo es lo suficientemente robusto para soportar introducir más rutas diferentes a las de prueba y conseguir una predicción precisa.


81

El error cuadrático de validación cruzada es siempre mayor debido al mayor número de datos del conjunto de entrenamiento.

6.7. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que no ha sido entrenada

Por último, se va a comprobar la robustez del modelo en el peor de los casos: conjunto de entrenamiento con varias rutas y prueba con una ruta que no ha sido incluida en el conjunto de entrenamiento. Esta ruta, por tanto, no habrá sido entrenada previamente.

La ruta elegida para el conjunto de prueba es nuevamente la correspondiente a la línea 145-vuelta en vacío. La base de datos está formada por 7836 datos, de los cuales 6825 corresponden al conjunto de entrenamiento y, de nuevo, 1011 son los correspondientes al conjunto de prueba. Esto hace que un 87% de los datos están dentro del conjunto de entrenamiento y el otro 13% corresponden al conjunto de prueba.

La tabla 12 muestra los resultados obtenidos.

Modelo

Error relativo


Error FE


cruzada

MAPE CO2_444 2,84% 18,29% -12,75% 12,52 3,23

Pendiente+Presión 2,90% 17,26% -13,03% 11,76 3,12 Pendiente+v*p+v*a+v2+P 5,33% 12,81% -23,95% 7,10 1,76


prueba y la ruta de prueba no se incluye en el entrenamiento

En este caso si se obtienen valores algo peores, en especial en cuanto al error en el cálculo del factor de emisión. Los errores obtenidos en la precisión del modelo en el conjunto de entrenamiento (error cuadrático de validación cruzada) son menores. Esto puede ser debido a la mayor diversidad de datos y que, por tanto, el modelo no se centra solo en unos pocos correspondiente a una línea.

La desviación estándar disminuye o se mantiene en torno a los mismos valores que hasta ahora.

El error relativo sí aumenta con respecto a los conjuntos de entrenamiento y prueba anteriores. Se ha observado como la influencia de la velocidad se ve acentuada con esta base de datos. El número de predicciones con un error relativo mayor de 20% en el modelo que integra todas las variables asciende ahora a 131. Este conjunto de datos penaliza mucho al error relativo promedio haciendo que este ascienda hasta 5,33%.


82

Se representan en la figura 34 y 35 la gráfica velocidad/predicción/emisión real de CO2 del conjunto de prueba dividida en dos tramos. La predicción corresponde al modelo que introduce las cinco variables explicativas.

Figura 34. Tramo 1 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo que incluye las cinco variables explicativas

Figura 35. Tramo 2 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo que incluye las cinco variables explicativas

-505

10152025303540

1 18 35 52 69 86 103

120

137

154

171

188

205

222

239

256

273

290

307

324

341

358

375

392

409

426

443

460

477

494

Tiempo (segundos)

CO2 (g/s) Prediccion Velocidad (km/h)

-20

0

20

40

60

80

100

1 18 35 52 69 86 103

120

137

154

171

188

205

222

239

256

273

290

307

324

341

358

375

392

409

426

443

460

477

494

511

Tiempo (segundos)



83

6.8. Tipo de base learners utilizados en los modelos

Hasta ahora no se ha comentado qué tipo de base learners se han utilizado en nuestros modelos. En el punto 3.3.4 se dice que nuestros modelos serían o modelos de regresión lineales múltiples o additive models.

Anterior a la aplicación de los modelos finales en las bases de datos finales se hicieron numerosas pruebas para comprender los comportamientos de los modelos ante los diferentes cambios posibles (retardos en las variables cinemáticas, adición de la velocidad, adición de la aceleración, adición de la pendiente, etc). Uno de estos cambios es el tipo de base learner que se utiliza. Tras hacer bastantes pruebas se llegó a la conclusión de que el tipo de base learner que mejor resultados daba era el adittive model. Por tanto, todos los modelos que se han descrito hasta ahora son modelos Boosting en los que cada uno de los base learners son addtive models. Esto quiere decir que la relación de cada una de las variables explicativas con la variable respuesta no tiene por qué ser lineal sino que el programa R detecta la forma de esta relación y la considera de este modo (estas relaciones pueden ser lineales, cuadráticas, exponenciales, etc).

En R, existen dos sentencias para expresar si los base learners son modelos de regresión lineales o si cada una de las variables explicativas tienen una relación con la variable respuesta que no tiene por qué ser lineal (additive models). Estas dos sentencias son:

• Glmboost: cada uno de los base learners son modelos lineales de regresión lineal. • Gamboost: cada uno de los base learners son additve models.

A continuación, se va a mostrar una gráfica predicción/emisión real de CO2 de una de las pruebas que se hizo para comparar ambos tipos de base learners. Esta gráfica se muestra en la figura 36.

Figura 36. Fragmento de gráfica velocidad/emisión real de CO2/predicción de CO2 del conjunto utilizado para elegir el tipo de base learner que mejores resultados proporciona

-10

-5

0

5

10

15

20

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103

109

115

121

127

133

139

145

151

157

163

169

175

181

187

193

199

Tiempo (segundos)

CO2 Prediccion glmboost Prediccion gamboost


84

A la vista de la gráfica se puede observar que la predicción hecha con gamboost sigue mejor a la emisión real de CO2 que la hecha con glmboost, que considera todos los base learners modelos de regresión lineal. Con gamboost, los picos más bajos no toman un valor tan pequeño – como ocurre con glmboost, distanciándose mucho de la curva de emisión real- y es capaz de predecir algo mejor en los picos más altos, acercándose más a la curva de emisión real de CO2.

Resultados parecidos a este se repitieron en todas las pruebas que se hicieron, llegándose a la conclusión de que la utilización de modelos de regresión lineal no explicaba toda la variabilidad necesaria. Esto es lógico, puesto que parece evidente que la relación entre las variables introducidas, como la velocidad, la aceleración o la pendiente y la emisión de sustancias contaminantes no tiene por qué ser lineal.

Por tanto, como se ha dicho, todos los modelos utilizan base learners que son modelos de regresión en los que la relación entre variables explicativas y variable respuesta es determinada por el algoritmo en función de los datos (additive models). Esto también aplica a las emisiones de NOx y a la de partículas que serán desarrolladas en los dos puntos siguientes.


85


86

7. ANÁLISIS Y ESTUDIO DE LAS EMISIONES DE NOx

7.1. Estudio de gráfica emisiones de NOx/velocidad

Al igual que en el estudio de las emisiones de CO2, se ha graficado las emisiones instantáneas de NOx y la velocidad instantánea en los mismos segundos.

En la figura 37 se puede observar el mismo tramo del ensayo test070626100019_C1i utilizado para la representación del CO2 y la velocidad, pero en este caso, considerando las emisiones de NOx.

Figura 37. Tramo de gráfica velocidad/emisión real de NOx

De nuevo, se observa un desfase entre las curvas de NOx y la de la velocidad. El NOx se adelanta a la velocidad. Para buscar solución a este problema y alcanzar mayor exactitud en los modelos, se procederá de idéntica forma a la realizada para el CO2, como se detallará en el siguiente apartado.

En este caso también, existen también multitud de picos que muestran la existencia de otras variables explicativas de las emisiones de NOx. De hecho, las emisiones de NOx son, a priori, menos uniformes con las condiciones de funcionamiento del motor que las del CO2.

00.050.10.150.20.250.3

02468

1012

1 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

161

169

177

185

193

NO

x (g

/s)

Velo

cida

d (m

/s)

Segundos

Velocidad/NOx

Velocidad (m/s) NOX (g/s)


87


Se han calculado diferentes modelos utilizando únicamente la velocidad, la aceleración y la sobreaceleración con diferentes retardos en las mismas.

Para este primer estudio de las emisiones de NOx se ha utilizado la misma base de datos utilizada para el estudio análogo en el caso del CO2. En esta base de datos los datos de entrenamiento corresponden a dos ensayos de la línea 145 ida y un ensayo de la línea 145 vuelta. El conjunto de entrenamiento está formado por un ensayo de la línea 145 vuelta. Los cuatro ensayos mencionados se han realizado con el autobús vacío. Se quiere recordar que el motivo de la utilización de esta base de datos no es otro que el de introducir la menor variabilidad no explicada posible en estos primeros modelos puesto que el objetivo final de la elaboración de estos modelos es la búsqueda de los retardos óptimos que nos permitan introducir después nuevas variables y ampliar los modelos.

Las variables utilizadas y los rangos de las mismas en la base de datos seleccionada son los recogidos en la tabla 13.

Variable explicativa Rango de valores (unidades) Caudal másico de 𝐍𝐍𝐂𝐂𝐱𝐱 1,3E-06-0,45 (g

s� ) Velocidad 0-80,4 (km

h� ) Aceleración -10,3-8,9 (km

hs� ) Sobreaceleración -11-9,3 (km

hs2� )

Tabla 13. Rango de valores de las variables cinemáticas y del caudal másico de NOx

La nomenclatura que se utiliza en la tabla 14 es análoga a la utilizada para el caso del CO2: cada modelo tiene el nombre NOX_XYZ, siendo X el retardo en la variable velocidad, Y el retardo para la variable aceleración y Z el retardo para la variable sobreaceleración.

Modelo

Error relativo


Error FE

Error

cuadrático validación

cruzada

MAPE NOX_000 2,38% 15,85% -13,73% 0,0041 4,22 NOX_220 2,03% 14,51% -11,72% 0,0035 3,25 NOX_222 1,99% 14,47% -11,49% 0,0035 3,22 NOX_230 2,06% 13,70% -11,85% 0,0032 2,82 NOX_330 1,80% 13,49% -10,37% 0,0031 2,58 NOX_333 1,75% 13,45% -10,11% 0,0031 2,52 NOX_340 1,93% 13,31% -11,13% 0,0032 2,62 NOX_440 1,72% 13,11% -9,90% 0,0032 2,38


88

NOX_444 1,67% 12,90% -9,63% 0,003 2,30 NOX_344 1,89% 13,14% -10,19% 0,0031 2,48

Tabla 14. Resultados de los modelos en función del retardo aplicado, en segundos

En este caso, el máximo valor de emisiones de NOx es 0,45 g/s. Esto explica los valores tan bajos del error cuadrático de validación cruzada. Al ser la fórmula de este error:

𝑀𝑀𝑀𝑀𝑀𝑀 =∑ (𝑥𝑥�𝑖𝑖 − 𝑥𝑥𝑖𝑖)2𝑛𝑛𝑖𝑖=1

𝑛𝑛

Se ve como la contribución de cada valor de predicción al sumatorio de potencias es muy pequeña y, por tanto, el error es muy pequeño.

A la vista de los resultados puede justificarse la utilización del error relativo que tiene en cuenta la escala de trabajo. Los errores obtenidos en el NOx son del mismo orden que los obtenido para el CO2 (entre 1 y 3%). Si no se considerara la escala de trabajo y simplemente se calculara el error como diferencia de valor de predicción y valor real, los errores en este caso serían mucho menores que en el caso del CO2, cuyo valor máximo de emisión era 35,89 g/s.

Al igual que en caso del CO2, los errores van disminuyendo hasta llegar a la combinación en el que el retardo de las tres variables cinemáticas es 4 segundos.

La desviación estándar es mejor que en los modelos de CO2 mientras que el error en el factor de emisión es algo mayor para este caso.

El MAPE se mantiene con valores muy elevados. Pese a los altos valores de MAPE, se sigue teniendo en cuenta este indicador para utilizarlo como comparador entre diferentes modelos y observar la magnitud de la mejora entre ellos.

Como resumen, se puede decir que, al pasar de un modelo con las tres variables cinemáticas en su medida original a otro con las variables cinemáticas con un retardo de 4 segundos se tiene que:

1. El error relativo promedio pasa del 2,38% al 1,67%, mejorando en un 0,71%. 2. La desviación estándar del error relativo pasa del 15,85% al 12,90%, mejorando

en un 2,95%. 3. El error en el factor de emisión pasa de un -13,73% a un -9,63%, mejorando en

un 4,1%. 4. El MAPE pasa de un 4,22 a un 2,3, mejorando en un 1,92. 5. El error cuadrático de validación cruzada pasa de un 0,0041 a un 0,003, mejorando

en un 0,0011.

La influencia de la sobreaceleración es también importante para el comportamiento del modelo. El modelo NOX_444 mejora en todas las medidas de error al modelo NOX_440, que no considera retardo en la variable sobreaceleración.


89

En las siguientes dos figuras (figura 38 y 39) se muestran dos gráficas correspondientes al modelo NOX_000 y al modelo NOX_444 respectivamente. Estas gráficas representan las emisiones reales de NOx, la predicción de NOx y la velocidad en el mismo tramo.

Figura 38. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo en el que no se aplican retardos en las variables cinemáticas

Figura 39. Figura 38. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo en el que se aplican retardos de 4 segundos en cada una de las variables cinemáticas

Se observa como en la primera gráfica el retardo hace que los errores aumenten mucho en todo el tramo mientras en la segunda gráfica el seguimiento de la predicción del NOx a la curva de la emisión real de NOx es muy bueno.

0

0.05

0.1

0.15

0.2

0

5

10

15

20

25

30

35

1 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

161

169

177

185

193 Em

isió

n re

al/p

redi

cció

n (g

/s)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) NOX (g/s) Prediccion NOX_000 (g/s)

-0.05

0

0.05

0.1

0.15

0.2

05

101520253035

1 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

161

169

177

185

193 Em

isió

n re

al/p

redi

cció

n (g

/s)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) NOX (g/s) Prediccion NOX_444 (g/s)


90

7.3. Adición de variables ambientales

Partiendo del modelo NOX_444, que es el mejor en cuanto a retardos, se han ensayado diferentes modelos añadiendo la temperatura, la presión y la humedad en diferentes combinaciones.

La tabla 15 muestra los rangos de valores de estas variables, que son los mismos que en el caso del CO2 por utilizarse la misma base de datos.

Variable explicativa Rango de valores (unidades) Temperatura 19,81-24,52 (℃)

Humedad relativa 44,5-60,58 (%) Presión 94,3-95,15 (KPa)

Tabla 15.Rango de valores de variables ambientales

Los resultados de los diferentes modelos ensayados se muestran en la tabla 16.

Modelo

Error relativo


Error FE


cruzada Temperatura+Presión+Humedad -36,31% 22,74% 210,38% 0,0029

Temperatura+Presión -37,80% 20,51% 217,77% 0,0029 Temperatura+Humedad -37,60% 23,46% 216,61% 0,003

Presión+Humedad 4,07% 13,13% -23,47% 0,003 Temperatura -41,74% 22,50% 240,49% 0,003

Humedad 5,01% 13,11% -28,87$ 0,003 Presión 0,91% 13,06% -5,25% 0,003

Tabla 16. Resultados obtenidos tras la adición de variables ambientales

En este caso, se tiene un resultado parecido al obtenido en el estudio del CO2. Algo extraño ocurre al añadir al modelo la variable temperatura. El modelo NOX_444 del que se parte tenía un error relativo promedio de 1,67%, una desviación estándar del 12,90% y un error en el factor de emisión de -9,63%. Estas mismas medidas, al introducir la variable temperatura empeoran notablemente.

Caso aparte es el error cuadrático de validación cruzada, que se mantiene en torno a los mismos valores. Esto es debido al propio concepto del error cuadrático, a su fórmula y al propio funcionamiento del Boosting. La explicación a estos valores es la misma que la dada en el apartado anterior.


91

Se han graficado el modelo al que se le ha añadido únicamente la variable temperatura en el mismo tramo que el de las dos gráficas anteriores de NOx. La figura 40 muestra esta gráfica.

Figura 40. Gráfica velocidad/emisión real de NOx/predicción de NOx del modelo NOx_444+Temperatura

Ocurre algo parecido a lo que ocurría en el caso del CO2. Se tiene una predicción que sigue la forma de la curva de emisión real, pero con una cantidad constante añadida sobre la misma. Evidentemente, al ser los errores tan elevados durante todo el tramo del conjunto de prueba, el error relativo promedio aumenta considerablemente, así como el factor de emisión y la desviación estándar. No tiene sentido añadir la temperatura como variable explicativa a partir de ahora ya que no es que no mejore los modelos, sino que los empeora.

La humedad también empeora los modelos vistos hasta ahora.

En cuanto a la adición de la presión, se puede apreciar una mejora en el error relativo promedio (en un 0,76%) y en el error en el factor de emisión (en un 4,38%). La desviación estándar empeora en torno a un 1%.

A partir de ahora se descartarán la temperatura y la humedad y se probará la presión en los modelos que se ensayen.

7.4. Búsqueda del modelo final mediante la adición de nuevas variables según diferentes criterios. Prueba de los modelos con un ensayo de una línea entrenada.

7.4.1. Adición de la pendiente Con los perfiles de pendientes obtenidos para cada ruta de la que se dispone, se puede incluir la pendiente como variable explicativa en los modelos.

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0

5

10

15

20

25

30

351 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

161

169

177

185

193

Emis

ión

real

/pre

dicc

ión

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) NOx (g/s) Prediccion NOX_444+Temperatura (g/s)


92

La base de datos utilizada para estos ensayos es la misma que hasta ahora: base de datos con el conjunto de entrenamiento y el de prueba incluyendo las mismas rutas.

El rango de valores de la pendiente va de -3,45% a 3,58%. Estos valores muestran que en las rutas utilizadas para estos modelos la variación de las pendientes no es muy marcada.

Partiendo del modelo NOX_444 se han realizado otros dos modelos: uno incluyendo la variable pendiente y la variable presión, y otro únicamente con la variable pendiente. Los resultados se pueden ver en la tabla 17.

Modelo

Error relativo


Error FE


cruzada

MAPE Pendiente 1,07% 10,45% -6,14% 0,0025 1,96

Pendiente+Presión 0,41% 10,53% -2,37% 0,0024 2,03

Tabla 17. Resultados de los modelos tras la adición de la pendiente y la presión

En ambos modelos se obtienen mejoras significativas con respecto al modelo NOX_444. El modelo que añade la presión y la pendiente obtiene una mayor reducción del error relativo promedio y del error en el factor de emisión, mientras que el que añade únicamente la pendiente tiene una mayor mejora en la desviación estándar y en el MAPE.

Lo que está claro es que la pendiente es necesaria para modelar de la forma más cercana a lo óptimo posible. La adición de la pendiente siempre supone una mejora notable de todos los marcadores de error.

En las figuras 41 y 42 se han graficado los dos modelos anteriores junto con las emisiones reales de NOx y la velocidad sobre un tramo de datos del conjunto de prueba.

A la vista de las dos gráficas, las predicciones de los modelos son parecidas. El modelo que incorpora la presión parece obtener mejores predicciones, aunque la desviación estándar sea algo peor (un 0,08% peor, casi inapreciable). El MAPE también es peor en este modelo pero, como ya se ha explicado para el caso del CO2, en estos modelos de predicción lo que realmente interesa es conocer los errores dentro de la escala de trabajo y con qué precisión puede responder el modelo ante futuros datos y no tanto un valor de error acumulativo en todo el tramo de estudio ya que, la contribución de todos las predicciones instantáneas a un error acumulativo es elevada (por el mero hecho de que la curva de predicción no se encuentra exactamente sobre la curva de emisión real).


93

Figura 41. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo NOx_444+Pendiente

Figura 42. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo NOx_444+Pendiente+Presión

En la figura 43 aparece una salida por pantalla de la importancia de las variables para el modelo NOX_444+Pendiente+Presión. La figura muestra que el orden de importancia de las variables en cuanto a la contribución de la reducción del error en el modelo final es, de mayor a menor: pendiente, aceleración, velocidad, sobreaceleración y presión. Esto reafirma la necesidad de incluir la pendiente como variabilidad explicada en el modelo.

-0.05

0

0.05

0.1

0.15

0.2

0

5

10

15

20

25

30

35

1 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

161

169

177

185

193

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) NOX (g/s) Prediccion NOX_444+Pendiente (g/s)

-0.05

0

0.05

0.1

0.15

0.2

0

5

10

15

20

25

30

35

1 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

161

169

177

185

193

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundo)

Velocidad (km/h) NOX (g/s) Prediccion NOX_444+Pendiente+Presión (g/s)


94

Figura 43. Importancia de las variables para el modelo con retardo 4 segundos al que se le añade la pendiente y la presión

7.4.2. Adición de las variables en función del cálculo de la potencia del motor

En este apartado, el objetivo es, partiendo del modelo NOX_444, añadir combinaciones de las variables pendiente, velocidad × aceleración, velocidad × pendiente, y velocidad2. La introducción de estas variables como variables explicativas responde a la explicación proporcionada en el apartado 6.4.2 del estudio y análisis del CO2. Además de las variables anteriormente mencionadas, se ensayarán ciertos modelos añadiendo la presión como variable explicativa.

Los resultados obtenidos se muestran en la tabla 18, en la que se han añadido los modelos de NOx más significativos conseguidos hasta ahora para poder hacer una comparación sobre la misma. En la tabla, v*a es velocidad × aceleración, v*p es velocidad ×pendiente, y v2 es velocidad2.

Modelo

Error relativo


Error FE


cruzada

MAPE NOX_444 1,67% 12,90% -9,63% 0,003 2,30 Pendiente 1,07% 10,45% -6,14% 0,0025 1,96

Pendiente+Presión 0,41% 10,53% -2,37% 0,0024 2,03


95

Pendiente+v*p 1,61% 9,98% -9,30% 0,0024 1,80 Pendiente+v*a 1,13% 9,97% -6,53% 0,0021 1,85

V*p+v*a 1,68% 9,64% -9,65% 0,0021 1,93 V*p+v*a+v2 1,61% 9,83% -9,26% 0,0021 1,98

Pendiente+v*a+v*p+v2 1,65% 9,84% -9,48% 0,0021 1,95 V*p+v*a+v2+P 1,13% 9,87% -6,51% 0,002 2,09

Pendiente+v*p+v*a+v2+P 0,98% 9,92% -5,63% 0,002 2,06 Pendiente+v*a+P 0,51% 10,06% -2,29% 0,0021 1,99

V*p+v*a+P 1,19% 9,68% -6,85% 0,002 2,02 Pendiente+v*p+P 0,94% 10,10% -5,41% 0,0024 1,84

Tabla 18. Resultados de los modelos con la adición de las variables según la fórmula de la potencia del motor

Se han resaltado en negrita los dos mejores valores de cada uno de los indicadores de precisión del modelo.

Las conclusiones al estudiar la tabla anterior son distintas a las obtenidas para el CO2.

En primer lugar, tanto la pendiente como la presión mejoran todos los modelos en los que aparecen. Parece que la variable más influyente en el caso del NOx es la pendiente. Aquellos modelos que no incorporan la pendiente como variable única (no incluida en un producto, como velocidad × pendiente) presentan valores de error relativo promedio notablemente peores que los que si la incorporan. Un ejemplo de esto es la comparación entre el modelo que incluye velocidad × aceleración y pendiente y el modelo que incluye velocidad × aceleración y velocidad × pendiente. El primero tiene un error relativo de 1,13% y el segundo de 1,68%.

Por otro lado, la introducción de las variables que explican la potencia de un motor de combustión influía en mayor medida en la reducción de la variabilidad en el caso del CO2 que en el del NOx. Esto tiene sentido puesto que las emisiones de CO2 son más parecidas al consumo del motor y, por tanto, a la potencia ejercida por el motor. Las emisiones de NOx tienen un comportamiento más complejo dependiendo de muchas variables como el régimen de giro del motor.

Dicho esto, parece que los mejores modelos son dos: el que introduce la pendiente y la presión, y el que introduce la pendiente, velocidad × aceleración y la presión. Se resaltan en rojo en la tabla.

De nuevo, los resultados del MAPE han resultado muy elevados. Se tratarán en profundidad en el siguiente apartado.

La figura 44 muestra la importancia de las variables del modelo que incluye la pendiente, la velocidad × aceleración y la presión por medio de una salida por pantalla que el programa R proporciona.

A la vista de esta salida por pantalla se observa cómo la variable velocidad × aceleración y la pendiente son ahora las variables más influyentes. La velocidad, la sobreaceleración y la presión se reparten el resto de influencia, siendo la influencia de la aceleración


96

prácticamente despreciable. Esto tiene sentido puesto que esta influencia ya estaría incluida en la variable velocidad × aceleración, que se lleva una gran parte del protagonismo.

Figura 44. Importancia de las variables del modelo que incluye la pendiente, la velocidadXaceleración y la presión


Al igual que en el estudio de las emisiones de CO2, los resultados del MAPE obtenidos en los modelos han sido muy elevados. Con el fin de utilizarlos como un valor comparativo más, se han seguido teniendo en cuenta.

Se han graficado diferentes tramos del modelo en el que se incluye la velocidad ×aceleración, la pendiente, y la presión. En estas gráficas se representa la velocidad, la predicción de emisiones de NOx y las emisiones reales. Las figuras 45, 46 y 47 recogen estas gráficas.


97

Figura 45. Tramo 1 de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo completo


-0.0500.050.10.150.20.250.30.350.40.45

0

5

10

15

20

25

30

35

1 13 25 37 49 61 73 85 97 109

121

133

145

157

169

181

193

205

217

229

241

253

265

277

289

Emis

ión

real

/pre

dicc

ión

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h)

NOX (g/s)

Prediccion NOX_444+Pendiente+VelocidadXaceleración+Presión (g/s)

-0.1

0

0.1

0.2

0.3

0.4

0.5

05

1015202530354045

1 13 25 37 49 61 73 85 97 109

121

133

145

157

169

181

193

205

217

229

241

253

265

277

289

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h)

Nox (g/s)

Predicción NOX_444+Pendiente+VelocidadXaceleracion+Presión (g/s)


98


El estudio de las gráficas anteriores deja varias conclusiones. Al igual que para el caso del CO2, el seguimiento de los valores de predicción a la curva de emisión real es, en general, bastante bueno. El problema a la hora del cálculo del MAPE es que los pocos valores que tienen un error muy elevado penalizan mucho el sumatorio correspondiente a la fórmula del MAPE. Por ejemplo, las predicciones situadas en el pico del tramo 270-290 segundos de la figura 45 no son precisas, lo que hará que la contribución de estas al MAPE sea muy elevada porque, además, el MAPE no es un error adaptado a la escala de valores de NOx (sí que lo es el error relativo promedio).

Se observa también que los mayores errores se alcanzan cuando la velocidad es más elevada y en picos muy altos de emisión. Esto puede ser debido a las mismas razones que se dieron para el caso del CO2 (no introducción en los modelos de la influencia de la fuerza de rozamiento o algoritmo que no se adapta correctamente a los datos lejanos al centro de masas). Otra posible razón es la mayor dificultad de modelado que tienen las emisiones de NOx. Los factores de los que dependen las emisiones de NOx son muchos teniendo una gran influencia en régimen de giro, aspecto que no se considera en estos modelos.

Dicho esto, hay que recordar que el error relativo promedio de este modelo es 0,51%, un valor realmente bajo.

La mayoría de los errores se encontrarán por debajo de la franja del ±20%, penalizando mucho aquellos que tengan valores muy elevados.

La figura 48 muestra los errores relativos instantáneos en todo el conjunto de prueba.

-0.1-0.0500.050.10.150.20.250.3

0102030405060708090

1 14 27 40 53 66 79 92 105

118

131

144

157

170

183

196

209

222

235

248

261

274

287

300

313

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h)

NOX (g/s)

Predicción NOX_444+Pendiente+VelocidadXaceleracion+Presión (g/s)


99

Figura 48. Error relativo del modelo completo

Se observa cómo la concentración de errores en la franja del ±20% es mayor aún que en el caso del CO2. De hecho, el número de datos con errores por encima del 20% es de 37 mientras que el número de datos con errores por debajo de -20% es únicamente de 12. Hay que recordar que el conjunto de prueba está formado por 1011 datos, suponiendo los datos con errores por encima de ±20% apenas un 5%.

Los grandes errores por encima del 40 y del 60% penalizan mucho al modelo global, obteniéndose los valores de MAPE tan elevados.

7.6. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que ha sido entrenada

Una vez se ha analizado cuales son los mejores modelos para la predicción de las emisiones de NOx, se va a tratar de comprobarlos con la utilización de datos, a priori, menos favorables para el modelado.

En este apartado se prueba con una base de datos que tiene un conjunto de entrenamiento con todas las rutas posibles en vacío y un conjunto de prueba formado por la ruta que se viene utilizando durante todo el trabajo.

La base de datos está formada por 10957 datos, de los cuales 9946 son del conjunto de entrenamiento y los 1011 restantes corresponden al conjunto de prueba. Esto supone que un 10% de los datos pertenecen al conjunto de prueba y el 90% restante al conjunto de entrenamiento.

Los resultados se muestran en la tabla 19.

-40.0%

-20.0%

0.0%

20.0%

40.0%

60.0%

80.0%

1 42 83 124

165

206

247

288

329

370

411

452

493

534

575

616

657

698

739

780

821

862

903

944

985

Error relativo

Error


100

Modelo

Error relativo


Error FE


cruzada

MAPE NOX_444 1,75% 12,68% -10,11% 0,0024 2,60

Pendiente+Presión 1,99% 11,34% -11,49% 0,002 2,37 Pendiente+v*a+Presión 1,97% 10,65% -11,35% 0,0017 1,99


prueba referido al NOx

Se puede observar cómo los resultados han empeorado, pero siguen manteniéndose unos valores aceptables. Esto muestra que el modelo es lo suficientemente robusto para soportar la introducción de otras rutas diferentes siempre y cuando se ensaye también, al menos, con una ruta parecida o igual a la del conjunto de prueba.


En este apartado, se comprueba la robustez del modelo en el peor de los casos: el conjunto de entrenamiento tiene todas las rutas menos la ruta de utilizada para el conjunto de prueba y que, por lo tanto, no cuenta con un entrenamiento previo.

La ruta elegida para el conjunto de prueba es, igual que siempre, la de la línea 145-vuelta en vacío. La base de datos está formada por 7836 datos, de los cuales 6825 corresponden al conjunto de entrenamiento y 1011 son los correspondientes al conjunto de prueba. Un 87% de los datos están dentro del conjunto de entrenamiento mientras que el 13% restante corresponden al conjunto de prueba.


Modelo

Error relativo


Error FE


cruzada

MAPE NOX_444 -1,28% 12,51% 7,36% 0,002 3,39

Pendiente+Presión -1,27% 12,12% 7,29% 0,0019 3,27 Pendiente+v*a+Presión 0,98% 10,54% -5,67% 0,0014 1,92


prueba y la ruta de prueba no ha sido entrenada (NOx)


101

De nuevo, se obtienen valores aceptables. Por término medio, ahora las predicciones son mayores que con la utilización de las bases de datos anteriores. Esto queda reflejado en los valores negativos del error relativo.

En cuanto al modelo que introduce las tres variables, se tiene unos valores peores pero muy aceptables de error para no haber incluido la ruta de prueba en el conjunto de entrenamiento.

La desviación estándar se mantiene en torno a los mismos valores que los obtenidos en los modelos anteriores.

Las figuras 49 y 50 muestran la gráfica velocidad/predicción/emisión real de NOx del conjunto de prueba dividida en dos tramos. La predicción corresponde al modelo que introduce las tres variables explicativas.

Figura 49. Tramo 1 de gráfica velocidad/emisión real de NOx/predicción de NOx del conjunto anterior que incluye las tres variables explicativas

-0.1

0

0.1

0.2

0.3

0.4

0.5

05

1015202530354045

1 21 41 61 81 101

121

141

161

181

201

221

241

261

281

301

321

341

361

381

401

421

441

461

481

501

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) NOX (g/s) Prediccion (g/s)


102

Figura 50. Tramo 2 de gráfica velocidad/emisión real de NOx/predicción de NOx del conjunto anterior que incluye las tres variables explicativas

De nuevo, la mala precisión en la captación de los picos máximos de emisión, por parte del modelo predictor, penalizan mucho al cálculo del error relativo promedio, al MAPE y al error en el factor de emisión.

-0.1

0

0.1

0.2

0.3

0.4

0.5

0102030405060708090

1 20 39 58 77 96 115

134

153

172

191

210

229

248

267

286

305

324

343

362

381

400

419

438

457

476

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) NOX (g/s) Predicción (g/s)


103


104

8. ANÁLISIS Y ESTUDIO DE LAS EMISIONES DE PARTÍCULAS

8.1. Estudio de gráfica emisiones de partículas/velocidad.

Al igual que para los dos contaminantes anteriores, se procederá a graficar la velocidad junto con la emisión de partículas, medida en caudal másico (g/s). La figura 51 muestra esta gráfica.

La gráfica velocidad/emisiones de partículas en suspensión se ha realizado seleccionando un tramo del ensayo test070626100019_C1i.

Figura 51. Tramo de gráfica velocidad/emisión real de partículas

Como ocurría con los otros dos contaminantes, se nota un retardo entre la curva de emisión de las partículas y la velocidad. En el siguiente apartado se estudiará cual es este retardo.

Además, parece que la velocidad tiene una influencia mayor que en los casos del CO2 y del NOX ya que no existen tantos picos y la emisión parece seguir la curva de la velocidad de forma más fiel. Probablemente la importancia de la velocidad en los futuros modelos sea bastante elevada.

00.000050.00010.000150.00020.000250.00030.000350.00040.000450.0005

05

10152025303540

1 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

161

169

177

185

193 Em

isió

n re

al d

e pa

rtíc

ulas

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad/partículas

Velocidad (km/h) Partículas (g/s)


105


Siguiendo el mismo procedimiento de los anteriores contaminantes, se ha elegido la misma base de datos. Esta base de datos tiene solamente ensayos de la ruta 145, siendo el conjunto de prueba un ensayo de la ruta 145 que, por tanto, ya ha sido entrenado.

El número de datos de esta base de datos asciende a 4132, habiendo sido 3121 de ellos utilizados para el entrenamiento y los otros 1011 para el conjunto de prueba. Estas cifras hacen que en torno a un 75% de los datos hayan sido utilizados para el entrenamiento y el 25% restante para el conjunto de prueba.

La nomenclatura utilizada es la siguiente: cada modelo se representa con el nombre PART_XYZ, donde X es el retardo considerado en la velocidad, Y es el retardo considerado en la aceleración y Z es el retardo considerado en la sobreaceleración.

Cabe destacar que el rango de valores de las partículas es 1,6E-05 – 0,0017 (g/s), es decir, un intervalo realmente pequeño. El resto de variables (las tres cinemáticas) tienen el mismo rango de valores que para los otros contaminantes.


Modelo

Error relativo


Error FE


cruzada

MAPE PART_000 1,85% 10,80% -7,56% 4,59E-09 0,30 PART_111 1,85% 10,80% -7,56% 4,59E-09 0,30 PART_222 1,85% 10,80% -7,56% 4,59E-09 0,30 PART_444 1,25% 10,35% -5,11% 4,89E-09 0,25

Tabla 21. Resultados de los modelos en función del retardo aplicado (partículas)

Con estos resultados se puede afirmar que, de nuevo, el retardo en la velocidad es de 4 segundos.

Se observa cómo el MAPE es muy bajo. Esto es debido al pequeño rango de valores posible de la emisión de partículas, lo que hace que los errores de predicción sean muy bajos.

De todas formas, no parece tener demasiada influencia en este caso la consideración o no del retardo en las variables cinemáticas. Esto puede responder a lo mismo que para el MAPE. Al ser un rango tan disminuido de valores posibles de emisión, aunque la velocidad esté desfasada con las emisiones los errores que se obtengan serán pequeños.


106

A continuación, se muestran dos gráficas (figura 52 y 53) velocidad/predicción/emisión real de partículas para el conjunto de prueba. La figura 52 corresponde al modelo PART_000 y la figura 53 al modelo PART_444.

Figura 52. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas del modelo PART_000 (sin retardos)

Figura 53. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas del modelo PART_444 (retardo 4 segundos)

En ambas gráficas se observa que la predicción no llega a los picos. No obstante, estos picos tienen una diferencia mínima con respecto al valor máximo al que llega la predicción en ese dato concreto. Por ejemplo, en el pico de en torno al segundo 280, la emisión real alcanza un valor de unos 5E-04 mientras que la predicción alcanza un valor de en torno a un 2E-04, lo que significa una diferencia de 0,0003 (g/s).

0.00E+00

1.00E-04

2.00E-04

3.00E-04

4.00E-04

5.00E-04

6.00E-04

05

10152025303540

1 22 43 64 85 106

127

148

169

190

211

232

253

274

295

316

337

358

379

400

421

442

463

484

Emis

ión

real

/pre

dicc

ión

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) Particulas (g/s) Prediccion PART_000 (g/s)

0.00E+00

1.00E-04

2.00E-04

3.00E-04

4.00E-04

5.00E-04

6.00E-04

05

10152025303540

1 22 43 64 85 106

127

148

169

190

211

232

253

274

295

316

337

358

379

400

421

442

463

484

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) Particulas (g/s) Prediccion PART_444 (g/s)


107

Al estudiar la importancia de las variables de los modelos anteriores, se ha observado una particularidad interesante: la velocidad acapara prácticamente toda la importancia de las variables. Las otras dos variables explicativas (aceleración y sobreaceleración) no tienen casi repercusión en la explicación de los modelos.

La figura 54 muestra una salida por pantalla de R que representa la importancia de las variables.

A la vista de la figura 54, la aceleración y la sobreaceleración no introducen prácticamente explicación a la variabilidad. Este hecho ya se intuía a la vista de la primera gráfica velocidad/emisión real de partículas. Lo que no se esperaba es que fuera tan importante la velocidad con respecto a las otras variables.

En los futuros modelos se mantendrán las variables aceleración y sobreaceleración como variables explicativas, aunque debido a su mínima influencia en los mismos, podrían ser no consideradas igualmente no notándose un gran empeoramiento de las predicciones.

Figura 54. Importancia de las variables del modelo con retardo 4 segundos

8.3. Adición de las variables ambientales

Se ha añadido combinaciones de las tres variables ambientales al mejor modelo, el PART_444. Los resultados se tienen en la tabla 22. De nuevo, los rangos de valores son los mismos que en este apartado para los otros dos contaminantes.


108

Modelo

Error relativo

Desviación típica

Error FE

Error

cuadrático validación

cruzada Temperatura+Presión+Humedad -16,54% 15,80% 67,18% 4,58E-09

Temperatura -22,64% 15,42% 92,34% 4,75E-09 Humedad 2,03% 10,43% -8,30% 4,84E-09 Presión 1,16% 10,33% -4,75% 4,89E-09

Tabla 22. Resultados tras añadir las variables ambientales

Como en el resto de contaminantes, se observa que la adición de la temperatura supone un empeoramiento de los modelos. Se ha graficado el modelo que añade únicamente la temperatura como variable explicativa en la figura 55.

Figura 55. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas en el modelo que añade la temperatura y con retardo 4 segundos en variables cinemáticas

Igualmente, la única variable que mejora ligeramente las predicciones es la presión. Además, la humedad empeora ligeramente los modelos.

Los errores relativos de los modelos que incorporan la variable temperatura son negativos debidos a que la curva de la predicción está por encima de la curva de la emisión real de partículas. Las predicciones son muy pesimistas al incluir la temperatura.

0.00E+00

1.00E-04

2.00E-04

3.00E-04

4.00E-04

5.00E-04

0

5

10

15

20

25

30

35

1 10 19 28 37 46 55 64 73 82 91 100

109

118

127

136

145

154

163

172

181

190

199

208 Em

isió

n re

al/p

redi

cció

n (g

/s)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) Particulas (g/s) Prediccion NOX_444+Temperatura (g/s)


109

8.4. Búsqueda del modelo final mediante la adición de nuevas variables según diferentes criterios. Prueba de los modelos con un ensayo de una línea entrenada

Se le irán añadiendo al modelo PART_444 diferentes variables siguiendo los mismos criterios que para el CO2 y el NOx.

La base de datos utilizada es la misma que para los apartados anteriores, ensayando previamente la línea que forma el conjunto de prueba.

8.4.1. Adición de la pendiente. Utilizando los perfiles de pendientes obtenidos en el apartado 5.5, se añade la variable pendiente a los modelos. El rango de valores de la variable pendiente en esta base de datos es -3,45 – 3,58%.

Se han realizado tres modelos, ambos partiendo del PART_444: uno con la variable pendiente y la variable presión, otro con la variable pendiente y la variable humedad y el último con la variable pendiente únicamente. La tabla 23 recoge los resultados.

Modelo

Error relativo


Error FE


cruzada

MAPE Pendiente 0,86% 8,46% -3,50% 4,37E-09 0,23

Pendiente+Presión 0,75% 8,41% -3,04% 4,36E-09 0,23 Pendiente+Humedad 1,05% 8,37% -4,27% 4,29E-09 0,24

Tabla 23. Resultados tras la adición de la pendiente

Se observa que la pendiente es una variable muy importante en el modelado de este tipo de modelos. El mejor modelo es el que incluye la presión además de la pendiente.

El modelo que incluye la humedad empeora los resultados, por lo que se descarta completamente la inclusión de la humedad en los modelos.

La mejora del modelo con pendiente y presión respecto al modelo PART_444 es de 0,5% en el error relativo, de 1,96% en la desviación estándar y de 0,84% en el error en el factor de emisión. El error cuadrático medio de validación cruzada y el MAPE se mantienen en torno a los mismos valores.

La figura 56 representa la gráfica velocidad/predicción/emisión real de partículas del modelo en el que se ha añadido la pendiente y la presión en un tramo de datos del conjunto de prueba.


110

Figura 56. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas del modelo PART_444 que añade la pendiente y la presión

Como viene siendo habitual, el modelo tiene un buen comportamiento, costándole bastante predecir con precisión los picos más altos de emisión. El modelo tiende a mantener un perfil suavizado de las predicciones.

En cuanto a la importancia de las variables en este último modelo conseguido, la figura 57 da la respuesta.

De nuevo, se observa que la velocidad es la variable más influyente en los modelos, pero ahora la pendiente también toma un papel protagonista. Pendiente y velocidad parecen ser las únicas variables realmente influyentes en los modelos hasta ahora.

0.00E+00

1.00E-04

2.00E-04

3.00E-04

4.00E-04

5.00E-04

6.00E-04

0

5

10

15

20

25

30

35

1 14 27 40 53 66 79 92 105

118

131

144

157

170

183

196

209

222

235

248

261

274

287

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h)

Particulas (g/s)

Prediccion PART_444+Pendiente+Presión (g/s)


111

Figura 57. Importancia de las variables del modelo con pendiente, presión y retardo 4 segundos en variables cinemáticas

8.4.2. Adición de variables en función del cálculo de la potencia del motor Se añadirán a los modelos las variables velocidad × aceleración, velocidad ×pendiente, velocidad2 y pendiente, de acorde al fundamento teórico del apartado 6.4.2.

El modelo de partida es el PART_444 y los resultados obtenidos se recogen en la tabla 24.

Modelo

Error relativo


Error FE


cruzada

MAPE PART_444 1,25% 10,35% -5,11% 4,89E-09 0,25

Pendiente+Presión 0,75% 8,41% -3,04% 4,36E-09 0,23 Pendiente+v*p 1,29% 7,46% -5,28% 4,18E-09 0,22 Pendiente+v*a 0,81% 8,43% -3,30% 4,35E-09 0,23

V*p+v*a 1,26% 7,62% -5,15% 4,19E-09 0,22 V*p+v*a+v2 1,34% 8,51% -5,48% 4,1E-09 0,23

Pendiente+v*p+v*a+v2 1,28% 8,41% -5,24% 4,08E-09 0,23 V*p+v*a+v2+Presión 1,26% 8,49% -5,14% 4,1E-09 0,23

Pendiente+v*a+Presión 0,71% 8,38% -2,90% 4,34E-09 0,23

Tabla 24. Resultados de los modelos tras añadir las variables según la fórmula de la potencia del motor


112

Los modelos en amarillo son los obtenidos hasta ahora, con el fin de hacer una mejor comparación.

A la vista de los resultados de la tabla, se puede ver que el mejor modelo es el que incorpora la pendiente, la velocidad × aceleración y la presión. Todas las medidas de error mejoran con respecto a los dos modelos marcados en amarillo.

Como se venía viendo, la presión también mejora ligeramente los modelos.

Finalmente se obtiene un modelo con un error relativo promedio de 0,71%, una desviación estándar de 8,38% y un error en el factor de emisión de -2,90%. Este modelo se puede considerar que es muy preciso.

Para el estudio de la importancia de las variables en este último modelo se presenta la figura 58 que recoge una salida por pantalla de R.

Figura 58. Importancia de las variables del modelo completo obtenido

Viendo la gráfica, se observa como la velocidad y la pendiente siguen siendo, con diferencia, las variables más influyentes. En este modelo, la inclusión de la variable velocidad × aceleración hace que se reduzca aún más la variabilidad no explicada, disminuyendo los errores. La sobreaceleración y la aceleración no tienen prácticamente influencia en este modelo.


113


Al contrario de lo que sucedía en el estudio del CO2 y del NOx, el MAPE ahora tiene valores muy bajos. Este hecho reafirma lo explicado en los puntos análogos a este para los otros dos contaminantes.

En este caso, el rango de valores que toma la emisión de partículas es muy pequeño, lo que hace que el resultado de restar al valor real el valor de predicción sea muy pequeño también. La posterior división de este resultado entre el valor real de emisión hace que la contribución de este sumando a la fórmula del MAPE sea muy pequeña.

Sin embargo, los valores de error relativo son parecidos a los de los otros dos contaminantes lo que evidencia que el cálculo del MAPE no tiene tanta importancia en el caso de estos modelos de predicción como el error relativo promedio.

Para ilustrar estos resultados, se va a representar la gráfica velocidad/predicción/emisión real del último modelo obtenido en el punto anterior. Las figuras 59, 60 y 61 muestran estas gráficas.

Figura 59. Tramo 1 de la gráfica velocidad/emisión real de partículas/predicción de partículas del modelo completo final obtenido

0.00E+00

1.00E-04

2.00E-04

3.00E-04

4.00E-04

5.00E-04

6.00E-04

0

5

10

15

20

25

30

35

1 14 27 40 53 66 79 92 105

118

131

144

157

170

183

196

209

222

235

248

261

274

287

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h)

Partículas (g/s)

Prediccion PART_444+Pendiente+VelocidadXaceleración+Presión (g/s)


114



De nuevo, las gráficas muestran como el modelo se comporta peor ante velocidades muy altas y ante picos de emisión puntuales.

Las figuras 59 y 60 muestran un buen comportamiento de la predicción. Únicamente en los puntos de grandes picos de emisión la predicción no es lo bastante sensible como para llegar a ellos.

0.00E+00

1.00E-04

2.00E-04

3.00E-04

4.00E-04

5.00E-04

6.00E-04

7.00E-04

05

1015202530354045

1 14 27 40 53 66 79 92 105

118

131

144

157

170

183

196

209

222

235

248

261

274

287

300

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h)

Partículas (g/s)

Predicción PART_444+Pendiente+VelocidadXaceleración+Presión (g/s)

0.00E+00

2.00E-04

4.00E-04

6.00E-04

8.00E-04

1.00E-03

1.20E-03

1.40E-03

0102030405060708090

1 18 35 52 69 86 103

120

137

154

171

188

205

222

239

256

273

290

307

324

341

358

375

392

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h)

Partículas (g/s)

Predicción PART_444+Pendiente+VelocidadXaceleración+Presión (g/s)


115

Por el contrario, en la figura 61 se observa una peor predicción. Esto es debido a que existen muchas subidas y bajadas repentinas en la emisión de partículas lo que hace difícil al modelo, con las variables explicativas que tiene, predecir con mucha precisión.

En el caso de las partículas, parece aún más evidente que los elevados valores de error se concentran en el final del tramo (en la última gráfica).

La figura 62 muestra la distribución de los errores en todo el conjunto de prueba. Se puede ver cómo la mayoría de los datos se encuentra dentro de la franja del 20% pero en el tramo final los errores son muy elevados, aunque ninguno llega a ser del 60% como sí ocurría con el CO2 y el NOx.

El número de predicciones con un error mayor del 20% es 12 mientras que el número de predicciones con un error menor del -20% es 34. Esto significa te únicamente un 4,7% de los datos tienen un error por encima de ±20%, lo que se traduce en que estamos ante un muy buen modelo de predicción que en ciertos casos no es capaz de adaptarse de la mejor manera posible a los datos (en picos puntuales elevados de emisión y ante velocidades muy altas).

Figura 62. Error relativo del modelo completo final obtenido

8.6. Comprobación de la utilidad de los modelos para un conjunto en el que se entrena con todas las rutas y se prueba con una ruta que ha sido entrenada.

Para la comprobación de los modelos más significativos conseguidos anteriormente se usa una base de datos de 11041 datos con 10030 datos correspondientes al conjunto de

-40.0%

-30.0%

-20.0%

-10.0%

0.0%

10.0%

20.0%

30.0%

1 42 83 124

165

206

247

288

329

370

411

452

493

534

575

616

657

698

739

780

821

862

903

944

985

Error

Error


116

entrenamiento y los 1011 restantes correspondientes al conjunto de prueba. Esto supone que un 91% de los datos pertenece al conjunto de entrenamiento y el otro 9% de los datos pertenece al conjunto de prueba.

Los resultados obtenidos se muestran en la tabla 25.

Modelo

Error relativo


Error FE


cruzada

MAPE PART_444 0,70% 9,74% -2,85% 3,93E-09 0,24

Pendiente+Presión 0,66% 8,91% -2,71% 3,75E-09 0,23 Pendiente+v*a+Presión 0,69% 8,81% -2,83% 3,68E-09 0,23

Tabla 25. Resultados modelos en los que la base de datos tiene varias rutas

Sorprendentemente, no sólo se obtienen unos resultados parecidos a los anteriores, sino que se mejoran. Esto muestra que el modelo es lo suficientemente robusto como para predecir correctamente siempre y cuando la ruta de prueba haya sido incluida previamente en el conjunto de entrenamiento.


Por último, se comprueba el modelo en el peor de los casos: la ruta incluida en el conjunto de prueba no ha sido entrenada previamente.

La base de datos elegida en este caso está formada por 7881 datos, de los cuales 6870 son del conjunto de entrenamiento y 1011 son del conjunto de prueba. Esto supone que el 87% de los datos pertenecen al conjunto de entrenamiento y el 13% restante al conjunto de prueba.


Modelo

Error relativo


Error FE


cruzada

MAPE PART_444 6,59% 11,76% -26,87% 3,49E-09 0,26

Pendiente+Presión 6,49% 11,65% -26,49% 3,37E-09 0,26 Pendiente+v*a+Presión 6,55% 11,90% -26,70% 3,37E-09 0,26

Tabla 26. Resultados de los modelos en los que la base de datos tiene varias rutas y la ruta de prueba no ha

sido entrenada previamente


117

En este caso los resultados son bastante peores. Los errores relativos se encuentran en torno al 6,5% aumentando mucho con respecto a los modelos anteriores. La desviación estándar también aumenta en torno a un 3%.

Para ver con mayor claridad qué es lo que ocurre se representan las gráficas velocidad/predicción/emisión real de partículas del modelo formado por la pendiente y la presión además de tener un retardo de 4 segundos (es el que menor valor de error relativo tiene). Las figuras 63 y 64 muestran esta gráfica.

Figura 63. Tramo 1 de gráfica velocidad/emisión real de partículas/predicción de partículas de modelo con pendiente y presión y retardo 4 segundos en variables cinemáticas

En el primer tramo, representado por la figura 63, la predicción sigue a la emisión real de forma más o menos aceptable. Los picos de elevada emisión no son detectados por el modelo, pero la curva de la predicción tiene una forma parecida a la curva de la emisión real.

Sin embargo, en este segundo tramo representado por la figura 64 se ve que la predicción es realmente mala, aumentando mucho el error relativo promedio final.

Esto nos hace volver al problema del MAPE. En realidad, el cálculo del MAPE en modelos de predicción de emisiones puede servir como una medida de error más, pero no como “la medida de error”. En estos últimos modelos el MAPE ha sido de 0,26 pero la parte final de los datos predice con muy mala precisión. Para el caso de las partículas, el rango de posibles valores es tan pequeño que la contribución de cada uno de los valores instantáneos a la suma total del MAPE es muy pequeña haciendo que el MAPE no se eleve.

0.00E+00

1.00E-04

2.00E-04

3.00E-04

4.00E-04

5.00E-04

6.00E-04

05

10152025303540

1 22 43 64 85 106

127

148

169

190

211

232

253

274

295

316

337

358

379

400

421

442

463

484

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) CO2 (g/s) Prediccion


118

Figura 64. Tramo 2 de gráfica velocidad/emisión real de partículas/predicción de partículas de modelo con pendiente y presión y retardo 4 segundos en variables cinemáticas

0

0.0002

0.0004

0.0006

0.0008

0.001

0.0012

0.0014

0102030405060708090

1 22 43 64 85 106

127

148

169

190

211

232

253

274

295

316

337

358

379

400

421

442

463

484

505

Emis

ión

real

/pre

dicc

ión

(g/s

)

Velo

cida

d (k

m/h

)

Tiempo (segundos)

Velocidad (km/h) Partículas (g/s) Predicción (g/s)


119


120

9. CONCLUSIONES FINALES Y LINEAS FUTURAS

9.1. CONCLUSIONES

Las principales conclusiones obtenidas en la elaboración de este proyecto han sido las siguientes:

• Los ficheros que se incluyen en la base de datos original proporcionada por la EMT Madrid no están sincronizados. La única variable cinemática que recogía el modelo tenía un retardo en la medición con respecto a las emisiones contaminantes de unos 4 segundos, como se ha podido comprobar durante el proyecto.

• Los modelos de predicción utilizando únicamente las variables cinemáticas se quedaban muy cortos. La consideración del cálculo teórico de la potencia de un motor de combustión interna y el estudio de la física del movimiento de los autobuses es clave para buscar nuevas variables explicativas. La introducción de la pendiente y de las diferentes componentes de la fórmula del cálculo de la potencia de un motor se torna vital a la hora de conseguir un modelo de predicción aceptable.

• Aún con la introducción de las variables mencionadas anteriormente los modelos presentan ciertos problemas. Por un lado, se ha detectado mediante las gráficas predicción/emisión real que las predicciones de los modelos son peores cuando la velocidad supera un cierto valor (en torno a los 50 km/h). También, se ha visto que los picos puntuales de emisiones no se modelan con una gran precisión, sino que el modelo trata de seguir la curva media de la emisión real. Estos hechos muestran que no es posible explicar toda la variabilidad que existe detrás de la emisión de contaminantes con estas variables ya que existen otras muchas que se deberían tener en cuenta en modelos más avanzados: variables internas del motor, régimen de giro, fuerza de rozamiento con el suelo, etc. Además, los modelos obtenidos con la herramienta estadística utilizada no dejan de ser una sofisticación de modelos de regresión, que lo que buscan es un modelado genérico y no una adaptación perfecta de las predicciones a las emisiones reales ya que, como se ha explicado, se podría estar ante un caso de sobreajuste que no permitiera modelos aceptables ante futuros nuevos datos de entrada.

• La emisión de NOx es más compleja que la emisión de CO2 o partículas. Los picos de emisiones complicados de modelar son mucho más frecuentes en el caso del NOx. Este aspecto se puede observar en las gráficas del apartado en el que se estudian dichas emisiones.

• Es importante considerar diferentes medidas de error y entender lo que ellas significan a la hora de valorar la robustez y precisión de un sistema de predicción.


121

Por ejemplo, la consideración única del MAPE como medida de valoración de los modelos habría conducido a una conclusión inadecuada en el caso de no haber graficado las predicciones y buscado un por qué a los resultados. Se observó que una pequeña parte de los datos se adaptaba peor (con velocidades muy altas, en picos puntuales de emisión) y que estos penalizaban mucho al cálculo del MAPE. En este proyecto las gráficas han sido de gran importancia y ayuda para obtener una valoración justa de los modelos.

• Por último, cabe destacar lo complicado que es obtener modelos con grandes precisiones a la hora de predecir emisiones contaminantes. Estas emisiones dependen de muchísimos factores, muchos de ellos difíciles de introducir como variables explicativas e imposibles con la base de datos que se tiene.

9.2. LINEAS FUTURAS

Algunas de las líneas de trabajo en las que se puede ahondar una vez concluido el presente trabajo pueden ser las siguientes:

• Buscar la mejora de los datos tomados en la base de datos suministrada por la EMT para tratar de sincronizar las variables cinemáticas con el resto de variables de forma exacta, con el fin de evitar errores derivados de la aproximación en la consideración del retardo en los modelos.

• Búsqueda de modelos que incorporen nuevas variables. Algunas de estas variables pueden ser variables internas que refieran a los procesos que ocurren dentro del motor; el régimen de giro del motor; el coeficiente de rozamiento con el terreno con el fin de poder añadir a los modelos la componente que tiene que ver con la fuerza de rozamiento que tiene que vencer el motor para poder avanzar… En los modelos obtenidos hay margen de mejora en cuanto a la precisión. Si bien, por definición, un modelo de predicción cuenta con una componente de error inevitable, se cree que la introducción de las variables nombradas anteriormente (y seguramente más) podrían mejorar los modelos sustancialmente.

• Otro punto de mejora podría ser el cálculo exacto de las pendientes instantáneas. El método utilizado en el presente trabajo puede ser considerado válido dentro de unos rangos de precisión, pero debería poder calcularse de una forma más específica.

• Ampliar el conocimiento en estas técnicas estadísticas, en particular en Boosting, con el fin de sacarles el máximo partido posible y poder mejorar los modelos desde el manejo avanzado de estas.

• Renovar la base de datos realizando nuevos ensayos que tengan datos recientes. Los datos utilizados fueron recogidos entre los años 2007 y 2008. Como ya se ha dicho durante el proyecto, la preocupación por el medio ambiente en el ámbito


122

global es muy grande y los autobuses que había en esos años no son los mismos que hay ahora. La renovación de la flota por parte de la EMT ha sido grande y, por tanto, con el fin de obtener resultados más interesantes a nivel práctico, sería de gran importancia contar con una base de datos que incorporara a la nueva flota de autobuses.


123


124

10. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

10.1. Planificación temporal

El presente trabajo de fin de grado empezó el día 28/12/2017 y acabó el día 15/07/2018, alcanzando una duración de en torno a 7 meses. Los pasos llevados a cabo fueron los que se esbozan a continuación.

10.1.1. Investigación y estudio del proyecto En esta primera fase se hizo una recopilación exhaustiva de artículos, estudios previos, libros y otros trabajos acerca de la herramienta Boosting. Se trató de leer y estudiar la mayor cantidad de bibliografía posible para entender completamente cómo funcionaba el método y cómo podía ser aplicado al programa estadístico R con el que se iba a trabajar.

Cuando se comprendió el concepto que existe detrás del método Boosting se empezaron a estudiar las sentencias más importantes para aplicar el método Boosting en R, descargándose los paquetes necesarios para esto.

Esta fase duró unos 40 días, comprendiendo desde el día 28/12/2017 y terminando el día 20/02/2018.

10.1.2. Tratamiento de la base de datos A continuación, se empezó a trabajar con la base de datos. El objetivo en este momento era familiarizarse con la base de datos y comprender todas las variables proporcionadas.

Se buscaron las nuevas variables cinemáticas, velocidad, aceleración y sobreaceleración, y se construyeron las primeras bases de datos simples. Con estas primeras bases de datos se hicieron las primeras pruebas con R, aplicando los paquetes y sentencias que se habían aprendido en el apartado anterior. Lo que se quería era detectar fallos típicos tanto de programación como en la base de datos y entender cómo reaccionaban las emisiones contaminantes ante cambios en las variables cinemáticas.

Esta fase duró unos 47 días, abarcando desde el día 20/02/2017 hasta el día 25/04/2018.

10.1.3. Estudio de los modelos y búsqueda de otras variables Llegados a este punto, los modelos obtenidos tenían mucha variabilidad por explicar. Se comenzó a buscar más variables posibles. Guiado por Natalia Fonseca, se llegó a la conclusión de que un modelo de predicción de emisiones no podía tener buenos resultados sin introducir la pendiente como variable explicativa. Se aplicó la metodología ya explicada en este texto y se obtuvieron los perfiles de pendientes.

Como se seguía queriendo obtener mejores modelos se consultó la tesis doctoral de Natalia Fonseca, “Aspectos de la medición dinámica instantánea de emisiones de


125

motores. Aplicación al desarrollo de un equipo portátil y una metodología para estudios de contaminación de vehículos en tráfico real”. Del estudio de esta tesis se sacó la conclusión de que había que introducir nuevas variables.

Esta fase tuvo una duración de 46 días, desde el día 25/04/2018 hasta el día 25/06/2018.

10.1.4. Análisis y estudio de las emisiones de CO2 Una vez se tenían todas las variables explicativas recogidas en las bases de datos, se procedió a realizar las nuevas bases de datos definitivas, considerando ya en ellas la pendiente, las otras nuevas variables, los retardos en las variables cinemáticas, etc.

Por supuesto que ya se habían hecho pruebas y se habían ido obteniendo resultados de predicción de emisiones de CO2 durante las anteriores fases, pero fue en esta en la que se obtuvieron los resultados definitivos mostrados a lo largo de este trabajo.

Debido a que esta fase consistió únicamente en obtener resultados definitivos de lo ya ensayado se tardó unos 9 días, comprendidos entre el día 01/07/2018 y el día 10/07/2018.

10.1.5. Análisis y estudio de las emisiones de NOx Esta fase fue igual que la anterior pero aplicado a las emisiones de NOx. Duró unos 4 días, entre el día 06/07/2018 y el día 10/07/2018.

10.1.6. Análisis y estudio de las emisiones de partículas De nuevo, fue igual que las dos fases anteriores, pero para las emisiones de partículas. Duró unos 3 días, entre 10/07/2018 y el 12/07/2018.

10.1.7. Redacción y corrección de errores. En esta etapa se plasmó todo lo obtenido en los ensayos experimentales en este texto. La duración fue de 12 días, comprendidos entre el día 01/07/2018 y el día 13/07/2018.

Las figuras 65 e 66 muestran el diagrama de Gantt de este proyecto.


126

Figura 65. Parte 1 del Diagrama de Gantt


127

Figura 66. Parte 2 del Diagrama de Gantt


128

10.2. Presupuesto

A la hora de realizar una estimación del presupuesto de este trabajo fin de grado se ha tenido en cuenta las horas invertidas por el alumno, las horas invertidas por los tutores, el material utilizado y el software utilizado.

En cuanto a las horas utilizadas por el alumno, se ha estimado que han sido unas 500 horas. El salario medio de un ingeniero junior recién titulado se encuentra en torno a los 1800 €/mes. Esto hace que, considerando que un mes tiene 22 días laborables, el salario diario queda en unos 82 euros. Aplicando ahora una jornada de 8 horas diarias se tiene que el salario por hora medio de un ingeniero junior es de unos 10,50 €. Si se multiplica esta cifra por las 500 horas estimadas de trabajo, se obtiene un coste de 5114 €.

Por otro lado, hay que considerar las horas invertidas por los tutores en la ayuda y enseñanza al alumno. Se ha estimado que el número de horas totales invertidas por ambos tutores ha sido de unas 25 horas. Considerando un salario por hora de cada uno de los tutores de unos 30€, se tiene que el coste debido a las horas invertidas por los tutores en este proyecto es de unos 750 €.

En cuanto al software utilizado, se ha hecho uso del programa estadístico R, de Matlab y de Microsoft Office 2016 (Microsoft Project, Microsoft Word, Microsoft Excel y Microsoft PowerPoint). La licencia de Microsoft Office es de 120€ anuales. Se ha utilizado durante 7 meses por lo que hace un coste de 70 €. R tiene un coste anual de unos 850 € lo que hace que, habiéndolo utilizado durante 7 meses, se tenga un coste de unos 496 €. Por último, Matlab tiene una licencia anual de 800 €, lo que para nuestro proyecto supone unos 467 € de coste.

Se incluirán también un conjunto de gastos denominados “gastos varios”. Estos gastos incluyen el gasto de transporte en los distintos desplazamientos, el material de oficina, la bibliografía empleada, etc. Se estiman en unos 50 €.

Falta por considerar el material utilizado. Prácticamente el único coste que se puede incluir en esta clasificación es el coste de amortización del ordenador utilizado. Este ordenador costó en torno a 900 €. Se va a considerar una vida útil de unos 7 años, una utilización media diaria de 5 horas y un valor residual nulo. Durante estos meses, se ha utilizado prácticamente todo el tiempo, por lo que se considerará un uso del 95% del tiempo total del proyecto. Se tiene entonces que el coste de amortización es:

Coste de amortización =0,95 × 5007 × 365 × 5

× 900 = 33,46 €

La tabla 27 recoge todos estos gastos.


129

Recurso utilizado Coste Horas invertidas por el alumno 5114 € Horas invertidas por los tutores 750 €

Ordenador 33,46 € R 496 €

Matlab 467 € Microsoft Office 70€ Encuadernación 50 €

Gastos varios 50 € COSTE SIN IVA 7030,46€

Aplicación del IVA (21%) 1476,43 COSTE TOTAL 8506,89

Tabla 27. Costes incurridos en el presente proyecto

Añadiendo a esta suma el IVA correspondiente del 21%, se tiene que el coste final es de 8506,89 €.


130


131

11. Bibliografía Andrés, A. R. (2014). Metodología para la asignación de vehículos de una flota a rutas

preestablecidas. Madrid.

Anónimo. (27 de Septiembre de 2017). Tecnología del Automóvil: Blog para los apasionados de la tecnología del automóvil. Obtenido de NOx y CO2: http://autastec.com/blog/actualidad/nox-y-co2/

Anónimo. (2018). ECODES. Obtenido de Calidad del aire y salud: http://ecodes.org/salud-calidad-aire/201302176118/Las-causas-de-la-contaminacion-atmosferica-y-los-contaminantes-atmosfericos-mas-importantes

Anónimo. (2018). Tipos de gases producidos en la combustión y sus consecuencias. Obtenido de https://www.as-sl.com/pdf/tipos_gases.pdf

Aparicio Izquierdo, F., Jiménez Alonso, F., López Martínez, J., & Flores Holgado, N. (2009). Comparación de tecnologías para la reducción de emisiones contaminantes en autobuses urbanos . Madrid: Revista DYNA.

Ayuntamiento de Madrid . (2016). Madrid: Madrid estrena 200 nuevos autobuses para la EMT. Obtenido de http://www.madrid.es/portales/munimadrid/es/Inicio/El-Ayuntamiento/Medios-de-comunicacion/Todas-las-noticias/Madrid-estrena-200-nuevos-autobuses-para-la-EMT?vgnextfmt=default&vgnextoid=639fe7ad85709510VgnVCM1000001d4a900aRCRD&vgnextchannel=e40362215c48351

Ayuntamiento de Madrid. (5 de Abril de 2018). Portal web del Ayuntamiento de Madrid: Las 30 medidas. Obtenido de http://www.madrid.es/portales/munimadrid/es/Inicio/Medio-ambiente/Las-30-medidas?vgnextfmt=default&vgnextoid=0590b83903a50610VgnVCM1000001d4a900aRCRD&vgnextchannel=3edd31d3b28fe410VgnVCM1000000b205a0aRCRD

Bagnato, J. I. (12 de Diciembre de 2017). Aprende Machine Learning. Obtenido de http://www.aprendemachinelearning.com/que-es-overfitting-y-underfitting-y-como-solucionarlo/

Boulter, P., & McCrae, I. (2007). Assessment and Reliability of Transport Emission Models and Inventory Systems.

Briega, R. E. (29 de Mayo de 2016). Matemáticas, análisis de datos y python. Obtenido de Machine Learning con Python-Sobreajuste: https://relopezbriega.github.io/blog/2016/05/29/machine-learning-con-python-sobreajuste/


132

Cárdenas-Montes, M. (s.f.). Boosting. Madrid.

Caro Huertas, E., Carpio Huertas, J., Ruiz, J., Rodríguez Gallego, A., & Santos Penido, F. (2012). Estadística con R. Madrid: Sección de publicaciones de la ETSII de Madrid.

Corso, J. (s.f.). Boosting and AdaBoost. Michigan.

Cortés, E. A. (2005). Combinación de clasificadores mediante el método Boosting. Una aplicación a la predicción del fracaso empresarial en España. Castilla-La Mancha.

Departamento de estadística de la ETSII-UPM. (2017). Diseño de experimentos y regresión . Madrid: Sección de publicaciones de la ETSII de Madrid.

Diaconis, P., & Efron, B. (1983). Computer intensive methods in statistics. Stanford.

Dirección General de Calidad y Evaluación Ambiental y Medio Natural . (2013). Plan Nacional de calidad del aire y protección de la atmósfera 2013-2016. Madrid.

Empresa Municipal de Transportes de Madrid (EMT). (2017). Flota actual de autobuses. Madrid.

Empresa Municipal de Transportes de Madrid (EMT). (2017). Plan estrátegico EMT 2017-2020. Madrid.

ETS Asset Management Factory . (20 de Abril de 2016). QuantDare: Daring to quantify the markets. Obtenido de https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

Fidalgo, R. (7 de Octubre de 2015). Autocasión: cómo reducen sus emisiones los coches . Obtenido de https://www.autocasion.com/actualidad/reportajes/como-reducen-las-emisiones-los-coches

Fonseca, N. E. (2012). Aspectos de la medición dinámica instantánea de emisiones de motores. Aplicación al desarrollo de un equipo portátil y una metodología para estudios de contaminación de vehículos en tráfico real . Madrid: Sección de publicaciones de la ETSII de Madrid.

Gabriel, D. (5 de Junio de 2018). Yumpu. Obtenido de https://www.yumpu.com/es/document/view/56068273/adaboost-boosting-v11/43

González, N. F., Casanova Kindelán, J., López Martínez, J., & Flores Holgado, N. (2018). Metodología para la determinación de modelos de emisión de vehículos turismo en uso real . Madrid .


133

González-Campos, V. P. (2017). Modelado mediante Random Forest de las emisiones de autobuses urbanos en función de los ciclos cinemáticos. Madrid: Sección de publicaciones de la ETSII de Madrid.

González-pardo, M. C.-F. (2018). Aplicación de árboles de regresión a la predicción de emisiones y consumos de autobuses urbanos. Madrid: Sección de publicaciones de la ETSII Madrid.

GPS Visualizer. (2018). Obtenido de http://www.gpsvisualizer.com/

Hastie, T., Tibshirani, R., & Friedman, J. (2008). The Elements of Statistical Learning: Data mining, Inference and prediction. Stanford: Springer.

Hofner, B., Mayr, A., Robinzonov, N., & Schmid, M. (2012). Model-based boosting in R: a hands-on tutorial using the R package mboost. Springer.

Hothorn, T., Buehlmann, P., Kneib, T., Hofner, B., Sobotka, F., Scheipl, F., & Mayr, A. (2017). Model-Based Boosting: Package "mboost".

Instituto de Investigación del Automóvil, Universidad Politécnica de Madrid (INSIA). (2006). INSIA-UPM. Obtenido de http://insia-upm.es/portfolio-items/proyecto-ecotram/

MedlinePlus. (2018). MedlinePlus: Intoxicación con monóxido de carbono. Obtenido de https://medlineplus.gov/spanish/ency/article/002804.htm

Ministerio de agricultura, pesca y alimentación: Ministerio para la transición ecológica. (21 de Abril de 2018). Ministerio de agricultura, pesca y alimentación (Mapama). Obtenido de http://www.mapama.gob.es/es/calidad-y-evaluacion-ambiental/temas/atmosfera-y-calidad-del-aire/calidad-del-aire/planes-mejora/Plan_Aire.aspx

Ministerio del Interior de España: Dirección general de tráfico. (13 de Abril de 2018). Ministerio del Interior:DGT. Obtenido de http://www.dgt.es/es/seguridad-vial/distintivo-ambiental/index.shtml

Navarro, R. Ú. (2004). Aplicación de técnicas de Boosting para detección de matrículas. Valencia.

Pasillas, A., & Kent, G. (5 de Febrero de 2018). Adext. Obtenido de Inteligencia artificial : https://blog.adext.com/es/machine-learning-guia-completa

Ray, S. (2015). Analytics Vidhya: Learn everything about analytics. Obtenido de https://www.analyticsvidhya.com/blog/2015/11/quick-introduction-boosting-algorithms-machine-learning/

Ridgeway, G. (2017). Generalized Boosted Regression Models.


134

Ruiz, J., Mira McWilliams, J., Sanchez Naranjo, M., González Fernández, C., García Martos, C., Caro Huertas, E., & Cara Cañas, F. (2017). Estdística: Descriptiva, Probabilidad e Inferencia. Madrid: Sección de publicaciones de la ETSII de Madrid.

Saiph. (3 de Enero de 2009). Una breve introducción al Boosting. Obtenido de http://littlesaiph.blogspot.com/2009/01/una-breve-introduccin-al-boosting.html

Schmid, M., & Hothorn, T. (2007). Boosting Additive Models using Component-wise P-Splines. Munich.

Suárez, D. G. (13 de Octubre de 2016). Scribd. Obtenido de Secretaria de Investigación Pública: Centro Nacional de Investigación y Desarrollo Tecnológico (Chile): https://es.scribd.com/document/327485746/AdaBoost-Boosting-v1-1

Terra: ECOLOGÍA PRÁCTICA. (1 de Marzo de 2017). Terra:Ecología práctica. Obtenido de http://www.terra.org/categorias/articulos/los-contaminantes-atmosfericos-las-particulas-en-suspension-pm

U.S. Global Change Research Program. (20 de Marzo de 2018). U.S. Global Change Research Program. Obtenido de https://www.globalchange.gov/browse/multimedia/global-temperature-and-carbon-dioxide

Universidad Carlos III de Madrid: Grupo de gestión y procesamiento de la información. (7 de Febrero de 2018). Universidad Carlos III de Madrid . Obtenido de http://g2pi.tsc.uc3m.es/es/Boosting-es

Wikipedia. (10 de Junio de 2018). Wikipedia: Aprendizaje automático. Obtenido de https://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico#Distinci%C3%B3n_entre_Aprendizaje_supervisado_y_no_supervisado

Wikipedia. (10 de Junio de 2018). Wikipedia: Aprendizaje supervisado. Obtenido de https://es.wikipedia.org/wiki/Aprendizaje_supervisado

Wikipedia. (10 de Junio de 2018). Wikipedia: Desviación típica. Obtenido de https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica

Wikipedia. (2018). Wikipedia: Dióxido de carbono. Obtenido de https://es.wikipedia.org/wiki/Di%C3%B3xido_de_carbono#En_la_atm%C3%B3sfera_terrestre

Wikipedia. (1 de Junio de 2018). Wikipedia: Moto de combustión interna alternativo . Obtenido de https://es.wikipedia.org/wiki/Motor_de_combusti%C3%B3n_interna_alternativo#Ventajas_e_inconvenientes


135

Wikipedia. (18 de Mayo de 2018). Wikipedia: Validación Cruzada. Obtenido de https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada


136

ANEXOS

Anexo 1. Código de R

A continuación, se muestra una captura de pantalla del código resumido utilizado para el análisis y estudio de las emisiones de CO2 con una de las bases de datos finales. El código para el estudio del NOx y de las partículas es prácticamente el mismo, sustituyendo donde pone CO2 por NOx o partículas.

Siguiendo las indicaciones proporcionadas en el apartado 3.9, se puede seguir el desarrollo del código que se muestra en la figura 67.


137

Figura 67. Ejemplo de código básico aplicado en R para el estudio y análisis de las emisiones de los gases contaminantes, en este caso del CO2


138

Anexo 2. Índice de figuras

Figura 1. Aumento de la temperatura global y de la concentración de CO2 Mundial (U.S. Global Change Research Program, 2018) ............................................................. 21 Figura 2. Distintivos ambientales obligatorios (Ministerio del Interior de España: Dirección general de tráfico, 2018) ................................ ¡Error! Marcador no definido. Figura 3. Esquema del algoritmo AdaBoost (Hastie, Tibshirani, & Friedman, 2008) ... 32 Figura 4. Primer escenario (Ray, 2015) .......................................................................... 33 Figura 5. Primera iteración (Ray, 2015) ......................................................................... 33 Figura 6. Segunda iteración (Ray, 2015) ........................................................................ 34 Figura 7. Tercera iteración (Ray, 2015) ......................................................................... 34 Figura 8. Última iteración (Ray, 2015)........................................................................... 35 Figura 9. Dato para el que se desarrolla el ejemplo (Ray, 2015) ................................... 35 Figura 10. Modelo de regresión lineal simple (Ruiz, y otros, 2017) .............................. 36 Figura 11.Modelo de regresión lineal que se adapta a los datos (Caro Huertas, Carpio Huertas, Ruiz, Rodríguez Gallego, & Santos Penido, 2012) .......... ¡Error! Marcador no definido. Figura 12. Ejemplo de sobreajuste y subajuste (Bagnato, 2017).... ¡Error! Marcador no definido. Figura 13. Método Holdout (Wikipedia, 2018) .............. ¡Error! Marcador no definido. Figura 14. Importancia de las variables .......................................................................... 45 Figura 15. Metodología de ECOTRAM (Instituto de Investigación del Automóvil, Universidad Politécnica de Madrid (INSIA), 2006) ....................................................... 48 Figura 16. Equipo PEMS Horiba OBS 2200 instalado en los autobuses (Instituto de Investigación del Automóvil, Universidad Politécnica de Madrid (INSIA), 2006) ....... 49 Figura 17. Alturas de los ensayos de la ruya C1i ........................................................... 58 Figura 18. Alturas de los ensayos de la ruta C1v ........................................................... 58 Figura 19. Alturas de los ensayos de la ruta 63v ............................................................ 59 Figura 20. Alturas de los ensayos de la ruta 145v .......................................................... 59 Figura 21. Alturas de ensayos de la ruta 27v .................................................................. 60 Figura 22. Gráfica velocidad/emisión real de CO2 ........................................................ 64 Figura 23. Gráfica velocidad/emisión real de CO2/predicción de CO2 en el modelo con variables cinemáticas sin retardos .................................................................................. 68 Figura 24. Gráfica velocidad/emisión real de CO2/predicción de CO2 en el modelo con variables cinemáticas con retardo 4 segundos cada una de ellas .................................... 68 Figura 25. Gráfica velocidad/emisión real de CO2/predicción de CO2 con la adición de la temperatura al modelo que incluye retardo 4 en todas las variables cinemáticas ...... 70 Figura 26. Gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo al que se le ha añadido la pendiente a partir del modelo con retardo 4 segundos en todas las variables cinemáticas ...................................................................................................... 72 Figura 27. Importancia de las variables de modelo al que se le ha añadido la pendiente a partir del modelo con retardo 4 segundos en todas las variables cinemáticas ................ 72


139

Figura 28. Importancia de las variables del modelo completo final ............................... 76 Figura 29. Tramo 1 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo completo final .................................................................................................... 77 Figura 30. Tramo 2 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo completo final .................................................................................................... 77 Figura 31. Tramo 3 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo completo final .................................................................................................... 78 Figura 32. Tramo con muy bajas velocidades de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo completo final ...................................................... 78 Figura 33. Gráfica del error relativo del modelo completo final .................................... 79 Figura 34. Tramo 1 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo que incluye las cinco variables explicativas ...................................................... 82 Figura 35. Tramo 2 de la gráfica velocidad/emisión real de CO2/predicción de CO2 del modelo que incluye las cinco variables explicativas ...................................................... 82 Figura 36. Fragmento de gráfica velocidad/emisión real de CO2/predicción de CO2 del conjunto utilizado para elegir el tipo de base learner que mejores resultados proporciona ........................................................................................................................................ 83 Figura 37. Tramo de gráfica velocidad/emisión real de NOx ........................................ 86 Figura 38. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo en el que no se aplican retardos en las variables cinemáticas ........................... 89 Figura 39. Figura 38. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo en el que se aplican retardos de 4 segundos en cada una de las variables cinemáticas ...................................................................................................... 89 Figura 40. Gráfica velocidad/emisión real de NOx/predicción de NOx del modelo NOx_444+Temperatura .................................................................................................. 91 Figura 41. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo NOx_444+Pendiente ......................................................................................... 93 Figura 42. Tramo de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo NOx_444+Pendiente+Presión ........................................................................... 93 Figura 43. Importancia de las variables para el modelo con retardo 4 segundos al que se le añade la pendiente y la presión ................................................................................... 94 Figura 44. Importancia de las variables del modelo que incluye la pendiente, la velocidadXaceleración y la presión ................................................................................ 96 Figura 45. Tramo 1 de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo completo ............................................................................................................ 97 Figura 46. Tramo 2 de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo completo ............................................................................................................ 97 Figura 47. Tramo 3 de gráfica velocidad/emisión real de NOx/predicción de NOx del modelo completo ............................................................................................................ 98 Figura 48. Error relativo del modelo completo .............................................................. 99 Figura 49. Tramo 1 de gráfica velocidad/emisión real de NOx/predicción de NOx del conjunto anterior que incluye las tres variables explicativas ....................................... 101 Figura 50. Tramo 2 de gráfica velocidad/emisión real de NOx/predicción de NOx del conjunto anterior que incluye las tres variables explicativas ....................................... 102


140

Figura 51. Tramo de gráfica velocidad/emisión real de partículas ............................... 104 Figura 52. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas del modelo PART_000 (sin retardos) .......................................................... 106 Figura 53. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas del modelo PART_444 (retardo 4 segundos) ............................................... 106 Figura 54. Importancia de las variables del modelo con retardo 4 segundos ............... 107 Figura 55. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas en el modelo que añade la temperatura y con retardo 4 segundos en variables cinemáticas ................................................................................................................... 108 Figura 56. Tramo de gráfica velocidad/emisión real de partículas/predicción de partículas del modelo PART_444 que añade la pendiente y la presión ....................... 110 Figura 57. Importancia de las variables del modelo con pendiente, presión y retardo 4 segundos en variables cinemáticas ............................................................................... 111 Figura 58. Importancia de las variables del modelo completo obtenido ...................... 112 Figura 59. Tramo 1 de la gráfica velocidad/emisión real de partículas/predicción de partículas del modelo completo final obtenido............................................................. 113 Figura 60. Tramo 2 de la gráfica velocidad/emisión real de partículas/predicción de partículas del modelo completo final obtenido............................................................. 114 Figura 61. Tramo 3 de la gráfica velocidad/emisión real de partículas/predicción de partículas del modelo completo final obtenido............................................................. 114 Figura 62. Error relativo del modelo completo final obtenido ..................................... 115 Figura 63. Tramo 1 de gráfica velocidad/emisión real de partículas/predicción de partículas de modelo con pendiente y presión y retardo 4 segundos en variables cinemáticas ................................................................................................................... 117 Figura 64. Tramo 2 de gráfica velocidad/emisión real de partículas/predicción de partículas de modelo con pendiente y presión y retardo 4 segundos en variables cinemáticas ................................................................................................................... 118 Figura 65. Parte 1 del Diagrama de Gantt .................................................................... 126 Figura 66. Parte 2 del Diagrama de Gantt .................................................................... 127 Figura 67. Ejemplo de código básico aplicado en R para el estudio y análisis de las emisiones de los gases contaminantes, en este caso del CO2 ...................................... 137


141

Anexo 3. Índice de tablas

Tabla 1. Número de ensayos de B100 según la carga .................................................... 51 Tabla 2. Número de ensayos de gasóleo según la carga ................................................. 51 Tabla 3. Rango de valores de las variables explicativas................................................. 65 Tabla 4. Resultados de los modelos en los que se varían los retardos ........................... 66 Tabla 5. Rango de valores de las variables ambientales................................................. 68 Tabla 6. Resultados de modelos con la adición de las variables ambientales ................ 69 Tabla 7. Rango de valores posibles de la variable pendiente ......................................... 71 Tabla 8. Resultados de los modelos con la adición de la presión y de la pendiente ...... 71 Tabla 9. Resultados de los modelos en los que se añade las variables según la fórmula de la potencia .................................................................................................................. 74 Tabla 10. Resultados añadiendo la presión a los modelos ............................................. 75 Tabla 11. Resultados obtenidos al aplicar una base de datos en la que se incluyen rutas diferentes a la ruta de prueba .......................................................................................... 80 Tabla 12. Resultados obtenidos al aplicar una base de datos en la que se incluyen rutas diferentes a la ruta de prueba y la ruta de prueba no se incluye en el entrenamiento .... 81 Tabla 13. Rango de valores de las variables cinemáticas y del caudal másico de NOx. 87 Tabla 14. Resultados de los modelos en función del retardo aplicado, en segundos ..... 88 Tabla 15.Rango de valores de variables ambientales ..................................................... 90 Tabla 16. Resultados obtenidos tras la adición de variables ambientales ...................... 90 Tabla 17. Resultados de los modelos tras la adición de la pendiente y la presión ......... 92 Tabla 18. Resultados de los modelos con la adición de las variables según la fórmula de la potencia del motor ...................................................................................................... 95 Tabla 19. Resultados obtenidos al aplicar una base de datos en la que se incluyen rutas diferentes a la ruta de prueba referido al NOx .............................................................. 100 Tabla 20. Resultados obtenidos al aplicar una base de datos en la que se incluyen rutas diferentes a la ruta de prueba y la ruta de prueba no ha sido entrenada (NOx) ............ 100 Tabla 21. Resultados de los modelos en función del retardo aplicado (partículas) ...... 105 Tabla 22. Resultados tras añadir las variables ambientales .......................................... 108 Tabla 23. Resultados tras la adición de la pendiente .................................................... 109 Tabla 24. Resultados de los modelos tras añadir las variables según la fórmula de la potencia del motor ........................................................................................................ 111 Tabla 25. Resultados modelos en los que la base de datos tiene varias rutas .............. 116 Tabla 26. Resultados de los modelos en los que la base de datos tiene varias rutas y la ruta de prueba no ha sido entrenada previamente......................................................... 116 Tabla 27. Costes incurridos en el presente proyecto .................................................... 129

UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/52813/1/TFG_ALVARO_GARCIA_NAVALON.pdf · 2018-10-25 ·...

Documents

Transcript of UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/52813/1/TFG_ALVARO_GARCIA_NAVALON.pdf · 2018-10-25 ·...