Clase3 RNA

download Clase3 RNA

of 34

Transcript of Clase3 RNA

  • 8/18/2019 Clase3 RNA

    1/34

    1

    Curso de Ingeniería Neuronal

    Clase 3: Alquimia o Ingeniería Neuronal?:

    Algunos elementos de reflexión

    Universidad de Santiago de ChileUniversidad de Santiago de Chile

    ProgramaProgramaMagíster en Ingeniería InformáticaMagíster en Ingeniería Informática

    Enero 2005

    Dr. Gonzalo Acuña L.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Temario• Introducción• Otros algoritmos de optimización• Alquimia o Ingeniería Neuronal

     – Planteamiento de cualquier problema de modelación – “Buenos modales” para la elaboración de modelos

    neuronales – Problemas en el aprendizaje – El problema de la generalización

  • 8/18/2019 Clase3 RNA

    2/34

    2

    I . Introducción

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    • Recordatorio sobre el algoritmo deretropropagación “del gradiente”!!

  • 8/18/2019 Clase3 RNA

    3/34

  • 8/18/2019 Clase3 RNA

    4/34

    4

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    • Por otra parte: qué decir del intento deelaborar un modelo neuronal que incluyemás de 8000 parámetros para atacar un

     problema de clasificación, sabiendo queesos más de 8000 parámetros deberánser correctamente determinados conmenos de 50 ejemplos?

    La eterna tentación de ejercer alquimia

    neuronal -- CUIDADO!!

    II. Otros algoritmos paradeterminar valor de los pesos de

    la red

  • 8/18/2019 Clase3 RNA

    5/34

    5

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Mínimo local

    LocalMinimum

    GlobalMinimum

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Métodos deoptimización

    • Gradiente Conjugado

    • Quasi-Newton

    • Simulated Annealing

    • Algoritmos genéticos

    • …etc

    [ ]2

    ˆ21∑

    =

    −=k 

    sh

    t i

    ii Y Y  J Min

    ¿Deterministas o Estocásticos?Deterministas o Estocásticos?

  • 8/18/2019 Clase3 RNA

    6/34

    6

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Fletcher y Reeves...

    • Es una extensión del método de gradiente conjugado a

    funciones cualquiera (nono necesariamentenecesariamente cuadráticascuadráticas)y sin lasin la utilizaciónutilización explícitaexplícita deldel HesianoHesiano.

    • Etapa de inicialización: – Seleccionar un punto de partida

     – Calcular 

    • Etapa iterativa – Determinar que minimiza

    en la dirección

     – Calcular donde

    0 x

    ( )000  x f gd    −∇=−=

    k λ  k k k k  d  x x   ⋅+=+   λ 1k d 

    k k k k  d gd    ⋅+−=   ++   β 11k 

    T k 

    k T k 

    gg

    gg

    ⋅⋅

    =   ++ 11 β 

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Métodos de Newton• Métodos de Gradiente

     – En General:

    Problema: Convergencia lenta. Tendencia a

    quedar atrapada en mínimos locales

    1

    1: ( )

    dirección

    k k 

    amplitud  pasobusqueda

    k k 

    w w h d  

    Gradiente w w d w

    +

    +

    = + ⋅

    = + −∇

  • 8/18/2019 Clase3 RNA

    7/34

    7

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    • Ejemplo:2

    1 1

    2 1

    ( ) 1

    : 1 1 1 ( 2 ) 1

    1 1 ( 2 ) 1

    .

    k k 

     J x x y d 

    Si x x x

     x x

    cte

    +

    + −

    = =

    = ⇒ = + ⋅ − = −

    = − + ⋅ − =

    x

    J(x)

    -1 1

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Métodos Quasi-Newton

    ( )[ ] k k k k k  g x f  x x   ⋅∇⋅−=  −

    +

    12

    1   α 

    ( )k  x f 2∇

    es una aproximación

    convenientemente elegida

    de…

    k G

    k G

    Simétrica

    Definida positiva

    • Hay muchas formas deactualizar la matriz G o suinversa S y que satisfacen loscriterios para anteriores.

    k k k  q pG   =⋅

    k k k k k  d  x x p   ⋅=−=   +   α 1

    k k k  ggq   −=   +1

    )()()(

    1k k k 

    T k 

    T k k k k k k 

    k k  pGq p

     pGq pGqGG

    ⋅−⋅

    ⋅−⋅⋅−+=+

    )())(

    1k k k 

    T k 

    T k k k k k k 

    k k qS  pq

    qS  pqS  pS S 

    ⋅−⋅

    ⋅−⋅⋅−+=+

  • 8/18/2019 Clase3 RNA

    8/34

    8

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Gradiente Conjugado

    Dirección de gradiente

    X0

    X1

    X2Gradienteconjugado

    1k wk k  d J d  β  −= −∇ +

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Métodos 2º orden tipo Newton

    • Taylor de J(w):

    0 0 0 0 0

    2

    0 0

    0 0

    10 0

    1( ) ( ) ( ) ( ) ( ) (1)

    2

    (1) :

    ( ) ( ) ( ) (2)( ) 0

    0 ( ) ( )

    ( )

    ij

    i i j

     J w J w w J w w w H w w

     J J  J H 

    w w w

     Derivando

     J w J w H w wmínimo J w

     J w H w w

    w w H J w−

    = + − ∇ + − − +

    ∂ ∂∇ = =

    ∂ ∂ ∂

    ∇ = ∇ + − +⇒ ⇒ ∇ =

    ⇒ = ∇ + −

    ⇒ = − ∇

  • 8/18/2019 Clase3 RNA

    9/34

    9

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    • Ejemplo:

    • Quasi-Newton: – H-1 se aproxima en forma recursiva.

     – BFGS Broyden, Fletcher, Glodfarb, Shanno

    20

    2

    2

    1 1

    2 0

    ( ) ; 1

    2 ; 2

    11 ( 2 ) 0

    21

    0 ( 2 ) 02

     J w w w

     J J w

    w w

    w w

    w w

    = =

    ∂ ∂= =

    ∂ ∂

    ⇒ = + − =

    = + − =

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Levenberg - Marquardt

    • Modificación de Gauss-Newton

    • Ventajas: – Bien definido aunque J no sea de rango pleno

     – Globalmente convergente

    11 [ ]

    T T 

    k k k k k k k  

     Aproximación Hessiano

    w w J J I J r  µ    −+   = − +

  • 8/18/2019 Clase3 RNA

    10/34

    10

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Simulated Annealing

    •  Energía mínima...• ¿« f » diférenciable?

    • ¿Óptimos locales?

    • Parámetros?

    • Enfriamiento?

    • Calidad de la solución?

    Estadoinicial

    Estadofinal

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Algoritmos genéticos

    •  Rango= [-4 , 4]

    •  Bits=8

    • Población=30• Generaciones=50

  • 8/18/2019 Clase3 RNA

    11/34

    11

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    • Los algoritmos genéticos son una clase de estrategias de búsqueda que presentan un compromiso equilibrado y

    razonable entre la exploración y la explotación; en efecto,analisis teóricos han mostrado que los algoritmos genéticosgeneran este compromiso de manera casi óptima.

    a) Inicializar la Población : Crear y evaluar la población inicial decromosomas.

     b) Seleccionar y reproducir loscromosomas.

    c) Evaluar los “fitness ” del

    nuevo hijo.

    d) Substituir los cromosomas de la población por los hijos.

    e) Volver a b)

    • Evaluación.

    • Selección.

    • Reproducción concruzamiento y mutación

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Problemas en la práctica...

    • ¿Qué algoritmo utilizar?

    • ¿Qué fórmula Q-N utilizar?

    • ¿Qué tipo de búsqueda lineal sedeberá implementar?

    • ¿Cómo hacer la corrección de la

    matriz cuando ?1+k S   I S o=

  • 8/18/2019 Clase3 RNA

    12/34

    12

    III. Alquimia o Ingeniería Neuronal

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    III. 1.- Planteamiento decualquier problema demodelación:

  • 8/18/2019 Clase3 RNA

    13/34

    13

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    SISTEMA:• Combinación de elementos o componentes

    interrelacionados entre sí y con el todo, queactúan juntos para lograr una cierta meta.

    • Porción de la realidad que queremos aislar para estudiar.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Proceso Objeto Real,

    no formalizado

    Sistema

    Modelo

    Simplificación

    de la Realidad

  • 8/18/2019 Clase3 RNA

    14/34

    14

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Metodologías de Modelación1.- Modelación Teórica o Fundamental

    • Se usa teoría aceptada por las ciencias quesubyacen el fenómeno.

    • Leyes de Conservación.

    • Ecuaciones Constitutivas.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    • ecuaciones diferenciales parciales no lineales

    simplificación

    • linealización• parámetros concentrados• etc....

    • sistema de ecuaciones diferenciales ordinarias

    lineales

  • 8/18/2019 Clase3 RNA

    15/34

    15

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Características:

    → Se requiere ayuda de expertos.

    → Fácilmente generalizable.

    → Comprensión del fenómeno o proceso.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    2.- Modelación empírica o experimental

    • Observaciones directas Ecuaciones.

    • Sólo información entrada - salida

    • Métodos de desarrollo:Algorítmicos, numerosos y diversos identificación

    • modelos lineales de orden reducido.

    • utilizables como un todo.• no-generalizables.

  • 8/18/2019 Clase3 RNA

    16/34

    16

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    3.- Modelación Combinada (descriptivos)

    •Frecuentemente utilizada.

    •La estructura se define por modelación teórica.

    •Parámetros experimentación.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Sistema Supuestos

    Selección de variables fundamentales

    Selección de variables Dependientes

    Aplicación de Principios de Conservación

    Principios de conservación

    completamente explotados.

    Ecuaciones

    Constitutivas

    Suficientes

    Ecuaciones

    Modelo

    Matemático

    NO

    SI

    NO SI

  • 8/18/2019 Clase3 RNA

    17/34

    17

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Variables y Parámetros de un ModeloParámetros de

    Diseño

    Parámetros del

    Sistema

    Constantes cuyo valor

    puede ser escogido.

    Constantes propias

    del sistema.

    Ej. : Estanque.

    •Sección de salida : Diseño.•Sección de tanque : Del Sistema.y cte. de gravitación

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Variables de Salida.•Son aquellas cuyo comportamientonos interesa “conocer”.

    •No son definidas por el proceso, es eldiseñador quién las escoge

    ⎥⎥⎥⎥

    ⎢⎢⎢⎢

    =

    )t(y

    )t(y

    )t(y

    )t(y

     p

    2

    1

  • 8/18/2019 Clase3 RNA

    18/34

    18

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Variables de Entrada(o de control).

    •Son variables que influencian al sistema peroque no son, ellas a su vez, influenciadas por él.

    Podemos manipularlas.

    ⎥⎥⎥

    ⎢⎢⎢

    =

    )t(u

    )t(u

    )t(u

    )t(u

    m

    2

    1

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Perturbaciones (w)

    •También son variables externas al sistemay que lo influencian pero sobre las cuales no

    tenemos manera de actuar.

    Variables Internas

    •Todas aquellas que no son ni entradas ni salidas.

  • 8/18/2019 Clase3 RNA

    19/34

    19

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Resumen

    Constante

    Param. Sist.

    Param. Diseño

    Variable

    V. Salida

    V. Externa

    V. Control.

    PerturbaciónV. Interna

     

    Cantidad que no varía en el tpo.

    Cte. dada por el sistema.

    Cte. Que se puede “variar”.

    Varía en función del tpo.

    Nos interesa medir, controlar, etc.

    Afecta al sist. ,pero no es

    afectada por él.

    Podemos Manipular (externa).

    No podemos Manipular (externa).Variable de sistema que no es

    salida ni entrada

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    III. 2.- “Buenos modales” para laelaboración de modelos

    neuronales

  • 8/18/2019 Clase3 RNA

    20/34

    20

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 1: Exhaustivo análisis de

    sistema• En este análisis se debe dejar establecido el

    número y tipo de variables de entrada y salida delmodelo, la posibilidad de reducir la dimensión del

     problema disminuyendo el número de variablesinvolucradas, etc...

    • Es realmente imprescindible usar un modeloneuronal? Porqué no utilizar modelos clásicosexistentes? RED NEURONAL: SEGUNDA

    MEJOR SOLUCIÓN !!• Si se decide utilizar un modelo neuronal, se cuenta

    con los datos que representen adecuadamente elfenómeno a modelar y en la cantidad suficiente?

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 2: Preprocesamiento

    • Datos: un modelo neuronal es de tipo “cajanegra”. Son modelos de interpolación (NUNCADE EXTRAPOLACIÓN) que dependenFUERTEMENTE de calidad y cantidad de datosdisponible.

    • Calidad: relacionada con el grado con que los

    datos disponibles representan la función que seestá aproximando.  Deseable: obtenerlos siguiendoun plan de experiencias adecuadamente diseñado.

  • 8/18/2019 Clase3 RNA

    21/34

    21

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 2: Preprocesamiento• Datos (ejemplos):

    • Cantidad: es extremadamente importante puessólo una cantidad de datos adecuada nos permitiráidentificar en forma correcta los parámetros(pesos) de nuestro modelo neuronal.

    • Si la cantidad de datos es pequeña, NO

    PODEMOS PRETENDER elaborar un modeloneuronal complejo.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 2: Preprocesamiento

    • Examinar atentamente (visualmente) losdatos. Detectar y en lo posible eliminar“outliers” (errores gruesos), vacíos, etc...

    • Una atenta examinación visual permite aveces detectar correlación entre variables y,

     por lo tanto, reducir dimensionalidad, etc...

  • 8/18/2019 Clase3 RNA

    22/34

    22

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 2: Preprocesamiento

    • Normalización de variables: Necesaria cuandointervienen variables con diferentes unidades y porlo tanto amplitudes a veces varios órdenes demagnitud diferentes.

    • Ejemplo1 : Xn = (X-Xmin)/(Xmax-Xmin); Xn € (0,1)

    • Ejemplo2: Xn = 2*(X-Xmin)/(Xmax-Xmin) – 1; Xn € (-1,1)• Xmax = 1,1 máximo valor de datos; Xmin = 0,9 mínimo valor de datos

    • Es necesario, a la salida, realizar ladesnormalización correspondiente.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 3: Diseño del modeloneuronal• Número de neuronas de entrada y de salida,

    dependiente del análisis de sistemaanteriormente analizado.

    • Número de neuronas de capa intermedia Nc: – Lo importante es que dicho número de lugar a

    una cantidad de parámetros (pesos) Nw tal que:

    • Nw < (Número de ejemplos) / 10

  • 8/18/2019 Clase3 RNA

    23/34

    23

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 3: Diseño del modeloneuronal

    • El número de pesos Nw de un perceptronmulticapas, con 1 capa entrada con Neneuronas, una capa oculta con Nc neuronasy una capa de salida con Ns neuronas es:

     Nw = (Ne+1)*Nc+(Nc+1)*Ns

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 3: Diseño del modeloneuronal• Por lo tanto, si se tiene una red con 3

    entradas, 4 neuronas en la capa oculta y 2salidas, su cantidad de pesos es:

     Nw = (3+1)*4+(4+1)*2 = 26

    Luego, se requiere de AL MENOS 260 ejemplosen el conjunto de entrenamiento para identificarlos parámetros de esta red.

  • 8/18/2019 Clase3 RNA

    24/34

    24

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 3: Diseño del modeloneuronal

    • Funciones de transferencia: la ventaja de los modelosneuronales y lo que los hace poderosos para aproximarfunciones complejas es su capacidad de utilizar funcionesde transferencia de tipo sigmoidal (facilita laretropropagación).

    • Un criterio usual es, dado que está demostrado que bastauna sola capa oculta con un adecuado número de neuronas para aproximar con un grado de precisión arbitrariocualquier función no lineal [Funahashi, 89, Cybenko, 89,Hornik et al., 89, Hornik, 91], utilizar funcionessigmoidales en la capa oculta y funciones lineales en la desalida.

    • Sin embargo también pueden usarse sigmoides en la salida.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: Entrenamiento

    • El entrenamiento supervisado de una redneuronal es un proceso muy delicadodebido a la complejidad que ostenta lasuperficie de la función error, la que puede

     poseer numerosos mínimos locales, puntos

    silla, etc...

  • 8/18/2019 Clase3 RNA

    25/34

    25

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: Entrenamiento• Hay tres problemas principales que pueden surgir

    durante entrenamiento:

     – 1 Sesgo – 2.- Sobreparametrización – 3.- Sobreaprendizaje

    Los dos últimos dan lugar a un fenómeno similar queafecta la capacidad de “generalización” de la red (altavarianza).

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    1.- Problema de gran sesgo (bias)

    y(x)

    x

  • 8/18/2019 Clase3 RNA

    26/34

    26

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: EntrenamientoComo disminuir el sesgo?

    1.-Aumentando prudentemente el número deneuronas en la capa oculta

    2.- Logrando llegar a un mejor mínimo local paralo cual es importante realizar una buenacantidad de entrenamientos diferentes partiendo

    desde pesos iniciales aleatoriamente escogidos(20 o más intentos).

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    2.- Problema de gran varianza (sobreparametrización y

    sobreentrenamiento)

    y(x)

    x

  • 8/18/2019 Clase3 RNA

    27/34

    27

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: EntrenamientoFormas de evitar los problemas anteriores:

    1.- Trabajar siempre con dos conjuntos duranteentrenamiento:

    conjunto de entrenamiento

    conjunto de test (prueba)

    Lo ideal es visualizar el comportamiento de la

    función error en forma simultánea en ambosconjuntos

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Grafico de función error en conjuntosaprendizaje (-) y test (---)

     Número

    iteraciones

    Mínimo error de test

    Error 

  • 8/18/2019 Clase3 RNA

    28/34

    28

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

     No. parámetros red

    Error 

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: Entrenamiento

    Característica de los conjuntos de aprendizaje y prueba:

    Ambos deben ser numerosos y los ejemplos quelos compongan deben ser representativos delfenómeno subyacente que se quiere modelar 

  • 8/18/2019 Clase3 RNA

    29/34

    29

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: EntrenamientoOtros métodos utilizados:

    1.- Validación cruzada: se elaboran distintosmodelos neuronales a partir del uso de losejemplos disponibles para aprendizajeconfeccionando de distinta forma los conjuntos

    de aprendizaje y test. Se escoge aquel modeloque da mínimo error sobre conjunto de test.

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: Entrenamiento

    2.- “Early stopping”: la idea es detener el proceso de aprendizaje apenas el error sobre elconjunto de test comience a aumentar. Se evita,de esta manera, que la red neuronal modelice elruido que pueden contener los datos.

    3.- Regularización: se trata de agregar términos

    a la función objetivo de tal manera que alminimizarla se penalice la cantidad de

     parámetros que tenga el modelo.

  • 8/18/2019 Clase3 RNA

    30/34

    30

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 4: Entrenamiento4.- Poda: la idea es comenzar con una red

    neuronal con una gran cantidad de pesos e ir“podando” dichos pesos bajo ciertos criteriosque también incluyen la adición de términos ala función objetivo, los análisis de sensibilidad,etc…

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 5: Generalización

    Para probar la capacidad de generalización de lared, o sea sus resultados sobre un conjuntodistinto de datos, es importante haber reservadoejemplos para confeccionar un tercer conjunto,el CONJUNTO DE GENERALIZACIÓN.

    Este debe ser tan representativo del fenómeno a

    modelar como los anteriores (aprendizaje ytest).

  • 8/18/2019 Clase3 RNA

    31/34

    31

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    3.- Aproximación correcta de la función subyacente

    GENERALIZACIÓN

    y(x)

    x

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 5: Generalización

    Es importante chequear la capacidad de generalización, loque también se conoce como VALIDACIÓN delmodelo neuronal.

    Hay dos formas básicas de validar un modelo dinámico,que es eminentemente predictivo:

    En predicción “un-paso-adelante” (OSA =one-step-

    ahead)En predicción “múltiples-pasos-adelante” (MPO =model predictive output)

  • 8/18/2019 Clase3 RNA

    32/34

    32

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 5: GeneralizaciónOSA:

    x1k 

    x2k 

    X1k+1

    X2k+1

    MPO:

    X1k 

    x2k 

    X1k+1

    X2k+1

    Z-1

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 5: Generalización

    La “prueba de fuego” de un modelo siempre es sucapacidad de predicción MPO

  • 8/18/2019 Clase3 RNA

    33/34

    33

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Paso 5: GeneralizaciónÍndices para validación numérica de modelos:

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    ResultadosÍndices de error usados:

    : Valores predichos.

    : Valores observados

     N : Número total de datos.

    : Valor medio de las observaciones.

    iο 

    i p mii  p p   ο −='mii

      ο ο ο    −='

    mο 

    ( )

    =

    =

    =n

    i

    i

    n

    i

    ii  p

     RMS 

    1

    2

    1

    2

    ο 

    ο    ( )

     N 

     p

     RSD

    n

    i

    ii∑=

    = 1

    2ο ( )

    ( )∑

    =

    =

    +

    −=n

    i

    ii

    n

    i

    ii

     p

     p

     IA

    1

    2

    1

    2

    ''1

    ο 

    ο 

  • 8/18/2019 Clase3 RNA

    34/34

    Universidad de Santiago de Chile Departamento de Ingeniería Informática

     Ingeniería Neuronal Magíster en Ingeniería Informática

    Referencias• Métodos de segundo orden

     – Shepard, “Second-order methods for neural networks”, Springer 1997.

    Aproximadores Universales

    Funahashi, Neural Networks 2, 183 (1989)

    Cybenko, Math. Control, Signals Syst 2, 304 (1989)

    Hornick, Stinchcomb, White, Neural Networks 2, 359 (1989)

    Hornick, Neural Networks 4, 251 (1991)

    “Buena conducta”

    Bishop, “Neural networks and their applications”, Rev. Sci. Instrum,

    65(6): 1803-1832, 1994.Bishop, “Neural networks for pattern recognition”, Oxford UniversityPress, 1993.