Clase3 RNA

8/18/2019 Clase3 RNA

1/34

1

Curso de Ingeniería Neuronal

Clase 3: Alquimia o Ingeniería Neuronal?:

Algunos elementos de reflexión

Universidad de Santiago de ChileUniversidad de Santiago de Chile

ProgramaProgramaMagíster en Ingeniería InformáticaMagíster en Ingeniería Informática

Enero 2005

Dr. Gonzalo Acuña L.

Universidad de Santiago de Chile Departamento de Ingeniería Informática

Ingeniería Neuronal Magíster en Ingeniería Informática

Temario• Introducción• Otros algoritmos de optimización• Alquimia o Ingeniería Neuronal

– Planteamiento de cualquier problema de modelación – “Buenos modales” para la elaboración de modelos

neuronales – Problemas en el aprendizaje – El problema de la generalización


2/34

2

I . Introducción



• Recordatorio sobre el algoritmo deretropropagación “del gradiente”!!


3/34


4/34

4



• Por otra parte: qué decir del intento deelaborar un modelo neuronal que incluyemás de 8000 parámetros para atacar un

problema de clasificación, sabiendo queesos más de 8000 parámetros deberánser correctamente determinados conmenos de 50 ejemplos?

La eterna tentación de ejercer alquimia

neuronal -- CUIDADO!!

II. Otros algoritmos paradeterminar valor de los pesos de

la red


5/34

5



Mínimo local

LocalMinimum

GlobalMinimum



Métodos deoptimización

• Gradiente Conjugado

• Quasi-Newton

• Simulated Annealing

• Algoritmos genéticos

• …etc

[ ]2

ˆ21∑

=

−=k

sh

t

t i

ii Y Y J Min

¿Deterministas o Estocásticos?Deterministas o Estocásticos?


6/34

6



Fletcher y Reeves...

• Es una extensión del método de gradiente conjugado a

funciones cualquiera (nono necesariamentenecesariamente cuadráticascuadráticas)y sin lasin la utilizaciónutilización explícitaexplícita deldel HesianoHesiano.

• Etapa de inicialización: – Seleccionar un punto de partida

– Calcular

• Etapa iterativa – Determinar que minimiza

en la dirección

– Calcular donde

0 x

( )000 x f gd −∇=−=

k λ k k k k d x x ⋅+=+ λ 1k d

k k k k d gd ⋅+−= ++ β 11k

T k

k T k

k

gg

gg

⋅⋅

= ++ 11 β



Métodos de Newton• Métodos de Gradiente

– En General:

Problema: Convergencia lenta. Tendencia a

quedar atrapada en mínimos locales

1

1: ( )

dirección

k k

amplitud pasobusqueda

k k

w w h d

Gradiente w w d w

+

+

= + ⋅

= + −∇


7/34

7



• Ejemplo:2

1 1

2 1

( ) 1

: 1 1 1 ( 2 ) 1

1 1 ( 2 ) 1

.

k k

k

J x x y d

Si x x x

x x

cte

+

+ −

= =

= ⇒ = + ⋅ − = −

= − + ⋅ − =

x

J(x)

-1 1



Métodos Quasi-Newton

( )[ ] k k k k k g x f x x ⋅∇⋅−= −

+

12

1 α

( )k x f 2∇

es una aproximación

convenientemente elegida

de…

k G

k G

Simétrica

Definida positiva

• Hay muchas formas deactualizar la matriz G o suinversa S y que satisfacen loscriterios para anteriores.

k k k q pG =⋅

k k k k k d x x p ⋅=−= + α 1

k k k ggq −= +1

)()()(

1k k k

T k

T k k k k k k

k k pGq p

pGq pGqGG

⋅−⋅

⋅−⋅⋅−+=+

)())(

1k k k

T k

T k k k k k k

k k qS pq

qS pqS pS S

⋅−⋅

⋅−⋅⋅−+=+


8/34

8



Gradiente Conjugado

Dirección de gradiente

X0

X1

X2Gradienteconjugado

1k wk k d J d β −= −∇ +



Métodos 2º orden tipo Newton

• Taylor de J(w):

0 0 0 0 0

2

0 0

0 0

10 0

1( ) ( ) ( ) ( ) ( ) (1)

2

(1) :

( ) ( ) ( ) (2)( ) 0

0 ( ) ( )

( )

ij

i i j

J w J w w J w w w H w w

J J J H

w w w

Derivando

J w J w H w wmínimo J w

J w H w w

w w H J w−

= + − ∇ + − − +

∂ ∂∇ = =

∂ ∂ ∂

∇ = ∇ + − +⇒ ⇒ ∇ =

⇒ = ∇ + −

⇒ = − ∇


9/34

9



• Ejemplo:

• Quasi-Newton: – H-1 se aproxima en forma recursiva.

– BFGS Broyden, Fletcher, Glodfarb, Shanno

20

2

2

1 1

2 0

( ) ; 1

2 ; 2

11 ( 2 ) 0

21

0 ( 2 ) 02

J w w w

J J w

w w

w w

w w

= =

∂ ∂= =

∂ ∂

⇒ = + − =

= + − =



Levenberg - Marquardt

• Modificación de Gauss-Newton

• Ventajas: – Bien definido aunque J no sea de rango pleno

– Globalmente convergente

11 [ ]

T T

k k k k k k k

Aproximación Hessiano

w w J J I J r µ −+ = − +


10/34

10



Simulated Annealing

• Energía mínima...• ¿« f » diférenciable?

• ¿Óptimos locales?

• Parámetros?

• Enfriamiento?

• Calidad de la solución?

Ω

Estadoinicial

Estadofinal



Algoritmos genéticos

• Rango= [-4 , 4]

• Bits=8

• Población=30• Generaciones=50


11/34

11



• Los algoritmos genéticos son una clase de estrategias de búsqueda que presentan un compromiso equilibrado y

razonable entre la exploración y la explotación; en efecto,analisis teóricos han mostrado que los algoritmos genéticosgeneran este compromiso de manera casi óptima.

a) Inicializar la Población : Crear y evaluar la población inicial decromosomas.

b) Seleccionar y reproducir loscromosomas.

c) Evaluar los “fitness ” del

nuevo hijo.

d) Substituir los cromosomas de la población por los hijos.

e) Volver a b)

• Evaluación.

• Selección.

• Reproducción concruzamiento y mutación



Problemas en la práctica...

• ¿Qué algoritmo utilizar?

• ¿Qué fórmula Q-N utilizar?

• ¿Qué tipo de búsqueda lineal sedeberá implementar?

• ¿Cómo hacer la corrección de la

matriz cuando ?1+k S I S o=


12/34

12

III. Alquimia o Ingeniería Neuronal



III. 1.- Planteamiento decualquier problema demodelación:


13/34

13



SISTEMA:• Combinación de elementos o componentes

interrelacionados entre sí y con el todo, queactúan juntos para lograr una cierta meta.

• Porción de la realidad que queremos aislar para estudiar.



Proceso Objeto Real,

no formalizado

Sistema

Modelo

Simplificación

de la Realidad


14/34

14



Metodologías de Modelación1.- Modelación Teórica o Fundamental

• Se usa teoría aceptada por las ciencias quesubyacen el fenómeno.

• Leyes de Conservación.

• Ecuaciones Constitutivas.



• ecuaciones diferenciales parciales no lineales

simplificación

• linealización• parámetros concentrados• etc....

• sistema de ecuaciones diferenciales ordinarias

lineales


15/34

15



Características:

→ Se requiere ayuda de expertos.

→ Fácilmente generalizable.

→ Comprensión del fenómeno o proceso.



2.- Modelación empírica o experimental

• Observaciones directas Ecuaciones.

• Sólo información entrada - salida

• Métodos de desarrollo:Algorítmicos, numerosos y diversos identificación

• modelos lineales de orden reducido.

• utilizables como un todo.• no-generalizables.


16/34

16



3.- Modelación Combinada (descriptivos)

•Frecuentemente utilizada.

•La estructura se define por modelación teórica.

•Parámetros experimentación.



Sistema Supuestos

Selección de variables fundamentales

Selección de variables Dependientes

Aplicación de Principios de Conservación

Principios de conservación

completamente explotados.

Ecuaciones

Constitutivas

Suficientes

Ecuaciones

Modelo

Matemático

NO

SI

NO SI


17/34

17



Variables y Parámetros de un ModeloParámetros de

Diseño

Parámetros del

Sistema

Constantes cuyo valor

puede ser escogido.

Constantes propias

del sistema.

Ej. : Estanque.

•Sección de salida : Diseño.•Sección de tanque : Del Sistema.y cte. de gravitación



Variables de Salida.•Son aquellas cuyo comportamientonos interesa “conocer”.

•No son definidas por el proceso, es eldiseñador quién las escoge

⎥⎥⎥⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎢

⎣

⎡

=

)t(y

)t(y

)t(y

)t(y

p

2

1


18/34

18



Variables de Entrada(o de control).

•Son variables que influencian al sistema peroque no son, ellas a su vez, influenciadas por él.

Podemos manipularlas.

⎥

⎥⎥⎥

⎦

⎤

⎢

⎢⎢⎢

⎣

⎡

=

)t(u

)t(u

)t(u

)t(u

m

2

1



Perturbaciones (w)

•También son variables externas al sistemay que lo influencian pero sobre las cuales no

tenemos manera de actuar.

Variables Internas

•Todas aquellas que no son ni entradas ni salidas.


19/34

19



Resumen

Constante

Param. Sist.

Param. Diseño

Variable

V. Salida

V. Externa

V. Control.

PerturbaciónV. Interna

Cantidad que no varía en el tpo.

Cte. dada por el sistema.

Cte. Que se puede “variar”.

Varía en función del tpo.

Nos interesa medir, controlar, etc.

Afecta al sist. ,pero no es

afectada por él.

Podemos Manipular (externa).

No podemos Manipular (externa).Variable de sistema que no es

salida ni entrada



III. 2.- “Buenos modales” para laelaboración de modelos

neuronales


20/34

20



Paso 1: Exhaustivo análisis de

sistema• En este análisis se debe dejar establecido el

número y tipo de variables de entrada y salida delmodelo, la posibilidad de reducir la dimensión del

problema disminuyendo el número de variablesinvolucradas, etc...

• Es realmente imprescindible usar un modeloneuronal? Porqué no utilizar modelos clásicosexistentes? RED NEURONAL: SEGUNDA

MEJOR SOLUCIÓN !!• Si se decide utilizar un modelo neuronal, se cuenta

con los datos que representen adecuadamente elfenómeno a modelar y en la cantidad suficiente?



Paso 2: Preprocesamiento

• Datos: un modelo neuronal es de tipo “cajanegra”. Son modelos de interpolación (NUNCADE EXTRAPOLACIÓN) que dependenFUERTEMENTE de calidad y cantidad de datosdisponible.

• Calidad: relacionada con el grado con que los

datos disponibles representan la función que seestá aproximando. Deseable: obtenerlos siguiendoun plan de experiencias adecuadamente diseñado.


21/34

21



Paso 2: Preprocesamiento• Datos (ejemplos):

• Cantidad: es extremadamente importante puessólo una cantidad de datos adecuada nos permitiráidentificar en forma correcta los parámetros(pesos) de nuestro modelo neuronal.

• Si la cantidad de datos es pequeña, NO

PODEMOS PRETENDER elaborar un modeloneuronal complejo.




• Examinar atentamente (visualmente) losdatos. Detectar y en lo posible eliminar“outliers” (errores gruesos), vacíos, etc...

• Una atenta examinación visual permite aveces detectar correlación entre variables y,

por lo tanto, reducir dimensionalidad, etc...


22/34

22




• Normalización de variables: Necesaria cuandointervienen variables con diferentes unidades y porlo tanto amplitudes a veces varios órdenes demagnitud diferentes.

• Ejemplo1 : Xn = (X-Xmin)/(Xmax-Xmin); Xn € (0,1)

• Ejemplo2: Xn = 2*(X-Xmin)/(Xmax-Xmin) – 1; Xn € (-1,1)• Xmax = 1,1 máximo valor de datos; Xmin = 0,9 mínimo valor de datos

• Es necesario, a la salida, realizar ladesnormalización correspondiente.



Paso 3: Diseño del modeloneuronal• Número de neuronas de entrada y de salida,

dependiente del análisis de sistemaanteriormente analizado.

• Número de neuronas de capa intermedia Nc: – Lo importante es que dicho número de lugar a

una cantidad de parámetros (pesos) Nw tal que:

• Nw < (Número de ejemplos) / 10


23/34

23



Paso 3: Diseño del modeloneuronal

• El número de pesos Nw de un perceptronmulticapas, con 1 capa entrada con Neneuronas, una capa oculta con Nc neuronasy una capa de salida con Ns neuronas es:

Nw = (Ne+1)*Nc+(Nc+1)*Ns



Paso 3: Diseño del modeloneuronal• Por lo tanto, si se tiene una red con 3

entradas, 4 neuronas en la capa oculta y 2salidas, su cantidad de pesos es:

Nw = (3+1)*4+(4+1)*2 = 26

Luego, se requiere de AL MENOS 260 ejemplosen el conjunto de entrenamiento para identificarlos parámetros de esta red.


24/34

24



Paso 3: Diseño del modeloneuronal

• Funciones de transferencia: la ventaja de los modelosneuronales y lo que los hace poderosos para aproximarfunciones complejas es su capacidad de utilizar funcionesde transferencia de tipo sigmoidal (facilita laretropropagación).

• Un criterio usual es, dado que está demostrado que bastauna sola capa oculta con un adecuado número de neuronas para aproximar con un grado de precisión arbitrariocualquier función no lineal [Funahashi, 89, Cybenko, 89,Hornik et al., 89, Hornik, 91], utilizar funcionessigmoidales en la capa oculta y funciones lineales en la desalida.

• Sin embargo también pueden usarse sigmoides en la salida.



Paso 4: Entrenamiento

• El entrenamiento supervisado de una redneuronal es un proceso muy delicadodebido a la complejidad que ostenta lasuperficie de la función error, la que puede

poseer numerosos mínimos locales, puntos

silla, etc...


25/34

25



Paso 4: Entrenamiento• Hay tres problemas principales que pueden surgir

durante entrenamiento:

– 1 Sesgo – 2.- Sobreparametrización – 3.- Sobreaprendizaje

Los dos últimos dan lugar a un fenómeno similar queafecta la capacidad de “generalización” de la red (altavarianza).



1.- Problema de gran sesgo (bias)

y(x)

x


26/34

26



Paso 4: EntrenamientoComo disminuir el sesgo?

1.-Aumentando prudentemente el número deneuronas en la capa oculta

2.- Logrando llegar a un mejor mínimo local paralo cual es importante realizar una buenacantidad de entrenamientos diferentes partiendo

desde pesos iniciales aleatoriamente escogidos(20 o más intentos).



2.- Problema de gran varianza (sobreparametrización y

sobreentrenamiento)

y(x)

x


27/34

27



Paso 4: EntrenamientoFormas de evitar los problemas anteriores:

1.- Trabajar siempre con dos conjuntos duranteentrenamiento:

conjunto de entrenamiento

conjunto de test (prueba)

Lo ideal es visualizar el comportamiento de la

función error en forma simultánea en ambosconjuntos



Grafico de función error en conjuntosaprendizaje (-) y test (---)

Número

iteraciones

Mínimo error de test

Error


28/34

28



No. parámetros red

Error




Característica de los conjuntos de aprendizaje y prueba:

Ambos deben ser numerosos y los ejemplos quelos compongan deben ser representativos delfenómeno subyacente que se quiere modelar


29/34

29



Paso 4: EntrenamientoOtros métodos utilizados:

1.- Validación cruzada: se elaboran distintosmodelos neuronales a partir del uso de losejemplos disponibles para aprendizajeconfeccionando de distinta forma los conjuntos

de aprendizaje y test. Se escoge aquel modeloque da mínimo error sobre conjunto de test.




2.- “Early stopping”: la idea es detener el proceso de aprendizaje apenas el error sobre elconjunto de test comience a aumentar. Se evita,de esta manera, que la red neuronal modelice elruido que pueden contener los datos.

3.- Regularización: se trata de agregar términos

a la función objetivo de tal manera que alminimizarla se penalice la cantidad de

parámetros que tenga el modelo.


30/34

30



Paso 4: Entrenamiento4.- Poda: la idea es comenzar con una red

neuronal con una gran cantidad de pesos e ir“podando” dichos pesos bajo ciertos criteriosque también incluyen la adición de términos ala función objetivo, los análisis de sensibilidad,etc…



Paso 5: Generalización

Para probar la capacidad de generalización de lared, o sea sus resultados sobre un conjuntodistinto de datos, es importante haber reservadoejemplos para confeccionar un tercer conjunto,el CONJUNTO DE GENERALIZACIÓN.

Este debe ser tan representativo del fenómeno a

modelar como los anteriores (aprendizaje ytest).


31/34

31



3.- Aproximación correcta de la función subyacente

GENERALIZACIÓN

y(x)

x




Es importante chequear la capacidad de generalización, loque también se conoce como VALIDACIÓN delmodelo neuronal.

Hay dos formas básicas de validar un modelo dinámico,que es eminentemente predictivo:

En predicción “un-paso-adelante” (OSA =one-step-

ahead)En predicción “múltiples-pasos-adelante” (MPO =model predictive output)


32/34

32



Paso 5: GeneralizaciónOSA:

x1k

x2k

X1k+1

X2k+1

MPO:

X1k

x2k

X1k+1

X2k+1

Z-1




La “prueba de fuego” de un modelo siempre es sucapacidad de predicción MPO


33/34

33



Paso 5: GeneralizaciónÍndices para validación numérica de modelos:



ResultadosÍndices de error usados:

: Valores predichos.

: Valores observados

N : Número total de datos.

: Valor medio de las observaciones.

iο

i p mii p p ο −='mii

ο ο ο −='

mο

( )

∑

∑

=

=

−

=n

i

i

n

i

ii p

RMS

1

2

1

2

ο

ο ( )

N

p

RSD

n

i

ii∑=

−

= 1

2ο ( )

( )∑

∑

=

=

+

−

−=n

i

ii

n

i

ii

p

p

IA

1

2

1

2

''1

ο

ο


34/34



Referencias• Métodos de segundo orden

– Shepard, “Second-order methods for neural networks”, Springer 1997.

Aproximadores Universales

Funahashi, Neural Networks 2, 183 (1989)

Cybenko, Math. Control, Signals Syst 2, 304 (1989)

Hornick, Stinchcomb, White, Neural Networks 2, 359 (1989)

Hornick, Neural Networks 4, 251 (1991)

“Buena conducta”

Bishop, “Neural networks and their applications”, Rev. Sci. Instrum,

65(6): 1803-1832, 1994.Bishop, “Neural networks for pattern recognition”, Oxford UniversityPress, 1993.

Clase3 RNA

Documents

Transcript of Clase3 RNA