1virtual.usalesiana.edu.bo/web/contenido/dossier/12012/... · Web viewls arg max l x, lw 22 Un...

UNIVERSIDAD SALESIANADE BOLIVIA

INGENIERIA DE SISTEMA

DOSSIERMATERIA : INTELIGENCIA ARTICIAL IIPARALELOS: NOVENO “A” Y “C”DOCENTE : Lic. JESUS ROCHA VERA

1

CAPITULO 1SISTEMAS EXPERTOS

1.1 INTRODUCCION

Los sistemas expertos son programas que reproducen el proceso intelectual de un experto humano en un campo particular, pudiendo mejorar su Productividad, ahorrar tiempo y dinero, conservar sus valiosos conocimientos y difundirlos más fácilmente.

Antes de la aparición del ordenador, el hombre ya se preguntaba si se le arrebataría el privilegio de razonar y pensar. En la actualidad existe un campo dentro de la inteligencia artificial al que se le atribuye esa facultad: el de los sistemas expertos. Estos sistemas permiten la creación de máquinas que razonan como el hombre, restringiéndose a un espacio de conocimientos limitado. En teoría pueden razonar siguiendo los pasos que seguiría un experto humano (médico, analista, empresario, etc.) para resolver un problema concreto. Este tipo de modelos de conocimiento por ordenador ofrece un extenso campo de posibilidades en resolución de problemas y en aprendizaje. Su uso se extenderá ampliamente en el futuro, debido a su importante impacto sobre los negocios y la industria.

El objetivo de este artículo es enseñar de forma práctica el funcionamiento de un sistema experto

¿QUE ES UN SISTEMA EXPERTO?

No resulta fácil dar una definición de Sistema Experto, entre otras cosas, porque el concepto de Sistema Experto va evolucionando, ya que, a medida que se va progresando, sus funciones se van ampliando y resulta un concepto cambiante. Hace ya bastantes años, Edward Feigenbaum, de la Universidad de Stanford definió, en el Congreso Mundial de IA, un Sistema Experto como:

"Un programa de computador inteligente que usa el conocimiento y procedimientos de inferencia para resolver problemas que son lo suficientemente difíciles como para requerir la intervención de un experto humano para su resolución".Hoy, con los avances conseguidos, resultaría más correcto definir un Sistema Experto como:

"Un sistema informático que simula el proceso de aprendizaje, de memorización, de razonamiento, de comunicación y de acción de un experto humano en una determinada rama de la ciencia, suministrando, de esta forma, un consultor que puede sustituirle con unas ci ertas garantías de éxito".

Estas características le permiten almacenar datos y conocimiento, sacar conclusiones lógicas, tomar decisiones, aprender de la experiencia y los datos existentes, comunicarse con expertos humanos o Sistemas Expertos, explicar el porqué de las decisiones tomadas y realizar acciones como consecuencia de todo lo anterior.

Los sistemas expertos se pueden considerar como el primer producto verdaderamente operacional de la inteligencia artificial.

2

Son programas de ordenador diseñados para actuar como un especialista humano en un dominio particular o área de conocimiento. En este sentido, pueden considerarse como intermediarios entre el experto humano, que transmite su conocimiento al sistema, y el usuario que lo utiliza para resolver un problema con la eficacia del especialista. El sistema experto utilizará para ello el conocimiento que tenga almacenado y algunos métodos de inferencia.

A la vez, el usuario puede aprender observando el comportamiento del sistema. Es decir, los sistemas expertos se pueden considerar simultáneamente como un medio de ejecución y transmisión del conocimiento.

Lo que se intenta, de esta manera, es representar los mecanismos heurísticos que intervienen en un proceso de descubrimiento. Éstos mecanismos forman ese conocimiento difícil de expresar que permite que los expertos humanos sean eficaces calculando lo menos posible. Los sistemas expertos contienen ese "saber hacer".

1.2 INTELIGENCIA ARTIFICIAL

La inteligencia artificial es una de las áreas más fascinantes y con más retos de las ciencias de la Computación ya que ha tomado a la inteligencia como la característica universalmente aceptada para diferenciar a los humanos de otras criaturas ya sean vivas o inanimadas, para construir programas o computadoras inteligentes. Hay preguntas profundas que surgen al hacer esta comparación, y la posibilidad de construir una inteligencia maquinista genera y estimula reacciones fuertes. En particular porque no hay una definición unánime de inteligencia para todas las áreas del conocimiento y todas las corrientes de pensamiento, y como establece McFarland, la inteligencia sólo la podemos medir por el resultado, es decir, podemos apreciar y diferenciar si un comportamiento es o no inteligente.

La investigación en inteligencia artificial se ha disparado buscando solución al problema si las máquinas pueden pensar.

Alan M. Turing propuso una prueba denominada el Juego de la Imitación, que actualmente se conoce como la prueba de Turing, la pretensión de la prueba es tener una herramienta objetiva no ambigua de lo que significa que una máquina pueda pensar en un lenguaje operativo.

Tradicionalmente, en computación la robótica se ha visto como un área de aplicación del conocimiento en la que se integran diversos conceptos de la I.A. Según Firebaugh, la IA es el área tecnológica que necesita ser desarrollada y dominada (conocida a fondo) para acelerar la evolución de los robots. Esta visión se deriva de los aspectos en los que la I.A. ha contribuido con técnicas para la comprensión de la robótica y son:Los sistemas expertos proceden inicialmente de la inteligencia artificial a mediados de los años sesenta. En ese período se creía que bastaban unas pocas leyes de razonamiento junto con potentes ordenadores para producir resultados brillantes. Un intento en ese sentido fue el llevado a cabo por los investigadores Alan Newell y Herbert Simon que desarrollaron un programa denominado GPS (General Problema Solver; solucionador general de problemas. Podía trabajar con criptoaritmética, con las torres de Hanoi y con

3

otros problemas similares. Lo que no podía hacer el GPS era resolver problemas del mundo real, tales como un diagnóstico médico.

1.3 CARACTERÍSTICAS DE UN SISTEMA EXPERTO

La característica fundamental de un sistema experto es que separa los conocimientos almacenados (base de conocimiento) del programa que los controla (motor de inferencia. Los datos propios de un determinado problema se almacenan en una base de datos aparte (base de hechos.

Una característica adicional deseable, y a veces fundamental, es que el sistema sea capaz de justificar su propia línea de razonamiento de forma inteligible por el usuario.

Los sistemas expertos siguen una filosofía diferente a los programas clásicos. Esto queda reflejado en la tabla 1, que resume las diferencias entre ambos tipos de procesamiento.

Seria satisfactorio que se pudiera empezar con una definición exacta que sirviera como punto de partida, sin embargo la inteligencia tan novedosa no tiene siglos de antigüedad sino tan solo algunos decenios – y los sistemas expertos son una aplicación tan recientes de esta disciplina, esto que no ha habido tiempo suficiente para que cristalice su terminología. Los conceptos de este campo todavía están en proceso de cambio y sus limites son difusos, por lo que cualquier intento para obtener definiciones estrictas y exactas esta condenado al fracaso.Afortunadamente no se necesita definiciones estrictas y exactas solamente un conocimiento suficiente para manejar cómodamente los conceptos. Los que se busca es comprensión no-rigor académico. El propósito de este caso no es mas bien caracterizar los sistemas expertos con el detalle suficiente para poder reconocer los ejemplos verdaderos y rechazar los falsos.La búsqueda de dicha comprensión se aprenderá en tres pasos. Los sistemas expertos presentan características esenciales y deseables; las esenciales, sin las cuales no podrían denominarse sistemas expertos y las deseables sin las cuales en casi todos los casos no se podrían utilizar. En las siguientes secciones se describen estas características, mientras que en otras se clasifican los sistemas expertos.

Características esenciales, antes de proceder con esta tarea primero se resolverá algo que para algunas personas es una constante fuente irritación. El nombre de sistemas expertos .como sucede con muchos sistemas de computación y otros campos, este surgió por casualidad y no por diseño. Podría no ser un buen termino, pero es el que utiliza la gente y tiene que aceptarse hasta que se proponga uno mejor.

Como ya se menciono, la inteligencia artificial ofrece dos productos inteligentes: modelos del conocimiento humano y artefactos inteligentes. Los sistemas inteligentes pertenecen a estos últimos. Fueron creados no tanto para modelar la manera en que los expertos resuelven sus problemas y por consiguiente para entender el funcionamiento del cerebro de un experto, sino en el objetivo practico de cosechar los beneficios que aporta el pensamiento de los expertos integrados a un sistema de computación. Naturalmente, las dos áreas interactúan con efectos colaterales y efectos. La construcción de sistemas expertos equivale en cierto sentido, a crear un modelo del

4

pensamiento de los expertos, y esto permite producir mejores modelos de conocimiento tales modelos mejorados obtenido talvez de un campo diferente, permiten construir a sus ves un campo de sistemas expertos, pero todo eso es, por así decirlo, la fase final del proceso.Los artefactos inteligentes se producen primordialmente para resolver problemas y esa es la razón más importante para construir sistemas expertos de los dos métodos principales para resolver problemas que utilizan los artefactos inteligentes, ósea los generales o independientes del campo de actividad y los específicos del campo de actividad los sistemas expertos pertenecen a la segunda categoría, la de los específicos del campo de actividad. Una numerosa parte de estos específicos del campo de actividad se apoya en el conocimiento de seres humanos expertos; Tales métodos se conocen como sistemas basados en él conociendo o incluso como sistemas inteligentes basados en el conocimiento (sus siglas correspondientes son KBS e IKBS. Los sistemas expertos forman una subclase de los sistemas basados en el conocimiento, subclases centradas en una área que se reduce a un solo campo del conocimiento especializadoSi el sistema no esta basado en el conocimiento, no debe denominarse sistema experto. Principal dificultad con este precepto es como diferenciar los sistemas basados en el conocimiento de los demás sistemas.Lamentablemente el conocimiento es un concepto escurridizo; los filósofos han tratado en vano definirlo durante miles de años.Para evitar las dificultades filosóficas a cerca de que exactamente el conocimiento, los profesionales consideran conocimiento a todas las reglas, los hechos, las verdades, las razones, y los datos heurísticas recopilados por expertos, que han resultado útiles en la resolución de problemas.En el campo de actividad en el que opera un sistema es un campo particular. Los sistemas expertos individuales se emplean para diagnosticar enfermedades de la sangre para mantener bajo vigilancia a los pacientes en el pulmón de acero y para asesorar a los prospectotes de minerales; Estas arrean están definidas y diferenciadas de conocimientos especializados. El MYCIN y el PROSPECTOR no guardan ninguna relación de áreas de competencia de tal sistema.Los campos de actividad son conocimientos especializados en contraste con el sentido común. Estos sistemas expertos poseen muy poco sentido común. El DART1 tiene un programa de diagnostico de maquinas, no indicara suspensión sí el equipo no-esquema. No obstante los sistemas resuelven satisfactoriamente problemas difíciles como para ser útiles aun sin sentido común.Si el área de conocimiento es estrecha, igual lo es su ámbito, estos sistemas se ocupan de un problema a la vez y a partir de los datos llegan a alguna clase de conclusión. Un sistema experto es una enorme transformación en las plantillas en las que esta expresado su conocimiento es solamente reglas de transformación; un sistema experto radica principalmente en estas reglas, el procesamiento simbólico que los hechos, las observaciones, la hipótesis se representan mediante símbolos y se manipulan como tal. El sistema experto no sabe de ninguna manera de lo que significan los símbolos ni lo que representan, pero estas reglas son capaces de convertir sus datos de entrada en alguna conclusión. Esta técnica por lo general lo lleva a cabo una computadora, efectivamente en seminarios sobre el tema es posible demostrar el funcionamiento de un sistema experto pidiendo que se lleven a cabo sus funciones; Sencillamente es más rápido preciso y conveniente implementar un programa.Un sistema experto es un sistema basado en el conocimiento que emula el pensamiento de los expertos para resolver problemas significativos en un campo especifico de conocimientos especializados.

5

1.4 PRIMER EJEMPLO DE UN SISTEMA EXPERTO

SISTEMA CLÁSICO SISTEMA EXPERTO

Conocimiento y procesamiento combinados en un programaBase de conocimiento separado del mecanismo de procesamiento

No contiene erroresPuede contener errores

No da explicaciones, los datos sólo se usan o escribenUna parte del sistema experto la forma el módulo de explicación

Los cambios son tediososLos cambios en las reglas son fáciles

El sistema sólo opera completoEl sistema puede funcionar con pocas reglas

Se ejecuta paso a pasoLa ejecución usa heurísticas y lógica Necesita información completa para operar Puede operar con información incompleta Representa y usa datosRepresenta y usa conocimiento

Comparación entre un sistema clásico de procesamiento y un sistema experto

EJEMPLOS

Se sabe que actualmente existen mas de cincuenta sistemas expertos en funcionamiento y su numero aumenta rápidamente por ello no es difícil encontrar ejemplos, pero hay cuatro sistemas que merecen especial atención. Por así decirlo los grandes sistemas originales DEDTRAL, MYCIN, PROSPECTOR, R1

DENTRAL

Se menciono que el trabajo para desarrollar comenzó en el año 1964 en la universidad de STANFORD su objetivo es formular hipótesis a cerca de la estructura molecular de un compuesto cuando el químico se enfrenta con un compuesto desconocido, su primera tarea consiste en establecer cual son los átomos que constituyen el compuesto y en que proporciones relativas se encuentran. Para efectuarla realiza pruebas analíticas y experimentos, un instrumento que se usa con frecuencia es espectrómetro de masas su funcionamiento especifico no es de gran interés pero planteado en términos muy sencillos grafica la frecuencia relativa de diferentes átomos y fragmentos moleculares en el compuesto a partir de esta información el químico tiene que determinar cual son los átomos que constituyen el compuesto y cual su disposición él la molécula su tarea ase recordar uno de esos acertijos en los que es necesario encontrar las edades de o

6

miembros de una familia a partir de sus edades combinadas y relativas pero por supuesto la tarea de un químico es mucho mas compleja la familia es grande, todos los átomos conocidos y su posibles relaciones llenarían volúmenes sin embargo el hecho mas importante de recordar, es que no existe un algoritmo científico que permite Determinar la estructura molecular a partir de los espectros de masa el DENDRAL se diseño originalmente para enumerar todas las configuraciones posibles de un conjunto de átomos, acatando las reglas de l valencia química.esta enumeración podría servirle entonces al químico como lista de verificación de posibilidades. En sentido estricto el DENDRAL hoy en DIA no es un solo programa sino una familia de programas. No obstante el algoritmo original esta en él entro de esa familia. Los otros programas ampliaron significativamente su poder. La ampliación más importante fue la que tomo el conjunto generado de casos posibles y lo redujo a un conjunto de casos posibles y lo redujo a un conjunto de casos probables para lograrlo.para lograrlo tuvo que almacenar y utilizar conocimientos heuristicos o reglas basadas en hechos químicos, en las leyes de la química y en el criterio y la experiencia de los expertos.El DENDRAL ES UNA HISTORIA DE TRIUNFO. Los resultados derivados de su uso se mencionan en mas de 50 articulos científicos, lo que demuestra no-solo su utilidad sino tambien sus fundamentos científicos.se emplea de manera regular y rutinaria, Su numero de usuarios ha crecido con tanta rapidez que en 1983 sé establecio una compañía independiente para su distribución y mejoramiento.

XCON

XCON es un Sistema Experto para configuraciones desarrollado por la DigitalEquipment Corporation.Según los deseos individuales del cliente se configuran redes de ordenadores VAX. Ya que el abanico de productos que se ofrecen en el mercado es muy amplio, la configuración completa y correcta de un sistema de estas características es un problema de gran complejidad.Las funciones de este Sistema Experto son las siguientes:1- ¿Pueden conjugarse los componentes solicitados por el cliente de forma conveniente y razonable?2- ¿Los componentes de sistema especificados son compatibles y completos?Las respuestas a estas preguntas son muy detalladas.XCON es capaz de comprobar y completar los pedidos entrantes mucho más rápido y mejor que las personas encargadas hasta ahora de esa labor.

MYCIN

Uno de los tipos más comunes de enfermedad que sufre el ser humano son las infecciones bacterianas. Gracias a los avances en la medicina, ahora se cuenta con una gran cantidad de agentes antimicrobianos, y con su mejor conocido subconjunto de antibióticos para combatir tales infecciones sin embargo, una variedad tan amplia representa para él medico no solo una mayor libertad de elección sino también un mayor problema de selección.si hubiera un solo agente antimicrobiano eficaz contra todas las bacterias infecciosas, no existiría el problema de la selección. Desgraciadamente no existiría un medicamento tan maravilloso. Mas aun un determinado medicamento puede ser sumamente eficaz contra un tipo de bacterias pero no contra otros.en consecuencia él medica debe ser cuidadoso en su elección. Además, la eficacia solamente es uno de los criterios: También tiene que tomar en

7

cuenta las alergias del paciente, los medicamentos, que ingieren en ese momento y otras contraindicaciones parecidas. El MYCIN fue diseñado para ayudar al medico con este problema.Si se examina detalladamente la tarea del medico, es posible observar que tiene cuatro decisiones por tomar: si el paciente sufre de una infección bacteriana, que organismo es el causante, que fármacos debería de ser adecuados y cual de ellos administrar.el MYCIN fue diseñado para ayudar a tomar estas cuatro decisiones.la forma en que ayuda es la siguiente: con base en los datos del paciente y en los resultados del paciente y en los resultados del análisis, llega a una conclusión para cada una de las cuatro preguntas, exhibe estas conclusiones y su correspondiente grado de certeza, a continuación podría exhibir si se le solicita, la línea de razonamiento que siguió para llegar a esas conclusiones, la regla que utilizo durante el proseso las opciones que rechazo e incluso las referencias apropiadas a articulos y otras publicaciones que sirben para respaldar tales reglas. Provisto de esta información él medico estará en una excelente posición para formar su propia opinión.El trabajo para desarrollar el mising se inicia en el año 1972 en la universidad de estanford su nombre proviene del subfilo que se encuentra comúnmente en los nombres de muchos agentes antimicrobianos (como en “estreptomicina”. Las reglas que utiliza se obtuvieron de especialistas en el campo de las infecciones bacterianas. En una serie de pruebas seleccionadas entre diversos casos de la infección de la sangre, se compararon las conclusiones del misina con las de merdicos especialistas y generales.el mising tubo un desempeño excelente en dichas pruebas, almenos también como el de los expertos y significativamente mejor quo el de los generales.A pesar de sus buenos antecendentes, el mising no se utiliza clínicamente. La razón principal de Sto. es que los médicos no acostumbras a utilizar computadoras en tareas que según creen pueden llevar a cabo ellos mismos. También existen otras razones: el problema exige una maquina grande (LA IMPLEMENTACION GENERAL SE REALIZO EN UNA PD-10 CON 256 K DE MEMORIA); require de 20 a 30 minutos por consulta y no tiene aceso a los expedientes clinicos de tal forma que todos los datos del paciente deben introducirse mediante la consuklta su uso principal es como medio de enseñanza: gracias a sus excelentes recursos explicativos puede servir tanto a la s enseñanzas como para la representación más actuales que debe usarse durante el tema.

EL PROSPECTOR

El prospector es un sistema es un sistema computarizado de consulta que se diseño para llegar a los geólogos en la busca de depósitos minerales y la evolución del potencial mineralógico de grandes zonas geográficas. A sido desarrollado en estanford recearch institute desde 1978 hasta la fecha. Al igual que el MYCIN se trata de un sistema conversacional basado en reglas obtenidas de especialistas. El prospector no es realidad un solo sistema sino, ya que contiene varios modelos geológicos diferentes, se tiene informe sobre tres diferentes modelos de depósitos de arenisca uranífera y sobre modelos de cobre propílico y de molibdeno propílico.La tarea del geólogo al evaluar una zona se dificulta por el hecho que los indicios reveladores de un determinado yacimiento son raras vez inequívoca y no siempre se encuentran todos presentes. Por consiguiente debe colocarse en una balanza los signos a favor y en contra sopesar su importancia relativa e emitir un juicio de probabilidad. Por lo general es grande él numero de factores que debe considerar y la importancia de ellos resulta relativa. Estos factores hicieron que la adquisición de reglas fuera por igual problemática y difícil, sin embargo cuando se pusieron a prueba los modelos

8

cotejándolos con las zonas conocidas de prospección y con la opinión de los expertos se descubrió que PROSPECTOR concordaba con un margen.

R1

Tal vez el r1 (también conocido como xcon) es él más exitoso de los sistemas expertos que se utiliza actualmente.fuede sarrollado po jhon McDermott y sus colegas en la universidad carnegie-mellon (CMU) ,a petición de digital equipment corporation(DEC). Cuando lanzo una serie de computadoras VAX, centro su estrategia de mercadotecnia en el concepto de libre elección. Deseaba conceder al cliente toda libertad posible para decidir que piezas de equipo conformarían su conformación particular. Esta libertad crea n problema difícil para la empresa: las necesidades son apenas un bosquejo de lo que constituye una configuración cono en consecuencia los clientes deben transformarse.En configuraciones completas y coherentes, es necesario agregar algunos componentes como fuentes de alimentación, gabinetes y cables. Otros se pueden especificar con mas detalle como traducir los lugares de almacenamiento en discos a unidades de disco y controladores, se debe planear la distribución del equipo al igual que especificar las longitudes de los cables y sus puntos de destino.En resumen es necesario poner atención a muchos de sus detálleselo cual requiere conocer la gama del equipo conocido y el equipo que debe acatar-El personal de DEC se dio cuenta de inmediato que si no mecanizaba este proceso gran parte de ellos tendría que dictarse al y para el colmo no muy bien. Al principio trataron de utilizar métodos tradicionales pero después de admitir que no estaban llegando a ninguna parte recurrieron a la CMU en busca de ayuda, el resultado de esta operación es el R1: un sistema para la configuración de equipos de VAX basado en el conocimiento. Las polémicas acerca del R1 se iniciaron alrededor de 1978 y el problema entro en acción en el mes de enero de 1980 en ese tiempo tenia 400 reglas y desde entonces a aumentado a mas de 4000 reglas.El DEC se calculaba que para 1984 habrían necesitado mas de 81 empleados, mas sin el R1 y están convencidos de que el programa efectúa el trabajo mucho mas mejor de lo que podría hacer la gente. No-efecto está tan convencido del poder de la técnica que pretenden utilizarla en todo sentido. Por un lado para ayudar al personal de ventas y al cliente en la selección de configuraciones coherentes que se ajusten de la mejor manea a las necesidades y por otro lado para ayudar a la preparación de lugar de trabajo, para programar la producción entrega de las configuraciones ordenadas, para ayudar a organizar las actividades de la fabrica, en el control de materiales y almacene y en otras tareas.

1.5 PARTES DE UN SISTEMA EXPERTO

El subsistema de control de coherencia, Este es un componente importante de los Sistemas Expertos. Su función es la de prevenir la entrada de información incoherente en la base de conocimiento. Se trata de un componente esencial, pese a ser una incorporación reciente a este campo.

El subsistema de adquisición de conocimiento, controla el flujo de nuevo conocimiento a la base de datos. Este subsistema determina si la nueva información es redundante, es decir, si está contenida ya en la base de conocimiento. Aquella información no redundante es transmitida a la base de conocimiento para que sea almacenada.

9

El motor de inferencia es el corazón de todo Sistema Experto. La misión principal de este componente es la obtención de conclusiones mediante la aplicación del conocimiento abstracto al conocimiento concreto. En el transcurso de este proceso, si el conocimiento inicial es muy limitado, y el sistema no puede obtener ninguna conclusión, se utilizará el subsistema de demanda de información. Subsistema de demanda de información este componente sirve para completar el conocimiento necesario y reanudar el proceso de inferencia hasta obtener alguna conclusión válida. En algunos casos, el usuario puede indicar la información necesaria ayudado de una interfase de usuario. La interfase de usuario es una componente importante, pues facilita la comunicación entre el Sistema Experto y el usuario.

El subsistema de incertidumbre es el componente de un Sistema Experto responsable de almacenar la información de tipo incierto y de propagar la incertidumbre asociada a esta información.

El subsistema de ejecución de tareas es el componente que permite realizar acciones al Sistema Experto. Estas acciones se basan en las conclusiones obtenidas por el motor de inferencia.

El subsistema de explicación es otro de los componentes de los Sistemas Expertos que requieren una interfase de usuario. El usuario puede solicitar una explicación de las conclusiones obtenidas o de las acciones ejecutadas por el Sistema Experto.

Una de las principales facetas de un Sistema Experto es la habilidad de aprender. En un Sistema Experto pueden considerarse dos tipos distintos de aprendizaje: estructural y parametrito; el aprendizaje estructural se refiere a algunos aspectos relacionados con la estructura del conocimiento (reglas, espacios probabilísticos, etc. El aprendizaje parametrito se refiere a los cambios de los parámetros de la base de datos. Otra faceta de un Sistema Experto es su habilidad para ganar experiencia a través de los datos disponibles.

1.6 USOS DE UN SISTEMA EXPERTO

Un sistema experto es muy eficaz cuando tiene que analizar una gran cantidad de información, interpretándola y proporcionando una recomendación a partir de la misma. Un ejemplo es el análisis financiero, donde se estudian las oportunidades de inversión, dependiendo de los datos financieros de un cliente y de sus propósitos.

Para detectar y reparar fallos en equipos electrónicos, se utilizan los sistemas expertos de diagnóstico y depuración, que formulan listas de preguntas con las que obtienen los datos necesarios para llegar a una conclusión. Entonces recomiendan las acciones adecuadas para corregir los problemas descubiertos. Este tipo de sistemas se utiliza también en medicina (Ej. MYCIN y PUFF), y para localizar problemas en sistemas informáticos grandes y complejos.

Los sistemas expertos son buenos para predecir resultados futuros a partir del conocimiento que tienen. Los sistemas meteorológicos y de inversión en bolsa son ejemplos de utilización en este sentido. El sistema PROSPECTOR es de este tipo.

10

La planificación es la secuencia de acciones necesaria para lograr una meta. Conseguir una buena planificación a largo plazo es muy difícil. Por ello, se usan sistemas expertos para gestionar proyectos de desarrollo, planes de producción de fábricas, estrategia militar y configuración de complejos sistemas informáticos, entre otros.

Cuando se necesita controlar un proceso tomando decisiones como respuesta a su estado y no existe una solución algorítmica adecuada, es necesario usar un sistema experto. Este campo comprende el supervisar fábricas automatizadas, factorías químicas o centrales nucleares. Estos sistemas son extraordinariamente críticos porque normalmente tienen que trabajar a tiempo real.

El diseño requiere una enorme cantidad de conocimientos debido a que hay que tener en cuenta muchas especificaciones y restricciones. En este caso, el sistema experto ayuda al diseñador a completar el diseño de forma competente y dentro de los límites de costes y de tiempo. Se diseñan circuitos electrónicos, circuitos integrados, tarjetas de circuito impreso, estructuras arquitectónicas, coches, piezas mecánicas, etc.

Por último, un sistema experto puede evaluar el nivel de conocimientos y comprensión de un estudiante, y ajustar el proceso de aprendizaje de acuerdo con sus necesidades.

En la tabla se muestran los modelos funcionales de los sistemas expertos, junto al tipo de problema que intentan resolver y algunos de los usos concretos a que se destinan.

1.7 APLICACIONES DE LOS SISTEMAS EXPERTOS

InterpretaciónDeducir situaciones a partir de datos observadosAnálisis de imágenes, reconocimiento del habla, inversiones financieras

Predicción

Inferir posibles consecuencias a partir de una situaciónPredicción meteorológica, previsión del tráfico, evolución de la Bolsa

Diagnóstico

Deducir fallos a partir de sus efectosDiagnóstico médico, detección de fallos en electrónica

Diseño

Configurar objetos bajo ciertas especificacionesDiseño de circuitos, automóviles, edificios, etc.

Planificación

Desarrollar planes para llegar a unas metasProgramación de proyectos e inversiones. Planificación militar

11

Monitorización o supervisión

Controlar situaciones donde hay planes vulnerablesControl de centrales nucleares y factorías químicas

Depuración

Prescribir remedios para funcionamientos erróneos Desarrollo de software y circuitos electrónicos

Reparación

Efectuar lo necesario para hacer una correcciónReparar sistemas informáticos, automóviles, etc

Instrucción

Diagnóstico, depuración y corrección de una conductaCorrección de errores, enseñanza

Control

Mantener un sistema por un camino previamente trazado. Interpreta, predice y supervisa su conducta. Estrategia militar, control de tráfico aéreo

Enseñanza

Recoger el conocimiento y mostrarloAprendizaje de experiencia

CAPITULO 2

REDES NEURONALES

2.1 Introducción

Las Redes Neuronales Artificiales (ANN) son sistemas paralelos para el procesamiento de la información, inspirados en el modo en el que las redes de neuronas biológicas del cerebro procesan esta. Es decir que se han intentado plasmar los aspectos esenciales de una neurona real a la hora de diseñar una neurona “artificial”. Estos modelos realizan una simplificación, averiguando cuales son los elementos relevantes del sistema, bien porque la cantidad de información de que dispone es excesiva o bien porque es redundante. Una elección adecuada de sus características, más una estructura conveniente, es el procedimiento convencional utilizado para construir redes capaces de realizar una determinada tarea.

Es de prever que dichas ANN tengan características similares a las del cerebro:

· Sean robustas y tolerantes a fallos

12

· Sean flexibles. El cerebro se adapta a nuevas circunstancias mediante el aprendizaje.· Puedan trabajar con información borrosa, incompleta, probabilística, con ruido o inconsistente.· Sean altamente paralelas. El cerebro está formado por muchas neuronas interconectadas entre si y es, precisamente el comportamiento colectivo de todas ellas, lo que caracteriza su forma de procesar la información.

El punto clave de las ANNs es la nueva estructuración de estos sistemas para el procesamiento de la información. A partir de esta información como ejemplo, las ANN aprenden. Aprender en sistemas biológicos involucra la modificación de la interconectividad entre las neuronas; este concepto también es cierto para las ANNs.

Los campos de aplicación de las ANNs crecen por momentos, por ejemplo, reconocimiento de patrones, clasificación de datos, predicciones,... Su ventaja más destacada es la de solucionar problemas que con las técnicas convencionales serían demasiado complejos.

Las redes neuronales, en su inicio eran una simulación de los sistemas nerviosos biológicos. De este modo una primera clasificación de los modelos de ANNs puede ser basándonos en su similitud con la realidad biológica: modelos de tipo biológico y aquellos dirigidos a aplicaciones.

2.1.1 Redes Neuronales de tipo Biológico

El cerebro humano contiene aproximadamente 12 billones de células nerviosas o neuronas. Cada neurona tiene de 5600 a 60000 conexiones dendríticas provenientes de otras neuronas mientras que en el sistema nervioso hay 1014 sinapsis; teniendo cada neurona más de 1000 a la entrada y a la salida. Es importante destacar que aunque el tiempo de conmutación de la neurona es casi un millón de veces menor que las computadoras actuales, ellas tienen una conectividad miles de veces superior que las actuales supercomputadoras.

La principal aplicación de estas redes, es el desarrollo de elementos sintéticos para verificar las hipótesis que conciernen a los sistemas biológicos.

Las neuronas y las conexiones entre ella, llamadas sinapsis, son la clave para el procesado de la información. Observar la imagen 2.1:

Imagen 2.1 Neurona Biológica

13

La mayoría de neuronas tienen una estructura parecida a la de un árbol llamadas dendritas que reciben las señales de entrada que vienen de otras neuronas a través de las sinapsis.

Una neurona consta de tres partes:

1. El cuerpo de la neurona2. Ramas de extensión (dendritas) para recibir las entradas3. Un axón que lleva la salida de una neurona a las dendritas de otras neuronas

Imagen 2.2 Red de Neuronas

La interacción entre dos neuronas no es del todo conocida pero el proceso del traspaso de información es modelado como una regla de propagación representada por la red u(.). Mientras que la neurona puede ser modelada como una simple función escalón f(.).

2.1.2 La Neurona Artificial

Si se tienen N neuronas, podemos ordenarlas arbitrariamente y designarlas como unidades. Su trabajo es simple y único, y consiste en recibir las entradas de las células vecinas y calcular un valor de salida, el cual es enviado a todas las células restantes.

Imagen 2.3 Neurona Artificial

Se conoce como capa o nivel a un conjunto de neuronas cuyas entradas provienen de la misma fuente (que puede ser otra capa de neuronas) y cuyas salidas se dirigen al mismo destino (que puede ser otra capa de neuronas). De esta manera podemos destacar tres tipos de unidades:

14

Las unidades de entrada reciben señales desde el entorno (son señales que proceden de sensores o de otros sectores del sistema).

Las unidades de salida envían la señal fuera del sistema (son señales que pueden controlar directamente potencias u otros sistemas). Las neuronas de las capas ocultas pueden estar interconectadas de distinta manera, lo que denomina, lo que determina con su número, las distintas tipologías de redes neuronales.

Las unidades ocultas son aquellas cuyas entradas y salidas se encuentran dentro del sistema (son señales que no tienen contacto con el exterior).

Imagen 2.4 Caracterización de un grupo de Neuronas

2.1.3 Conexiones Entre Neuronas

Las conexiones que unen a las neuronas que forman una red neuronal artificial, tienen asociado un peso, que es el que hace que la red adquiera conocimiento.Consideremos yi como el valor de salida de una neurona i en un instante dado. Una neurona recibe un conjunto de señales que le dan información del estado de activación de todas las neuronas con las que se encuentra conectada. Cada conexión (sinapsis) entre la neurona i y la neurona j está ponderada por un peso wje. Normalmente, de forma simplificada, se considera que el efecto de cada señal es aditivo, de tal forma que la entrada neta que recibe una neurona (potencial postsináptico) netj es la suma del producto individual por el valor de la sinapsis que conecta ambas neuronas:

N

net j ￥ w

ji ￗ yii

Esta regla muestra el procedimiento a seguir para combinar los valores de entrada a una unidad con los pesos de las conexiones que llegan a esa unidad y es conocida como regla de propagación.

2.1.4 Regla de Aprendizaje

Al igual que el funcionamiento de una red depende del numero de neurones de las que disponga y de como estén conectadas entre si, cada modelo dispone de sus propias técnicas de aprendizaje. En el caso de las redes neuronales artificiales, se puede considerar que el conocimiento se encuentra en los pesos de las conexiones entre

15

neuronas. Todo proceso de aprendizaje implica cierto número de cambios en estas conexiones. En realidad puede decirse que se aprende modificando los valores de los pesos de la red.

2.1.5 Redes Neuronales para aplicaciones concretas

Debido a que el conocimiento sobre el sistema nervioso en general no es completo se han de definir otras estructuras y funcionalidades distintas a las vistas en las de tipo biológico. Estas son sus principales características:

· Auto-organización y Adaptatividad. Ofrecen procesos robustos y adaptativos ya que utilizan algoritmos de autoaprendizaje y autoorganización.

· Procesado no lineal. Proporciona una gran capacidad de aproximar, clasificar y inmunidad frente al ruido.

· Procesador paralelo. Se usan un gran número de células con un alto nivel de interconectividad.

Los campos de aplicación son el procesado de señal y el de imagen.

2.2 Fases en la aplicación de Redes Neuronales

Las aplicaciones del mundo real deben cumplir dos tipos diferentes de requisitos en el procesado, por eso, podemos distinguir dos fases: fase la de aprendizaje o entrenamiento y la fase de prueba.

En la fase de entrenamiento se trata de determinar los pesos usando un conjunto de datos para definir el modelo neuronal. Una vez entrenado este modelo en la fase de prueba, se procesarán los patrones que constituyen la entrada habitual de la red, analizando así las prestaciones finales de la red.

· Fase de prueba. Los parámetros de diseño de la red neuronal se han obtenido unos patrones representativos de las entradas, a los que denominamos patrones de entrenamiento.Según el tipo de red, y en función de las ecuaciones dinámicas de prueba, los resultados pueden ser calculados de una vez o adaptados iterativamente. Para validar el diseño, una vez calculados los pesos, se comparan los valores de las neuronas de la última capa con la salida deseada.

· Fase de aprendizaje. Una característica básica de las ANNs es su capacidad de aprender. Aprenden por su actualización o cambio de los pesos sinápticos que caracterizan a las conexiones. Los pesos se adaptan de acuerdo a la información extraída de los patrones de entrenamiento nuevos que se van presentando.

Según el tipo de entrenamiento, una posible clasificación de las ANNs es:

16

Redes NeuronalesFIJO NO SUPERVISADO SUPERVISADO Red de Hamming PerceptrónRed de Hopfield Mapa de Características Basadas en Decisión

AprendizajeCompetitivo

ADALINE (LMS) Perceptrón Multicapa Modelos Temporales DinámicosModelos Ocultos deMarkov

2.3 Estructura de las Redes Neuronales Artificiales

Los aspectos más característicos de las estructuras de redes son: la estructura de conexión, el tamaño de la red y la elección entre ACON y OCON.

2.3.1 Estructuras de conexión

Una red neuronal se determina por la neurona y la matriz de pesos. El comportamiento de la red depende en gran medida del comportamiento de la matriz de pesos. Existen tres tipos de capas de neuronas: la de entrada, la de salida y las ocultas. Entre dos capas de neuronas existe una red de pesos de conexión, que puede ser de los siguientes tipos:

- Conexión hacia delante: es la de red de Conexión en la cual, los datos de las neuronas de una capa inferior son propagados hacia las neuronas de la capa superior.- Conexión hacia atrás: esta Conexión realiza la operación inversa a la Conexión hacia delante, es decir, los datos de las neuronas de una capa superior son llevados a otra de capa inferior.- Conexión lateral: un ejemplo típico de este tipo de Conexión es “el ganador toma todo”, que cumple un papel importante en la elección del ganador.- Conexión de retardo: es la conexión en la cual se le incorporan unos elementos de retardo para implementar modelos dinámicos y temporales, es decir, modelos que precisa memoria.

Puede darse el caso que las redes sean de una capa, y su modelo de pesos sea hacia atrás o bien multicapa hacia delante. Como también es posible, conectar varias redes de una sola capa para dar lugar a redes más grandes.

2.4 Tamaño de las redes

El tamaño de las redes depende del número de capas y del número de neurona ocultas por capas.Para conocer el número de capas de neuronas, a menudo se cuenta a partir del número de capas de pesos, debido a que en una red multicapa existen una o más capas de neuronas ocultas.

17

El número de neuronas ocultas está directamente relacionado con las capacidades de la red, debido a que un comportamiento correcto de la red viene determinado por el número de neuronas de la capa oculta.

Elección entre ACON y OCON

Típicamente, cada nodo de salida se usa para representar una clase.La elección entre una arquitectura “All-Class-in-One-Network” (ACON) o “One-Class- in-One-Network” (OCON), depende de las necesidades de nuestra aplicación, debido a que cada arquitectura posee diferentes características. La aproximación ACON se caracteriza por tener todas las clases reconocidas dentro de una super red, en cambio, la aproximación OCON se caracteriza por tener una subred para cada salida. En algunos casos es ventajoso descomponer la super red de ACON en varias subredes más pequeñas. Por ejemplo, una red de 36 salidas se puede descomponer en 12 subredes, cada una responsable de tres salidas.Las dos estructuras difieren claramente en tamaño y rapidez. Aunque el número de subredes en la estructura OCON es relativamente largo, cada subred individual tiene un tamaño menor que la red ACON. Esto se puede explicar con las figuras 3.1 y 3.2 de la página siguiente:

Imagen 3.1 e Imagen 3.2 Redes Supervisadas i No Supervisadas

La conclusión a la que se llega, es que la estructura OCON parece ser que aventaja a la ACON en la rapidez de reconocimiento y entrenamiento, cuando el número de clases es grande.

18

2.5 Tipos de modelos de Redes Neuronales

2.5.1 Métodos de aprendizaje. Clasificación generalLa clasificación general sería la siguiente:

Aprendizaje Supervisado. Basadas en la decisión.De Aproximación/Optimización. Aprendizaje No Supervisado. Entrenamiento Competitivo. Redes asociativas de pesos fijos.

Todos estos métodos de aprendizaje, necesitan unas reglas de entrenamiento específicas para cada uno de ellos. Ahora pasaremos a comentar los diferentes tipos de entrenamiento.

2.5.2 Aprendizaje supervisado

En el aprendizaje supervisado (aprender con un maestro), la adaptación sucede cuando el sistema compara directamente la salida que proporciona la red con la salida que se desearía obtener de dicha red.Existen tres tipos básicos: por corrección de error, por refuerzo y estocástico.En el aprendizaje por corrección de error el entrenamiento consiste en presentar al sistema un conjunto de pares de datos, representando la entrada y la salida deseada para dicha entrada (este conjunto recibe el nombre de conjunto de entrenamiento). El objetivo es minimizar el error entre la salida deseada y la salida que se obtiene.

El aprendizaje por refuerzo es más lento que el anterior. No se dispone de un ejemplo completo del comportamiento deseado pues no se conoce la salida deseada exacta para cada entrada sino que se conoce el comportamiento de manera general para diferentes entradas. La relación entrada-salida se realiza a través de un proceso de éxito o fracaso, produciendo este una señal de refuerzo que mide el buen funcionamiento del sistema. La función del supervisor es más la de un crítico que la de un maestro.

El aprendizaje estocástico consiste básicamente en realizar cambios aleatorios de los valores de los pesos y evaluar su efecto a partir del objetivo deseado.

2.5.3 Reglas de entrenamiento Supervisado

Las redes de entrenamiento supervisado han sido los modelos de redes más desarrolladas desde inicios de los diseños de redes. Los datos para el entrenamiento están constituidos por varios pares de patrones de entrenamiento de entrada y de salida. El hecho de conocer la salida implica que el entrenamiento se beneficia de la supervisión de un maestro. Dado un nuevo patrón de entrenamiento, por ejemplo,(m+1)- ésimo, los pesos serán adaptados de la siguiente forma:

ijw

( m )1

ijw

( m ) ( m ) ijw

19

Se puede ver un diagrama esquemático de un sistema de entrenamiento Supervisado en la siguiente figura:

Imagen 4.1 Entrenamiento Supervisado

2.5.4 Aprendizaje supervisado basado en la DecisiónEn la regla de entrenamiento basada en la decisión, se actualizan los pesos sólo cuando se produce un error en la clasificación. Esta regla de entrenamiento es localizada y distributiva, además comprende el aprendizaje reforzado y la subred correspondiente a la clase correcta y el entrenamiento antirreforzado en la subred ganadora.

Puesto que el límite de decisión depende de la función discriminante x, w

, es natural

ajustar el límite de decisión ajustando el vector de los pesos w tanto en la dirección del gradiente de la función discriminante (es decir, entrenamiento reforzado) o en la dirección contraria (entrenamiento antirreforzado), más adelante definiremos estos tipos de entrenamiento.

w ﾱ x, w

donde es una tasa de entrenamiento positiva.

El vector gradiente de la función con respecto a w se denota:

x w,

ﾶ

x w,

￩

ﾶ￪

T,..., ﾶ

ﾶw ￫ wﾶ 1

ﾶwN

2.5.4.1 Regla de entrenamiento basada en la decisión

Supongamos que S x ( )1 ,..., x ( M ) es un conjunto de patrones de entrenamiento, cada

uno corresponde a una de las L clases i , i ,...,1

L . Cada clase se modela por una

subred con función discriminante, digamos, x, iw

i ,...,1

L . Supongamos que el patrón de

entrenamiento m-ésimo x ( m) se sabe que pertenece a la clase

i y

x ( m) , w( m ) x ( m ) , w(

m ) ,jl ﾹ

j l

Esto es, la clase ganadora para el patrón es la clase (subred) j-ésima.

Cuando j=1, entonces el patrónninguna actualización.

x ( m ) es clasificado correctamente y no se necesita

Cuando j ﾹ i , esto es,x ( m ) es mal clasificado, entonces se realiza lo siguiente:

Entrenamiento reforzado: i

( m

)1wi

iw

m

x, w

Entrenamiento antirreforzado: ( m )1

w j

m w j

x, w j

En la regla de entrenamiento reforzado, el vector de pesos w se mueve a lo largo de la dirección positiva del gradiente, así que la función del valor discriminante aumentará, aumentando la posibilidad de la selección del futuro patrón. El entrenamiento antirreforzado mueve w a lo largo de la dirección negativa del gradiente, así que el valor de la función discriminante disminuirá, disminuyendo así la posibilidad de su futura elección.

x, lw

z Twl

Entonces el gradiente en la fórmula de actualización, es simplemente

ﾶ zﾶw

Que nos lleva a la regla del perceptrón lineal.

Función de base lineal. Una función discriminante RBF es una función de radio entre elpatrón y el centroide, :x lw

,

2x wl

x lw 2

Se usa para cada subred l. Así que el centroide lw más cercano al patrón actual es el ganador. Al aplicar la fórmula del entrenamiento basado en la decisión a la última

ecuación y notando quepueden derivar:

x, w

x w , las siguiente reglas de entrenamiento se

Entrenamiento reforzado: ( m )1

wi

iw

( m ) ( m )x w

j

Entrenamiento antirreforzado: ( m )1

w j

( m ) w j

( m )x w j

21

, x lw

N

￥

k 1

lk xk ikw

i2

2.5.4.2 Estructura jerárquica DBNN.

Si una subred se modela como una red de una sola capa, esta red será inadecuada en general para tratar con límites de decisión complejos. Para obtener una flexibilidad máxima para tratar con límites de decisión no lineales, se utiliza una estructura jerárquica DBNN. La DBNN se caracteriza por su función de base, así como por la estructura jerárquica. La DBNN combina la regla de aprendizaje del perceptrón y la estructura jerárquica.

La función de base. Para dar consciencia al esquema de índices de la estructura jerárquica, etiquetamos el nivel de subred por el índice l y la etiqueta del nivel de

subnodo por el índice kl . De una forma más elaborada, la función discriminante para la

subred l se denota por ( x, lw ) . Para el nivel más bajo, la función discriminante para el

subnodo l se denota por i x, wkl

de subnodos de la subred l.

donde el entero kl ￎ ,...,1

kl , y kl denota el número

Las funciones de base más comunes, para los subnodos incluyen unas funciones de base lineales LBF’s (Linear Basis Functions), funciones de base radiales RBF (Radial Basis Functions), y funciones de base elípticas EBF (Elliptic Basis Function).

Hay diferentes estructuras como son:

- Nodo Oculto DBNNsUna aproximación sencilla es la estructura de nodo oculto dibujada en la figura. En la estructura de nodo oculto, la función discriminante no lineal se modela por una suma de varios nodos ocultos. Por ejemplo, un modelo de dos capas se puede representar cada subred. En este caso, una subred consiste en múltiples nodos ocultos, cada uno

representado por una función i x, wkl

. La función discriminante de la subred es una

combinación lineal de los valores de los subnodos. La función discriminante de este tipo, con la apropiada función de base, puede aproximar cualquier función. Esto permite que la estructura adquiera una potencia de aproximación universal para acomodar casi cualquier límite de decisión complejo.

-Subcluster DBNNs.Constituyen una alternativa a usar la suma escalada de los pesos de los nodos en la estructura de los nodos ocultos. Esta nueva alternativa usa la aproximación de “el ganador se lleva todo” (winner-take-all). Esto es, sólo el peso superior más representativo tiene un peso de l y todos los demás tienen peso cero.

Para la estructura jerárquica del subcluster, introducimos las nociones del ganador localy ganador absoluto. El ganador local es el ganador de entre los subnodos dentro de lamisma subred. El ganador local de la subred l está indexada por sl , esto es

ls arg max l x, lw

22

Un patrón se clasifica dentro de la clase j-ésima si la subred j-ésima es la ganadora absoluta.-Algoritmo:

Supongamos que varios subclasificadores se usan para representar una clase con si s j, ,

etc, representando los ganadores locales. Supongamos que el patron x ( m ) debepertenecer a la clase i , pero la subred j-ésima se selecciona como la ganadora

x ( m ) se clasifica mal, entonces se actualiza lo siguiente:absoluta. Cuando i , esto es

Aprendizaje reforzado: ( m )1wsi

( m ) w si

x, wsi

Aprendizaje no reforzado: sj( m )1

wsj

( m ) w sj

x, w

En otras palabras, el aprendizaje antirreforzado se aplica al subclasificado que gana localmente dentro de la subred que gana de manera absoluta; y el aprendizaje reforzado se aplica al ganador local dentro de la clase ganadora. Esto es, estas estructuras jerárquicas se pueden acomodar para clasificar límites de decisión complejos,

actualizándose únicamente los sublasificadores seleccionados en las subredes. Imagen 4.2 Subcluster DBNNs

2.5.4.3 Redes Neuronales de Aproximación/Optimización

La formulación basadas en la aproximación se pueden ver como una aproximación/regresión para el conjunto de datos entrenados. Los datos para el entrenamiento se dan en pares de entrada/maestro, que denotaremos por X ,T

x ,1 t1 ,..., xm, tm , donde M es el número de patrones de entrenamiento. Los

valores deseados en los nodos de salida correspondientes a los patrones de entradax ( m )

los llamaremos maestros. El objetivo del entrenamiento de la red es encontrar los pesos óptimos para minimizar el error entre los valores del maestro y las salidas de respuesta actual. Un criterio popular es minimizar los errores cuadráticos medios entre el maestro y la salida actual. Para adquirir una capacidad de aproximación no lineal, se usan frecuentemente las redes multicapa, junto con el algoritmo de Backpropagation.

La función que representa el modelo es función de las entradas y de los pesos:y x, w

, si asumimos que hay una única salida. En la formulación básica del modelo

23

de aproximación, el procedimiento implica el encontrar los pesos que minimizan el error cuadrático medio (least-squares-error) LMS como función de energía:

E x, w

t x, w

2 . El vector de pesos w se puede adaptar para ir minimizando la

función de energía a lo largo de la dirección de descenso del gradiente:

w E

x wt x w

ﾶ x w

, ﾶ ,

,ﾶwﾶw

En la fase de prueba, la célula que gana a la salida es la célula que da la máxima respuesta al patrón de entrada.

2.5.5 Modelos No Supervisados

La capacidad de clasificación de la red neuronal depende del valor de los pesos sinápticos, que pueden ser preestablecidos o entrenados adaptativamente mediante mecanismos de aprendizaje.Una clase de modelos de entrenamiento no supervisado son las redes de pesos fijos. Un ejemplo son las redes de Memoria Asociativa, que se usan para obtener patrones originales libres de ruido a partir de señales incompletas o distorsionadas. La principal característica de las redes asociativas de pesos fijos es que sus pesos son preestablecidos y precalculados.

Los modelos de pesos fijos tienen aplicaciones limitadas ya que no se pueden adaptar a“ambientes cambiantes”. Hay otra variedad de redes no supervisadas, llamadas Redes de Aprendizaje Competitivo, cuyos pesos se adaptan de acuerdo con reglas de aprendizaje no supervisadas. Estas redes, pueden aprender en ausencia de un maestro, como ya hemos mencionado anteriormente. En otras palabras, el entrenamiento se basa únicamente en la información de los patrones de entrada, no necesitan la supervisión de un maestro a la salida. La clase de las redes de aprendizaje competitivo se compone, por ejemplo, de Red de autoorganización.

2.5.5.1 Reglas de entrenamiento No SupervisadoPara los modelos de entrenamiento No Supervisado, el conjunto de datos de entrenamiento consiste sólo en los patrones de entrada. Por lo tanto, la red es entrenada sin el beneficio de un maestro. La red aprende a adaptarse basada en las experiencias recogidas de los patrones de entrenamiento anteriores. Este es un esquema típico de un sistema No Supervisado:

24

Ejemplos típicos son La Regla de Aprendizaje de Hebb, y la Regla de AprendizajeCompetitiva.

2.6 Aprendizaje competitivo

Una red básica de aprendizaje competitivo tiene una capa de neuronas de entrada y una capa de neuronas de salida. Un patrón de entrada x es un simple punto en el espacio real o binario de vectores n-dimensional. Los valores binarios (0 o 1) de representación local son más usados en los nodos de salida. Esto es, hay tantas neuronas de salida como números de clases y cada nodo de salida representa una categoría de patrones.

Una red de aprendizaje competitivo está formada por una(s) red(es) excitadora hacia delante y la(s) red(es) inhibidora(s) lateral(es). La red hacia delante normalmente implementa una regla de excitación de aprendizaje de Hebb. Esta regla consiste en que cuando una neurona participa constantemente en activar una neurona de salida, la influencia de la neurona de entrada es aumentada. La red lateral es inhibidora por naturaleza. Esta red realiza la misión de seleccionar el ganador, normalmente por medio de un método de aprendizaje competitivo, de entre los que podemos reseñar el esquema de winner-take-all. En un circuito “winner-take-all”, la neurona de salida que da el valor más alto se le asigna el valor total (por ejemplo 1), mientras que a las demás se le da un valor de 0. El circuito de “winner-take-all” se implementa por una red (digital o analógica). Otro ejemplo de una red lateral son los mapas de Kohonen. Se deja que las neuronas de salida interactuen por medio de la red lateral, con lo que el modelo se puede entrenar para guardar cierto orden topológico.

Los procedimientos de clasificación no supervisados se basan a menudo en algunas técnicas de clasificación, que forman grupos de patrones parecidos. Esta técnica de clasificación es muy útil para la clasificación. Además, juega un papel muy importante en las redes de aprendizaje competitivo. Para un procedimiento de clasificación, es necesario definir una distancia o medida de similaridad, para evaluar el grado de semejanza de los patrones. Algunas de estas distancias están en la siguiente lista, y entre ellas la más común es la distancia euclidea.

Producto interno:

xi , x j

Tﾺ xi x j ﾺ xi

jx cos xi , x j

Distancia Euclidea con Pesos:

,

ﾺ￥ 2

d xi x j ix kk

jx k

Redes de aprendizaje competitivo básicas.

Sin la supervisión de ningún maestro, las redes no supervisadas adaptan los pesos y verifican los resultados únicamente a partir de los patrones de entrada. Un esquema que se usa mucho para la adaptación de los pesos es la regla de aprendizaje competitivo, que hace que las células compitan por el derecho a responder por ellas mismas por un determinado tipo de entrada. Esto se puede ver como un sistema muy sofisticado de

25

clasificación, cuyo objetivo es dividir un conjunto de patrones de entrada en un número de clases, tal que los patrones de entrada en un número de clases tal que los patrones de la misma clase exhiben un cierto grado de similaridad. Las reglas de entrenamiento suelen ser la regla de Hebb para la red de propagación y la regla de “winner-take-all”(WTA) para la red lateral.

Modelo básico de Aprendizaje.

Un sistema de este tipo consiste en redes laterales y de propagación hacia delante con un número fijo de nodos de salida, esto es, un número fijo de clases. Los nodos de entrada y salida tienen valores binarios únicamente. Cuando y sólo cuando los dos, la

entrada ith y la salida jth están activadas Cij 1; de otra forma xi k

1 . Dado el valor

de los pesos sinápticos i con la salida j, wij, y el estímulo k-th, una posible regla de aprendizaje es:

g ￩ xi

￬ k ijw

￫￪￭ nk0￮

ijw si y solo si Cij

otros casos

1�

donde g es una pequeña constante, nk es el número de unidades de entradas activas delpatrón k, xi

k 1 si la señal de entrada i es alta para el patrón k-th y en otro caso

xi k

0 .

Reglas de entrenamiento basadas en pesos normalizados.

Con el fin de asegurar un ambiente de competición equitativo, las sumas de todos los pesos que van a dar las neuronas de salida deben estar normalizados. Si los pesosconectados a un nodo de salida j son

g ￩ x ￬ ki

xi k

1 1 , entonces ￥ ijwi

wij ￫

k

￭ n￪

wij si j gana sobre el estímulo k�

0￮ si j pierde sobre el estimulo k

Entonces, si una unidad gana la competición, cada una de sus líneas de entrada cede una proporción g de su peso, y la l distribuye igualmente entre las líneas de entrada activas.

Una característica importante de esta regla de entrenamiento es que la normalización es incorporada en el momento de la actualización, de forma que la suma de los pesos sinápticos a cualquier salida es 1.

Reglas de aprendizaje para “Leaky Learning” (aprendizaje débil).

Con el fin de preveer la existencia de neuronas que no aprenden en totalidad, se usa el aprendizaje débil. Puesto que una neurona sólo aprende si gana en algún momento, es posible que una célula nunca gane, y por lo tanto nunca aprenda. Una forma de solucionar este problema es que todos los pesos de la red intervengan en el

26

entrenamiento con distintos niveles de aprendizaje. Esto se practica en la siguiente regla de aprendizaje débil:

g￬￩ xi k

ijw

l ￪￫ nk￭

ijw si j gana sobre el estimulo k�

￩ xi k

g ￪w￮

ijw

si j pierde sobre el estímulo k

￫ nk

En esta regla el parámetro g l es unas órdenes de magnitud más pequeño que xi k

0 .

Por lo tanto, las neuronas que pierden en la competición sufren un aprendizaje menor que las neuronas ganadoras. Este cambio tiene la propiedad de que las neuronas perdedoras se van desplazando hacia la región donde yace el estímulo actual, donde empiezan a capturar algunas unidades, superando a las técnicas dinámicas convencionales.

2.7 Modelos de Redes Neuronales

2.7.1 Modelos supervisados

2.7.1.1 Perceptron

Un Perceptrón unicapa no es más que un conjunto de neuronas no unidas entre sí, de manera que cada una de las entradas del sistema se conectan a cada neurona, produciendo cada una de ellas su salida individual: Un Perceptrón unicapa no es más que un conjunto de neuronas no unidas entre sí, de manera que cada una de las entradas del sistema se conectan a cada neurona, produciendo cada una de ellas su salida individual:

Imagen 5.1 Modelo de Perceptron

Como ya hemos dicho, un conjunto de neuronas no sirve para nada si previamente no le enseñamos qué debe hacer. en el Perceptrón podemos utilizar los metodos que conocemos: Supervisado, Por Refuerzo y No Supervisado.

En el Aprendizaje Supervisado se presentan al Perceptrón unas entradas con las correspondientes salidas que queremos que aprenda. De esta manera la red primeramente calcula la salida que da ella para esas entradas y luego, conociendo el

27

error que está cometiendo, ajusta sus pesos proporcionalmente al error que ha cometido(si la diferencia entre salida calculada y salida deseada es nula, no se varían los pesos). En el Aprendizaje No Supervisado, solo se presentan al Perceptrón las entradas y, para esas entradas, la red debe dar una salida parecida.En el Aprendizaje Por Refuerzo se combinan los dos anteriores, y de cuando en cuando se presenta a la red una valoración global de como lo está haciendo.

2.7.1.2 El Perceptrón multicapa

Esta estructura nació con la intención de dar solución a las limitaciones del Perceptrón clásico o unicapa, y supuso el resurgimiento del movimiento conexionista. Como su nombre indica, se trata de un unos cuantos (dos o tres) perceptrones unicapa conectados en cascada, como en la imagen 5.2.El problema de este tipo de Perceptrón está en su entrenamiento, ya que es difícil modificar correctamente los pesos de la capa oculta (la capa 1 en el ejemplo anterior). Para poder hacer aprender cosas a un Perceptrón de este tipo, se implementó el algoritmo de BackPropagation, que tal como su nombre indica tiene la función de ir propagando los errores producidos en la capa de salida hacia atrás.

Imagen 5.2 Modelo de Perceptrón Multicapa

Capacidad representacional

Redes con alimentación hacia delante (no recurrentes) y sin capas ocultas (Rosenblatt) Cada unidad de salida es independiente de las otras ya que cada peso afecta sólo a una salida. Se puede construir cualquier multi-perceptron a partir de perceptrones de una salida Pueden representar funciones booleanas complejas. Ej: una función que detecta si más de la mitad de sus n entradas están a 1, se representan con un perceptron con todos los pesos a 1 y Sólo pueden representar funciones linealmente separables .

Un ejemplo práctico de un Perceptrón multicapa podría ser su uso en visión artificial. Dada su capacidad para generalizar, las redes neuronales ya han demostrado su importáncia en este campo. El unico problema és la lentitud que tiene para aprender.

2.7.1.3 Adaline y Madaline

Este es otro de los modelos pioneros de las ANNs i el mas simple a la hora de aproximar. se basa en el criterio del error cuadràtico médio line i fué introducido por Widrow. ADALINE sigue siendo de una sola capa como el perceptron, con la unica diferència de la función de transferencia lineal(imagen 5.3)

28

El método de entrenamiento que adopta este modelo és el de adaaptación a los datos i se basa en el algoritmo de descenso del gradiente.

Imagen 5.3 Función de transferéncia lineal

2.7.1.4 Backpropagation

El aprendizaje con redes de neuronas se realiza actualmente siguiendo el enfoque de la Retropropagación de Gradiente Backpropagation y el de los algoritmos constructivos. El primero necesita introducir a priori el número y conexiones de las unidades ocultas, y determinar los pesos por minimización de un costo. La red así obtenida es eventualmente simplificada eliminando unidades y/o conexiones que parecen inútiles.

El principal defecto de este enfoque consiste en la búsqueda de la mejor arquitectura a través de prueba y error. Por otra parte, con un enfoque constructivo se aprende al mismo tiempo el número de unidades y pesos, en el marco de una arquitectura que comienza generalmente con un perceptron. La característica de estos algoritmos es que construyen una RN adaptada a cada problema particular, usando la información contenida en el conjunto de aprendizaje y evitando rediseñar la arquitectura. El primer algoritmo constructivo fue el algoritmo Tiling, de ahí surgieron Cascade Correlation, el algoritmo Upstart, Offset y GAL entre otros. Monoplan y NetLines son dos algoritmos recientemente introducidos por el autor. De aquí en adelante, nuestra discusión será basada únicamente en los métodos constructivos.

Una vez construida la red, ésta debe ser capaz de predecir la clase de datos nuevos que no estén presentes en el conjunto de aprendizaje. La calidad del algoritmo de aprendizaje se traduce en la capacidad de predicción de la RN. Esta calidad se mide a través del error de generalización, que es la proporción de clasificaciones correctas realizadas por la red sobre nuevos datos. Esta cantidad se mide empíricamente sobre una serie de problemas estándar (benchmarks) que sirven de prueba.

2.7.1.5 Otros Modelos

Dentro de los supervisados encontramos diversos modelos como los descritos brevemente a continuación:

Time Delay NN: Red multicapa feddforward donde las salidas de cada capa estan retenidas durante un tiempo, conectandose todas a la vez a la siguiente capa. La aplicación donde más se encuentran estas redes es en las tascas de reconociemeto optico.Probabilistic NN: Red de tres capas, que en su forma standar no entrena. El aprendizaje se realiza similar a la red de Hamming. Su mayor ventaja és que no necesita entrenamiento i la mayor desventaja que sus matrices son muy largas.Generalized Regresion NN: Red que por lo general no necesita un entrenamiento iterativo , se utiliza en problemas de clasificación o estimación de variables continuas.

29

2.7.2 Modelo No Supervisado

2.7.2.1 Redes de Hopfield

El modelo Hopfiel consiste de una red monocapa con N neuronas cuyos valores de salida son binarios 0/1 ó -1/+1. En la versión original del modelo Discrete Hopfield, las funciones de activación de las neuronas eran del tipo escalón. Se trataba, por lo tanto, de una red discreta con entradas y salidas binarias; sin embargo, posteriormente Hopfield desarrolló una versión continua con entradas y salidas analógicas utilizando neurnas de activación tipo sigmiodal.

Una de las características del modelo de Hopfield, es que se trata de una red auto- asociativa. Así como, varios patrones diferentes pueden ser almacenados en la red, como si se tratase de una memoria, durante la etapa de aprendizaje. Posteriormente, si se presenta a la entrada alguna de las informaciones almacenadas, la red evoluciona hasta estabilizarse, ofreciendo entonces en la salida la información almacenada, que coincide con la presentada en la entrada. Si , por el contrario, la información de entrada no coincide con ninguna de las almacenadas, por estar distorsionada o incompleta, la red evoluciona generando como salida la mas parecida.

El funcionamiento de la red Hopfield se puede expresar en dos pasos:En el instante inicial se aplica la información de entrada, la salida de las neuronas coincide con la información aplicada a la entrada.

La red realiza iteraciones hasta alcanzar la convergencia (hasta que Si(t+1) sea igual aSi(t)). Si(t+1)=f ( ? Wji Sj(t) - ?i ) 1 < i < nDonde f es la función de transferencia (activación) de las neuronas de la red. En el caso del modelo continuo existen dos funciones de activación de tipo sigmoidal. Si se trabaja con valores entre -1 y +1, la función que se utiliza es la tangente hiperbólica.

f (x-?i ) = tgh ( ? ( x-?i ) )

Si el rango es entre 0 y 1, se utiliza la misma función que para la red Backpropagation. f (x-?i ) = 1/(1+ e-?(x-?i))

En ambos casos, ?es un parámetro que determina la pendiente de la función sigmoidal. El proceso se repite hasta que las salidas de las neuronas permanecen si cambios durante algunas iteraciones. En ese instante, la salida representa la información almacenada por la red que mas se parece a la información presentada en la red.

La red Hopfield continua ofrece mas posibilidades que la discreta, ya que permite almacenar patrones formados por valores reales (por ejemplo, imágenes en color o en blanco y negro con diferentes tonalidades de gris) y además facilita la resolución de determinados problemas generales de optimización.Por ejemplo, el problema del vendedor viajero, la bipartición de grafos, el problema del emparejamiento ponderado, en todos los casos se reduce el tiempo de resolución.

30

En el caso de un reconocimiento de imágenes en una red Hopfield discreta seria mas difícil trabajar con imágenes con tonos de grises o a colores, siendo que para una red Hopfield continua es mas sencillo.

2.7.2.2 Los mapas de Kohonen

Dentro de las RNA se pueden crear dos grandes grupos en función del tipo de supervisión de su aprendizaje. Si la red recibe información sobre si su funcionamiento es correcto o incorrecto, basándose en alguna medida de error entre la salida de la red y la salida deseada, entonces estamos hablando de sistemas supervisados. Si por el contrario la red no recibe ningún tipo de información entonces hablamos de sistemas no supervisados. En este último grupo los modelos buscan a partir de unos datos extraer propiedades, características, relaciones, regularidades, correlaciones o categorías existentes en ellos. Los mapas de Kohonen que se utilizarán en este trabajo son un tipo de red no supervisada. Una propiedad del cerebro es que las neuronas están ordenadas significativamente. Esto implica que estructuras idénticas en el cerebro funcionan de forma diferente debido a su diferente topología cerebral. Otra propiedad básica es la inhibición lateral. Cuando una neurona se activa, ésta produce un estado excitatorio en las células más cercanas y un efecto inhibitorio en las más lejanas. La función que recoge este proceso de excitación-inhibicion en las células tiene la forma de un sombrero mexicano.

Imagen 5.5 Función de Excitación-Inhibición

En 1982 Kohonen (Kohonen 1982, 1995) propuso el "kohonen's Feature Map", modelo que pretendía integrar las características de los modelos biológicos. Este nuevo modelo consiste en una Red Neuronal de dos capas, la primera de las cuales es una capa de entrada y la segunda es una "capa de competición". Las células de ambas capas están conectadas entre sí, de tal forma que una célula de la capa de entrada conecta con las de la capa de competición. Estas conexiones son ponderadas, es decir, el estímulo excita la capa de entrada, teniendo ambos la misma dimensión.

31

Imagen 5.6 Mapa de Kohonen

Representaremos el estímulo mediante el vector {e1, e2,..., en}, siendo {t1, t2,..., tn} el vector que representa la salida de la capa de competición, representando igualmente las conexiones entre la primera capa y la segunda mediante {m1, m2,..., mn}. De tal forma podríamos definir la salida mediante la siguiente ecuación:

De tal forma que cada conjunto ordenado {m1, m2,..., mn} sea una imagen que comparamos con {e1, e2,..., en}. Por tanto, la Red deberá adaptar sus parámetros para que cada unidad esté especialmente sensibilizada a un dominio de la señal de entrada en orden regular. Para hacer esta comparación podemos utilizar diversas medidas de distancia, como por ejemplo la anteriormente utilizada en la que se utilizó el producto escalar de dos vectores, y también podríamos utilizar la distancia euclídea entre vectores, de tal forma si tenemos

entonces calcularemos

siendo la medida de distancia utilizada.Por tanto, se trata de presentar un estímulo, el cual se propaga por la Red dependiendo de la función de distancia utilizada, y finalmente consideraremos como mejor célula(célula ganadora) a aquella que produzca menor señal en la capa de competición. Llegados a este punto es necesario generalizar este proceso a estímulos similares para lo cual empleamos una regla de aprendizaje tipo Hebb, reforzando más aquellas unidades que hayan respondido en mayor grado al estímulo, proporcionalmente al valor del mismo. Todo lo cual puede expresarse mediante:

donde a(t) es una función de "olvido" que decrece con respecto al tiempo, y una función de umbral de salida G(x). Esta función es inversamente proporcional a la respuesta de las células, ya que ésta será máxima para células con una respuesta mínima y a la inversa, mínima para células con respuesta máxima. Por tanto, aplicamos la función G a la salida de las células de la capa de competición para así poder obtener una respuesta mayor a estímulos que se aproximen más a los almacenados en las conexiones y viceversa.

32

Podemos discretizar la ecuación anterior, para ello utilizaremos un "vecindario" Nc(Si) de la célula c, el cual se define como el conjunto de aquellas células que estén a menos de una distancia Si de c; dicha distancia es discreta, por lo que debemos definir para cada célula una serie de conjuntos Nc(S1), Nc(S2), Nc(S3) ....

Mediante este vecindario podemos definir la ordenación topológica de las células del sistema, lo cual equivaldría a las conexiones laterales del modelo de interacción lateral. Los vecindarios nos permiten definir las reglas de modificación sináptica, lo cual confiere a este modelo cierta similitud con el córtex cerebral.

Del mismo modo el vecindario nos permitiría definir la función a de olvido, tanto de forma continua como discreta, cuyo valor disminuiría con la distancia a la célula i, para la que calcularemos los nuevos pesos.

Además la función G(ti) se puede hacer igual a ti cuando i pertenezca a Nc e igual a cero en caso contrario, quedando la ecuación anterior

para i Î Nc

para i Ï Nc

Podremos, por tanto, definir un espacio alrededor de la célula ganadora, en el cual se incrementarán las eficacias sinápticas de las células. Dicho incremento sería igual para todas las células del vecindario y no existirá dicho incremento en las células externas a dicho vecindario.

Para evitar que los estímulos que se presenten en primer lugar tengan mayor relevancia que los últimos presentados, el valor a irá disminuyendo a lo largo del tiempo, y debe cumplir las siguientes inecuaciones:

Esto mismo se aplica al vecindario, es decir, en un principio elegimos un vecindario grande y vamos decrementándolo hasta llegar a la unidad.

Si utilizamos la distancia euclídea como medida de similaridad entre vectores la ecuación sería la siguiente:

Y la actualización de los pesos:

para i Î Ncsiendo en caso contrario

2.7.2.3 Redes basadas en la teoría de la resonancia adaptativa

33

En los esquemas de aprendizaje competitivo no existe garantía explicita sobre la estabilidad de los grupos de patrones de entrada durante el proceso de decrecimiento del factor de aprendizaje en las sucesivas iteraciones. Las redes basadas en la teoría de la resonancia adaptativa vienen a solucionar este problema.En este tipo de redes, los vectores de pesos del elemento de procesado seleccionado como ganador sólo se actualizan con los patrones de entrada se "resuenan" con estos, es decir, si son "suficiente similares". Si no son "suficientemente similares" se genera un nuevo elemento de procesado cuyos pesos son precisanmente los del patrón de entrada utilizado. Evidentemente se hace necesario definir el concepto de "suficiente similaridad" que usualemente involucra un parametro de vigilancioa que lo controla.

2.7.2.4 Mapas autoorganizados de propiedades

Estos Mapas Autoorganizados son redes con entrenamiento no supervisado que transforman patrones de entrada p-dimensionales a mapas discretos q-dimensionales(usualmente q=1 o 2) con topología ordenada, es decir, mapas en los cuales patrones de entrada próximos corresponden a puntos del mapa discreto próximos. Cada celda del mapa de salida está representado por un elemento de procesado que lleva asociado un vector de pesos p-dimensional que se modifica durante el proceso de entrenamiento.

En el proceso de entrenamiento se localiza el mejor vector de pesos (usualmente en términos de distancia mínima) para cada una de las entradas y se modifica para ajustarlo a dicha entrada (usualmente este ajuste se expande para incluir los vecinos topológicos del mejor elemento de procesado en el mapa de salida). Cuando sólo se considera el ajuste del mejor vector de pesos, sin incluir sus vecinos topológicos, se habla de redes de Cuantización del Vector de Aprendizaje, que constituyen un caso particular de los Mapas Autoorganizados.

Los Mapas autoorganizados se han usado para generar mapas semánticos, realizar procesos de "clustering", particionar grafos, etc. Las redes de Cuatización del Vector de Aprendizaje se utilizan exclusivamente en procesos de "clustering" y compresión de imágenes,dado que no conservan la tipología de las entradas.

El tipo de esquema de aprendizaje utilizado en el cual los elementos de procesado compiten entre ellos para ganarse la actualización se denomina aprendizaje competitivo.

2.7.3 No supervisados Competitivos

2.7.3.1 Redes basadas en la teoría de la resonancia adaptativa

En los esquemas de aprendizaje competitivo no existe garantía explicita sobre la estabilidad de los grupos de patrones de entrada durante el proceso de decrecimiento del factor de aprendizaje en las sucesivas iteraciones. Las redes basadas en la teoría de la resonancia adaptativa vienen a solucionar este problema.En este tipo de redes, los vectores de pesos del elemento de procesado seleccionado como ganador sólo se actualizan con los patrones de entrada se "resuenan" con estos, es decir, si son "suficiente similares". Si no son "suficientemente similares" se genera un nuevo elemento de procesado cuyos pesos son precisanmente los del patrón de entrada

34

utilizado. Evidentemente se hace necesario definir el concepto de "suficiente similaridad" que usualemente involucra un parametro de vigilancioa que lo controla.

2.8 Aplicaciones

2.8.1 Redes vs. Metodos clásicos

En muchas areas donde existen problemas de predicción, clasificación, etc, existen soluciones que no estan basadas en redes neuronales pero que dan buenos resultados, o como mínimo mejores que el no hacer nada.

Frente a este tipo de problemas, donde ya existe dicha solución “clásica”, las redes pueden aportar su alta no linealidad y su gran facilidad en aportar datos adicionales, tanto numéricos, como borrosos y/o subjetivos, que en técnicas convencionales o medelos “clásicos” no son tenidos en consideración. Por lo tanto, se llega a la conclusión que la utilización de redes neuronales aporta soluciones más eficientes y seguras que las convencionales. El único dilema existente frente a este tipo de problemas con una solución clásica, es la elección entre dos modos distintos de utilizar las redes, es decir la utilización tipo a) o la tipo b).

Tipo a) Se basa en construir un red donde ya este incorporado el modelo“clásico”,añadir las nuevas variables que consideremos de interés y efectuar el aprendizaje de la red de tal modo que esta solo tenga que mejorar el resultado clásico con respecto al resultado deseado. De este modo nos aseguramos que el resultado de la red siepre sea mejor que el resultado clásico. Solo será igual a la resultado clásico, en el caso que las variables adicionales no aporten nada nuevo y no se necesario no utilizar la no linealidad de la red, dos condiciones que difícilmente se cumplen simultáneamente.

Tipo b) Se basa en construir una red sin incorporar el el modelo “clásico” pero añadiendo todas las variables adicionales que sean de interés. Esto no garantiza qu el resultado sea superior al “clásico” pero la experiencia acumulada hasta el momento demuestra que siempre es superior debido a que se utiliza la no linealidad de la red y/o las nuevas variables. Si en algún problema esto no fuera cierto, siempre podemos recurrir a la incorporación del modelo clásico en la red (tipo a).

2.8.2 Campos de aplicación

Las ANNs han sido aplicadas a un creciente numero de problemas con una complejidad considerable, como puede ser el reconocimiento de patrones, clasificación de datos, predicciones, etc.. Su ventaja más importante está en solucionar problemas que son demasiado complejos pata las técnicas convencionales, como se ha explicado en el punto 2.1.

Las aplicaciones de las ANNs abarcan diversas actividades de muy diferentes campos. Estos son:

·Finanzas

· Predicción de índices

35

· Detección de fraudes· Riesgo crediticio, clasificación· Predicción de la rentabilidad de acciones

Negocios

· Marketing· Venta cruzada· Campanas de venta

Tratamientos de texto y proceso de formas

· Reconocimiento de caracteres impresos mecánicamente.· Reconocimiento de gráficos· Reconocimiento de caracteres escritos a mano.· Reconocimiento de escritura manual cursiva.

Alimentación

· Análisis de olor i aroma· Perfilamiento de clientes en función de la compra· Desarrollo de productos· Control de calidad

Energía

· Predicción del consumo eléctrico· Distribución recursos hidráulicos para la producción eléctrica· Predicción consumo de gas ciudad

Industria manufacturera

· Control de procesos· Control de calidad· Control de robots

Medicina y salud

· Ayuda al diagnóstico· Análisis de imágenes· Desarrollo de medicamentos· Distribución de recursos

Ciencia e Ingeniería

· Análisis de datos i clasificación· Ingeniería Química· Ingeniería Eléctrica· Climatología

36

Transportes y comunicaciones

· Optimización de rutas· Optimización en la distribución de recursos

CAPITULO 3

ALGORITMOS GENETICOS

3.1 INTRODUCCION

El diseño, programación y gestión de redes de transporte y distribución de pasajeros y mercancías requiere, en general, considerar simultáneamente un gran número de restricciones, condicionantes y factores que afectan a la eficiencia y calidad del servicio prestado. La gran variedad de objetivos, recursos y restricciones que suelen tener los problemas reales de transporte y distribución hacen muy difícil su tratamiento con métodos de optimización exactos. En general son problemas cuyo espacio de soluciones crece factorialmente con el número de puntos de destino haciendo inviable la búsqueda determinista de solución con métodos exactos; por otro lado, existen una amplia variedad de métodos heurísticos y probabilísticos que no garantizan encontrar la solución óptima exacta pero que permiten rastrear razonablemente el espacio de soluciones aprovechando las particularidades de cada problema específico que se pretende resolver. En este contexto, los sistemas inteligentes son técnicas meta heurísticas (ver Díaz y otros, 1996) que pueden proporcionar herramientas robustas muy eficaces para el diseño y programación cuasi-óptimas de redes de transporte y distribución.

Entre los problemas tipo asociados a las redes de transporte y distribución podemos destacar: (1)TSP (clásico "Travelling Salesman Problem"), (2)VRP (clásico "VehicleRouting Problem"), (3)SVRP ("Stochastic Vehicle Routing Problem", ver Laporte et al.,1992), (4)CVRP ("Capacitance Vehicle Routing Problem", ver Campos y Mota, 1996) y(5)VRPTW ("Vehicle Routing Problem with Time Windows", ver Thangiah, 1995). En este artículo de describe una forma de utilizar un programa evolutivo general, originalmente preparado para resolver el TSP, en la resolución cómoda de problemas VRP, CVRP, SVRP y SCVRP. La facilidad con la que se adapta a los condicionantes de diferentes problemas sugiere la posibilidad de utilizarlo en la solución de tipos muy variados de problemas de redes de distribución.

Entre los sistemas inteligentes que están siendo utilizados con éxito en la solución de problemas de optimización no lineales complejos, los programas evolutivos en general, y los algoritmos genéticos (GA) en particular, presentan excelentes características de flexibilidad, robustez y adaptabilidad (ver Goonatilake & Treleaven, 1995) muy adecuados para atacar los complejos problemas combinatorios asociados a la optimización de sistemas y redes de transporte reales.

Entre otros, Whitley et al.(1996) ha demostrado que su operador genético "Edge Maped Recombination Operator" (EMRO) puede resolver con gran fiabilidad el TSP hasta 130 ciudades, mientras que Blanton & Wainwright(1993) han comparado diferentes algoritmos genéticos en la solución de un problema real de distribución de mercancías

37

del tipo VRPTW. El método de solución de VRPs con algoritmos genéticos que se presenta en este artículo está basado en dos operadores de cruzamiento y siete de mutación con asignación dinámica de probabilidades de operar dependiendo de las mejoras obtenidas en las últimas generaciones.

De los dos operadores de cruzamiento, uno está basado en la ordenación de ciudades y el otro en el de rutas (tipo EMRO) utilizando dos o más soluciones en el cruzamiento. El método se muestra eficiente y robusto en problemas generales no estructurados, si el número de clientes o ciudades no supera el centenar. Sin embargo, la principal ventaja del método propuesto es la flexibilidad para imponer condiciones o restricciones nuevas a la solución deseada y adaptarse así a los requerimientos dinámicos que suelen plantear los problemas de transporte reales.Para ilustrar el funcionamiento del método que se propone en la optimización de redes de distribución, se realiza una aplicación al supuesto de reparto de correo aéreo y paquetería entre 37 aeropuertos españoles. TSP se corresponde con minimizar la longitud de un único recorrido entre aeropuertos; VRP con minimizar la distancia total recorrida por las k (flota) aeronaves; CVRP con minimizar la distancia total de las k aeronaves sin que la carga máxima de ninguna sea excedida en ningún punto del recorrido y siendo diferentes la descarga y carga a realizar en cada aeropuerto, y SCVRP resuelve el CVRP considerando que las cargas/descargas y los tiempos de escala y velocidad de crucero son variables aleatorias.

3.2 CONCEPTOS BASICOS

Los algoritmos genéticos se encuadran dentro de la clase de algoritmos que presentan ciertas analogías con los procesos biológicos de la naturaleza. Están incluidos, por tanto, en el marco de la Bioinformática, área de especialización encargada de estudiar modelos y técnicas basándose en patrones biológicos y aprovechando las metodologías y técnicas informáticas. La bioinformática, trata de dar solución a una gran variedad de problemas de un amplio domino científico.Dentro de este campo, nos encontramos con la Computación Evolutiva, que es un enfoque alternativo para abordar problemas complejos de búsqueda y aprendizaje a través de modelos computacionales de procesos evolutivos. Las implementaciones concretas de tales modelos se conocen como algoritmos evolutivos.

El propósito genérico de los algoritmos evolutivos consiste en guiar una búsqueda estocástica haciendo evolucionar a un conjunto de estructuras y seleccionando de modo iterativo las más adecuadas.

La computación evolutiva parte de un hecho observado en la naturaleza: los organismos vivos poseen una destreza consumada en la resolución de los problemas que se les presentan, y obtienen sus habilidades, casi sin proponérselo, a través del mecanismo de la evolución natural. La evolución se produce, en casi todos los organismos, como consecuencia de dos procesos primarios: la selección natural y la reproducción sexual. La primera determina qué miembros de la población sobrevivirán hasta reproducirse (es un proceso sencillo: cuando un organismo falla una prueba de idoneidad, muere). La

38

reproducción sexual garantiza la mezcla y recombinación de genes en la descendencia de un organismo.

Las condiciones que determinan un proceso evolutivo en la naturaleza son:ﾷ Existe una población de entidades o individuos con capacidad para reproducirseﾷ Existe alguna diferencia o variedad entre estos individuosﾷ Esta variedad está relacionada con algunas diferencias en la habilidad para sobrevivir Después de enumerar estas características podríamos definir los algoritmos genéticos, de forma general, como "métodos estocásticos de búsqueda ciega de soluciones cuasi- óptimas. En ellos se mantiene una población que representa un conjunto de posibles soluciones, la cual es sometida a ciertas transformaciones con las que se trata de obtener nuevos candidatos, y un proceso de selección sesgado en favor de los mejores candidatos".

Decimos que la búsqueda es ciega porque no se dispone de ningún conocimiento específico del problema, de manera que la búsqueda se basa exclusivamente en los valores de la función objetivo. Es también una búsqueda codificada, ya que no se trabaja directamente sobre el dominio del problema, sino con representaciones de sus elementos; múltiple, porque busca simultáneamente entre un conjunto de candidatos; y estocástica, referida tanto a las fases de selección como a las de transformación, con lo que se obtiene control sobre el factor de penetración de la búsqueda.

Todo esto hace que los algoritmos genéticos proporcionen una mayor robustez a la búsqueda, esto es, más eficiencia sin perder generalidad.Goldberg justifica esta afirmación del siguiente modo:"Los algoritmos genéticos manejan variables de decisión o de control representadas como cadenas con el fin de explotar similitudes entre cadenas de altas prestaciones. Otros métodos tratan habitualmente con las funciones y sus variables de control directamente. Dado que los algoritmos genéticos operan en el nivel de códigos, son difíciles de engañar aun cuando la función sea difícil para los enfoques tradicionales.

Los algoritmos genéticos trabajan con una población; muchos otros métodos trabajan con un único punto. De este modo, los algoritmos genéticos encuentran seguridad en la cantidad. Al mantener una población de puntos bien adaptados se reduce la probabilidad de alcanzar un falso óptimo.

Los algoritmos genéticos consiguen gran parte de su amplitud ignorando la información que sea la del objetivo. Otros métodos se basan fuertemente en tal información, y en problemas donde la información no está disponible o es difícil de conseguir, estos otros métodos fallan. Los algoritmos genéticos son generales porque explotan la información disponible en cualquier problema de búsqueda. Los algoritmos genéticos procesan similitudes en el código subyacente junto con información proveniente de la ordenación de las estructuras de acuerdo con sus capacidades de supervivencia en el entorno actual. Al explotar una información tan fácilmente disponible, los algoritmos genéticos se pueden aplicar en prácticamente cualquier problema.

Las reglas de transición de los algoritmos genéticos son estocásticas; otros muchos métodos tienen reglas de transición deterministas. Hay una diferencia, no obstante, entre los operadores estocásticos de los algoritmos genéticos y otros métodos que no son más

39

que paseos aleatorios. Los algoritmos genéticos usan el azar para guiar una búsqueda fuertemente explotadora. Esto puede parecer inusual, usar el azar para conseguir resultados concretos (los mejores puntos), pero hay gran cantidad de precedentes en la naturaleza."

3.3 ALGORITMOS GENETICO SIMPLE

Un algoritmo genético simple, se denomina canónico, para este algoritmo se necesita una codificación o representación del problema, que resulte adecuado al mismo. Además se requiere una función de ajuste o de adaptación al problema, lo cual asigna un numero real a cada posible solución codificada. Durante la ejecución del algoritmo los padres deben ser seleccionados aleatoriamente para la reproducción, a continuación dichos padres seleccionados se cruzan generando dos hijos, sobre cada uno de los cualesactuara un operador de mutación. El resultado de confinación de los anteriores será un conjunto de individuos (posibles soluciones al problema), los cuales en la evolución del algoritmo genético formara parte de la siguiente población.

BEGIN /*Algoritmo Genético simple/Genera una población inicialComputar la función de evaluación de cada individuoWHILE NOT Terminando DOBEGIN /* Producir, nueva generaciones/ FOR Tamaño poblacion/2 DOBEGIN /* Ciclo reproductorio*/Seleccionar dos individuos de la anterior generación Para el cruce(probabilidad de selección proporcional A la función de evaluación del individuo).Cruzar con cierta probabilidad los dos individuos obteniendo dos descendientesMutar los dos dependientes con cierta probabilidadConmutar la función de evaluación de los dos descendientes mutadosInsertar los dos descendientes mutados en la nueva generaciónENDIF La probabilidad ha convergido THEN Terminado TRUEEND END

3.3.1 CODIFICACION.

Se supone que los individuos (posibles soluciones del problema), pueden representarse como un conjunto de parámetros (que denominaremos penes), los cuales agrupados forman una ristra de valores (referida como cromosomas). En términos biológicos, el conjunto de parámetros representando a un cromosoma particular se denomina genotipo. El fenotipo contiene la información requerida para construir un organismo, el cual se refiere como genotipo. Los mismos términos se utilizan en el campo de los Algoritmos Genéticos.

La adaptación al problema de un individuo depende de evaluado del genotipo. Esta ultima puede inferirse a partir del fenotipo, es decir puede ser conmutada a partir del

40

cromosoma, usando la función de evaluación. La función de adaptación debe ser diseñada para cada problema de manera especifica. Dado u cromosoma particular, la función de adaptación le asigna un numero real, que se supone refleja el nivel de adaptación al problema del individuo representando por el cromosoma.

Durante la fase reproductora se selecciona los individuos de la población para cruzarse y producir descendientes, que constituirán, una vez mutados, la siguiente generación de individuos. La selección de los padres se lo hace al azar usando o un procedimiento que favorezca a los individuos mejor adaptados, ya que cada individuo se le asigna una probabilidad de ser seleccionados que es proporcional a su función de adaptación.

Este procedimiento se dice que esta basado en la ruleta resgada. En donde los individuos bien adaptados se escogerán probablemente varias veces por generación, mientras que los pobremente adaptados al problema, no se escogerán mas que debes en cuando.

Una vez seleccionados dos padres, sus cromosomas se combinan, utilizando habitualmente los operadores de cruce y mutacion. Las formas básicas de dichos operadores se describen a continuación.

El operador de cruce, coge dos padres seleccionados y corta sus ristras de cromosomas en una posición escogida al azar, para producir dos subristas iniciales y dos subristas finales, produciendo dos nuevos cromosomas completos Fig. 2. Ambos descendientes heredan genes de cada padre. Este operador se conoce como operador de cruce basado en un punto.. Habitualmente el operador de cruce no se utiliza en todos los pares de individuos que han sido seleccionados para emparejarse, sino que se aplica de mal manera aleatoria, normalmente con una probabilidad comprendida entre 0.5 y 1.0.

El operador de mutación se aplica a cada hijo de manera individual, y consiste en laalteración aleatoria (normalmente con probabilidad pequeña) de cada gen componente del cromosoma Fig. 3 muestra la mutación del quinto gen del cromosoma. Si bien puede en principio puede pensarse que el operador de cruce es más importante el operador de mutacion, ya que proporciona una exploración rápida del espacio de búsqueda 0 de ser examinado, y es de capital importancia para asegurar la convergencia de los Algoritmos Genéticos.

Gen mutado

Descendiente 1 0 10 0 1 0 0 1 0Descendiente mutado 1 0 1 0 1 1 0 0 1 0

Operación de mutado Fig. 3

3.3.2 EXTENCIONES Y MODIFICACIONES DEL ALGORITMO GENETICO SIMPLE

En este campo se comienza a dar pseudocodigo para un Algoritmo Genético Abstracto(AGA).

BEGIN AGA

41

Obtener la población inicial a l azarWHILE NOT stop DO BEGINSeleccionar padres de la poblaciónProducir hijos a partir de los padres seleccionadosMutar los individuos hijosExtenser la población añadiendo los hilosReducir la población reducida. ENDEND AGA

Pseudocodigo de AGA Fig.4

3.3.3 POBLACIONTAMAÑO DE LA POBLACIONUna cuestión que no puede plantearse al relacionada con el tamaño idóneo de la población parece intuitiva que las poblaciones pequeñas corren el riesgo de no cubrir adecuadamente el espacio de búsqueda, mienta s que el trabajar con poblaciones de gran tamaño puede acarrear problemas relacionados con el excesivo costo computacional. Este resultado traería como consecuencia que la aplicabilidad de los Algoritmos Genéticos en problemas reales seria muy limitada, ya que resultan no competitivos con otros métodos de optimización combinatoria.

POBLACION INICIAL Habitualmente la población inicial se escoge generando ristras al azar, pudiendo contener cada gen uno de los posibles baleros del alfabeto con probabilidad uniforme. No podríamos que es lo que sucedería si los individuos de la población inicial se estuviesen como resultado de alguna técnica heurística o de optimización local.

3.3.4 FUNCION OBJETIVO

Dos aspectos que parecen cruciales es el comportamiento de los Algoritmos Genéticos son la determinación de una adecuada función de adaptación o función objetivo, así como la codificación utilizada.

Al construir una función objetiva con ciertas regularidades, es decir funciones objetivas que verifiquen que para dos individuos que se encuentren cercanos en el espacio de búsqueda, sus respectivos valores en las funciones objetivas sean similares. Por otra parte una dificultad en el comportamiento del Algoritmo Genético puede ser la existencia de gran cantidad de óptimos locales, así como el hecho de que él optima global se encuentre muy aislado.

La regla para construir una buena función objetiva es que esta debe reflejar el valor del individuo de una manera real pero en muchos problemas de optimización combinatoria, donde existen gran cantidad de restricciones, buena parte de los puntos del espacio de búsqueda representan individuos no validos.

42

Para este planteamiento en el que los individuos están sometidos a restricciones, se han planteado varias soluciones. La primera se denominaría absoluta, en la que aquellos individuos que no verifican las restricciones, no son considerados como tales y se siguen efectuando cruces y n mutaciones hasta obtener individuos validos, o bien a dichos individuos se les asigna una función objetiva igual a cero.

Otra posibilidad es de reconstruir a aquellos individuos que no verifican restricciones dicha reconstrucción suele llevarse a cabo por medio de un nuevo operador que se acostumbra a denominar reparador.

3.3.5 SELECCIÓN

La función de selección de padres mas utilizada, es la denominada función de selección proporcional a la función objetivo, en la cual cada individuo tiene una, probabilidad de ser seleccionado como padre que es proporcional al valor de su función objetivo. Denotando por (p super prop sub j,t) la probabilidad de que el individuo (I super j sub t) sé seleccionado como padre, se tiene que:

Esta función de selección es invariante ante un cambio de escala, pero no ante una traslación una de las maneras de superar el problema realcionado con la rápida convergencia proveniente de lo super individuos, que surge al aplicar la anterior función de selección, es el de efectuar la selección proporcional al rango del individuo, con lo cual se produce una retracción más uniforme de la probabilidad de selección, tal y como se ilustra en la Fig. 5 si denotamos por rango (g(I super j sub t)) el rango de la función objetivo del individuo (I super j sub t ) cuando los individuos de la población han sido ordenados de menor a mayor, y se (p super rango sub j,t) la probabilidad de que el individuo (I super j sub t) sea seleccionado como padre cuando la selección se efectúa proporcionalmente al rango del individuo, se tiene que:

3.3.6 CRUCE

El Algoritmo Genético Canónico descrito anteriormente utiliza el cruce basado en un punto, en el cual los individuos seleccionados para jugar el papel de padres, son recambiados por medio de la selección de un punto de corte, para posteriormente intercambiar las secciones que se encuentran a la derecha de dicho punto.Se han inventado otros operadores de cruce. Habitualmente teniendo en cuenta mas de un punto de cruce. De Jong [13] investigo el comportamiento del operador de cruce basado en múltiples puntos, concluyendo que el cruce basado en dos puntos, representaba una mejora mientras que añadir mas puntos de cruce no beneficiaba el comportamiento del algoritmo. La ventaja de tener un punto mas de cruce radica en que el espacio de búsqueda puede ser explorado mas fácilmente siendo la principal desventaja el hecho de aumentar la probabilidad de ruptura de buenos esquemas.

El denominada operador de cruce uniforme cada gen, en la descendencia se crea copiando el correspondiente gen de uno de los padres, escogido de acuerdo a una mascar de cruce generada aleatoriamente. Cuando existe un 1 en la "mascara de cruce", el gen es copiado del primer padre, mientras que es cuando exista un 0 en la"mascara de cruce", el gen se copia del segundo padre, tal y como en la Fig. 7.

43

Mascara de cruce 1 0 0 1 0 0 1

Padre1 1 1 0 1 1 0 1Descendiente 1 0 0 1 1 1 1Padre2 0 0 0 1 1 1 0

Operador de cruce uniforme Fig7

3.3.7 MUTACION

La mutacion se considera un operador básico, que proporciona un pequeño elemto de aleatoriedad en la vecindad (entorno) de los individuos de la población. Si bien se admite que el operador de cruce es el responsable de efectuar la búsqueda a lo largo del espacio de posibles soluciones, también parece desprenderse de los experimentos efectuados por varios investigadores que el operador de mutación va ganado en importancia a medida que la población de individuos va convergiendo.

Si bien la mayoría de las implementaciones de Algoritmos Genéticos se asume que tanto la probabilidad de cruce como la mutación permanecen constantes, algunos autores han obtenido mejores resultados experimentales modificando la probabilidad de mutación a medida que aumenta él numero de iteraciones.

3.3.8 REDUCCION

Obtenido los individuos descendientes de una determinada población en el tiempo t, el proceso de reducción al tamaño original, consiste en escoger lambda individuos de entre los lambda individuos que forman parte de la población en el tiempo t, y los lambda individuos descendientes de los mismos. Dicho proceso se suele hacer fundamentos de dos formas distintas.

3.4 CARACTERISTICAS

Los elementos básicos en los que se puede descomponer la construcción de un algoritmo genético para resolver un problema de optimización son:

A. Arquitectura genética.- Debe existir una relación explícita o implícita (que se pueda decodificar) entre una cadena de genes (individuo con un genotipo) y una solución del problema. Una codificación debe tener una solución asociada, pero una solución puede corresponderse a varias codificaciones diferentes. Además, deben fijarse los alelos (rango de variación) posibles para cada gen que condicionan el tamaño del espacio de soluciones.ﾷ En este artículo, la codificación elegida es la cadena de números que se corresponden con las ciudades (aeropuertos) a visitar, existiendo tantas llegadas al depósito (aeropuerto hub) como vehículos (aeronaves) tiene la flota; la primera ruta con salida y llegada al depósito (hub) corresponde al primer vehículo, la segunda al segundo, etc. En el caso TSP, VRP y CVRP existe un medio ambiente estable, genotipo y fenotipo coinciden y la evaluación de cada codificación es fija; en el caso SVRP, el medio ambiente es variable, el fenotipo

44

difiere del genotipo (los tiempos son variables aleatorias) y la evaluación no es determinista.

ﾷ B) Poblaciones y su tamaño.- Los algoritmos genéticos pueden trabajar con una población única o varias poblaciones separadas (islas) y un sistema de migración, y pueden utilizar poblaciones de mayor o menor tamaño. En general, la diversidad aumenta con el número de islas y número total de individuos en la población, mientras que el coste computacional aumenta también con esos dos factores.

En este artículo que se aplica un programa preparado para ordenadores personales, no se obtiene ventaja alguna de utilizar varios procesadores en paralelo; por consiguiente, se ha optado por una única población y se ha observado una buena eficiencia computacional para un tamaño de población del orden de cinco a diez veces el número de ciudades y vehículos utilizado (ejemplo: si tenemos 37 ciudades y 4 vehículos, tamaño de población de 200 a 400). El programa permite emular en parte la evolución en paralelo al ser posible realizar la optimización en dos fases, primero con varias evoluciones independientes y después formando una población inicial última compuesta por una muestra de cada una de las poblaciones finales de la primera fase.

C) Población inicial.- El resultado final del proceso de optimización con algoritmos genéticos no es muy sensible a la calidad de las soluciones en la población inicial. Puede optarse por tomar soluciones aleatorias, aunque si se utiliza algún método heurístico para construir las soluciones iniciales se suele reducir el tiempo de convergencia hacia la solución óptima. El este artículo se presenta un programa desarrollado en Visual BASIC, se pueden introducir manualmente soluciones específicas y el programa completa la población inicial con soluciones construidas utilizando ordenación radial desde el depósito (hub) y soluciones con el criterio de mínima distancia a la siguiente ciudad dentro de cada ruta y sin repetir ciudades.

D) Evaluación.- La selección natural opera bajo el principio de eliminar determinística o probabilísticamente a los individuos menos eficaces. Así pues, la evaluación es el elemento crítico de todo programa evolutivo que pretenda solucionar un problema de optimización complejo; para cada solución se debe poder calcular un coste asociado la misma. En el caso TSP basta con definir el coste como la distancia total recorrida asociada a cada gen (lista de ciudades = solución). En el caso del VRP se trata de minimizar la distancia total recorrida por todos los vehículos de la flota, normalmente limitando el tiempo máximo empleado por cada vehículo en su recorrido. En el CVRP se le añade un sobrecoste considerable si en algún punto del recorrido la carga del vehículo sobrepasa la carga máxima permitida para emular la rotura del servicio. Finalmente, cabe señalar que en el SCVRP las distancias, tiempos de escala, velocidad de crucero y cargas y descargas son consideradas variables aleatorias y esto afecta al proceso de evaluación que resulta probabilistaE) Selección.- Emulando la selección natural, los mejores individuos en cada generación(soluciones con menor coste) deben tener más probabilidades de sobrevivir para producir la siguiente generación. Se pueden eliminar los peores, utilizar una probabilidad de supervivencia inversamente proporcional al coste, etc. El algoritmo utilizado en este trabajo considera una probabilidad de sobrevivir inversamente proporcional al número de orden del individuo en la generación, siendo el 1º el de menor coste (el 2º tiene la mitad de probabilidad de sobrevivir que el 1º, el 3º la tercera

45

parte, etc.). Con este criterio, los individuos supervivientes se eligen aleatoriamente de una generación para producir la siguiente.

El algoritmo utilizado es en parte elitista, asignándose una pequeña probabilidad de seleccionar adicionalmente el campeón absoluto (la solución de menor coste encontrada hasta el momento) aunque no pertenezca a la generación.

F) Cruzamiento.- Es el que transfiere las características deseables de las soluciones encontradas de una generación a la siguiente. Los operadores de cruzamiento son aquellos que producen individuos viables de padres distintos viables; los hijos deben mantener alguna de las características de los padres y no degenerar en exceso en el proceso de cruzamiento. En el estudio que se presenta, se han utilizado dos operadores de cruzamiento: (1)cruzamiento simple ("one point crossover") basado en tomar al azar dos padres supervivientes, elegir al azar un punto de la cadena genética del primero y crear el hijo tomando la primera parte de la cadena genética del primero y la segunda del segundo rellenando al azar las repeticiones con las ciudades restantes para garantizar la viabilidad del descendiente, y (2)cruzamiento de rutas generalizado basado en superponer las rutas de tres padres tomados al azar entre los supervivientes y formar el hijo con las rutas que coincidan en dos o tres de los tres padres, conectando las rutas restantes con el criterio de mínima distancia. Este segundo operador de cruzamiento se basa en el concepto general "edge maped recombination" de Whitley et al.(1996) con una generalización a más de dos padres y la inclusión de distancias cortas para generar soluciones hijo viables.

3.5 RESOLUCIÓN DEL TSP, VRP, CVRP Y SCVRP

Los problemas básicos de optimización de rutas tienen una gran diversidad y múltiples aplicaciones a la solución de problemas reales de transporte y distribución (ver Desrochers et al., 1990). Específicamente, el problema del viajero (TSP) es un clásico de los transportes y la optimización de problemas combinatorios especialmente difíciles; es un problema del tipo NP-completo, al que pertenecen la mayoría de problemas de distribución reales. Dadas n ciudades por sus coordenadas en un espacio definido, se busca encontrar la ruta más corta que incluya todas las ciudades; el número de soluciones posibles es (n-1)!/2. En el ejemplo de referencia de los 37 aeropuertos españoles usados en este artículo, el problema de minimizar la distancia recorrida para unir con un único avión correo todos los aeropuertos tiene 36!/2 = 1.86x1041; es más fácil encontrar una mota de polvo de una micra en la atmósfera de la Tierra (100 km. de espesor y 500 millones de km2) que la solución óptima al TSP de 37 ciudades. Con un centenar de ciudades, existen más soluciones posibles al TSP que motas de polvo de una micra caben en el Universo (esfera de 15.000 millones de años luz de radio).

El TSP es un caso particular del VRP. En el VRP clásico se trata de minimizar la distancia total recorrida por los k vehículos de una flota que tienen su punto de partida y llegada en una ciudad concreta (depósito) y tienen que visitar el resto de las n-1 ciudades objetivo. El número de soluciones posibles es superior al TSP de n ciudades. En el ejemplo de referencia, un VRP se correspondería con el problema del reparto de correo internacional desde un aeropuerto hub hacia los restantes 36 aeropuertos españoles; en este caso, una flota de vehículos realiza el reparto sin limitación de carga y lo que se pretende resolver es la ubicación óptima del aeropuerto hub (depósito), el

46

tamaño de flota y su relación con los tiempos de trabajo y distancia recorrida por las aeronaves.

El cuadrado rayado hace referencia a la selección, la cual se realiza en dos etapas con la idea de emular las dos vertientes del Principio de Selección Natural: selección de criadores o selección a secas, y selección de supervivientes para la próxima generación o reemplazo. El proceso descrito, puede ser expresado de forma algorítmica del siguiente modo:

t = 0Inicializar Población(t) Evaluar Población(t)Mientras (nos se verifique la condición de parada) hacer t = t +1Seleccionar Población(t) a partir de Población(t-1) Recombinar Población(t)Evaluar Población(t) FinMientras

Terminología:

Generalmente cada individuo de la población se representa por medio de una cadena binaria de longitud fija, que suele denominarse 'ejemplar', 'muestra', 'punto' o'cromosoma', la cual codifica los valores de las variables que intervienen en el problema. Representaremos un individuo por medio de x.

El tamaño de la población permanece fijo entre generación y generación, siendo la población inicial totalmente aleatoria.

Durante la iteración t, representamos por Población(t) el conjunto de posibles soluciones que mantiene el sistema. Cada solución será de la siguiente forma, xt

i. Así:Población (t) = {xt

1, . . . , xtn}

siendo n el tamaño de la población.

En el proceso de evaluación, lo que se hace es evaluar cada solución mediante una función f que nos da una medida de la adecuación o fitness de la misma. Así f(xti) es una medida de la bondad de la solución xi en la iteración t.

Cada individuo contribuye al proceso de reproducción en proporción a su correspondiente fitness. De esta forma, individuos bien adaptados, contribuyen con múltiples copias e individuos mal adaptados contribuyen con pocas o incluso ninguna copia.

Definimos como genotipo, a las estructuras que representan los individuos. Los caracteres o rasgos por los que están formados los individuos, se les denomina genes. Cada una de las posiciones de la cadena, es lo que se llama loci. Cada carácter o gen puede manifestarse de forma diferente, es decir, puede tomar distintos valores que son denominados alelos. Una estructura decodificada es un fenotipo.

47

Mecanismos de muestreo de poblaciones

Un mecanismo auxiliar pero fundamental para los algoritmos genéticos es le muestreo de poblaciones, esto es, la elección según unos criterios de un subconjunto de k individuos de una población especificada. Los mecanismos de muestreo son muy variados, distinguiéndose tres grupos fundamentales según el grado de intervención del azar en el proceso:1. Muestreo directo: se toma un subconjunto de individuos de las población siguiendo un criterio fijo, del estilo "los k mejores", "los k peores", "a dedo", etc...2. Muestreo aleatorio simple o equiprobable: se asignan a todos los elementos de la población base las mismas probabilidades de formar parte de la muestra y se constituye ésta mediante ensayos de Bernoulli simples.3. Muestreos estocásticos: se asignan probabilidades de selección o puntuaciones a los elementos de la población base en función (directa o indirecta) de su aptitud. Por defecto, la puntuación pi, asociada al individuo xi de la población P={x1,...,xn}, se calcula como la aptitud relativa de dicho individuo: esto es, siendo u1, . . ., un las respectivas aptitudes se tiene queuiPi = ----------------- u1+u2+...+unExisten muchos mecanismos de muestreo estocástico según para lo que se apliquen. En concreto, al implementar algoritmos genéticos se usan fundamentalmente cuatro tipos de muestreo estocástico:a. Por sorteo: se consideran las puntuaciones estrictamente como probabilidades de elección para formar la muestra, y se constituye ésta realizando k ensayos de una variable aleatoria con dicha distribución de probabilidadesb. Por restos: A cada individuo xi, se le asignan directamente pi·k puestos en la muestra. Seguidamente los individuos se reparten los puestos vacantes en función de sus puntuaciones. El reparto suele ser por sorteo.c. Universal o por ruleta: es análogo al muestreo por sorteo sólo que ahora se genera un único número aleatorio simple r y con él se asignan todas las muestras de modo parecido a como se haría girar una ruleta.d. Por torneos: cada elemento de la muestra se toma eligiendo el mejor de los individuos de un conjunto de z elementos tomados al azar de la población base; esto se repite k veces hasta completar la muestra. El parámetro z suele ser un entero pequeño comparado con el tamaño de la población base, normalmente 2 o 3. Nótese que en este caso no es necesario hacer la asignación de puntuaciones.A su vez, todos estos mecanismos admiten algunas variantes no necesariamente excluyentes; las más empleadas al trabajar con algoritmos genéticos son estas tres:1. Muestreo diferenciado: cada elemento de la población base se puede tomar para formar la muestra a lo sumo una sola vez2. Muestreo conservador: todos los elementos de la población base tienen alguna oportunidad (probabilidad no nula) de ser elegidos. También se conoce como "muestreo duro".3. Muestreo excluyente: se excluyen a priori algunos individuos del proceso de muestreo. También se llama "muestreo extintivo"

48

De esta manera se habla, por ejemplo, de que el proceso de selección de criadores de cierto algoritmo genético se ha implementado a través de un "muestreo estocástico por torneos de tamaño 2 en la variedad conservadora".

3.6 EJEMPLO DE APLICACIÓN

Para ilustrar las aplicaciones de los algoritmos genéticos a la resolución de problemas de transporte y distribución, se describe en este apartado el problema de referencia empleado en este artículo que tiene como objetivo la distribución de correo aéreo y paquetería entre 37 aeropuertos españoles. Este programa permite analizar la eficiencia del algoritmo genético en la solución de problemas como la selección del aeropuerto o aeropuertos hub en la red de distribución, del tamaño de flota y de las rutas adecuadas a cada nivel de demanda. Un problema real de esta índole incluiría optimizar simultáneamente el transporte aéreo y por carretera hasta puntos de destino de un territorio, que no tienen porqué coincidir con los aeropuertos; sin embargo, en este artículo vamos a suponer que sólo interviene en la distribución el modo aéreo y sólo son puntos de origen y destino de paquetes y correo los 37 aeropuertos españoles. Se plantearán una serie de problemas de transporte de dificultad creciente para señalar cómo el método con algoritmos genéticos puede adaptarse a un problema práctico de complejidad creciente; en cada problema se describe las características del mismo y la modificación que se introduce en el programa genético para poderlo resolver satisfactoriamente.

TSP: El TSP es el problema fundamental que se puede resolver con el algoritmo genético Dada la dificultad de conocer la solución óptima general de este tipo de problemas, resulta conveniente contrastar el método propio con los de la máxima calidad posible para estimar la fiabilidad y robustez del método propuesto.

CAPITULO 4

LOGICA DIFUSA

4.1 INTRODUCCION

La lógica difusa se ha convertido en una de las tecnologías más exitosas para el desarrollo de Sistemas de Control sofisticados. La lógica difusa es muy "humana" con infinitos matices entre lo verdadero y lo falso entre un SI y un NO pues nuestro lenguaje es justamente vago, difuso y eminentemente subjetivo.La lógica borrosa es una rama de la inteligencia artificial que se funda en el concepto"Todo es cuestión de grado", lo cual permite manejar información vaga o de difícil especificación si quisiéramos hacer cambiar con esta información el funcionamiento o el estado de un sistema especifico. Es entonces posible con la lógica borrosa gobernar un sistema por medio de reglas de 'sentido común' las cuales se refieren a cantidades indefinidas.Las reglas involucradas en un sistema borroso, pueden ser aprendidas con un sistema adaptativo que aprenden al ' observar ' como operan las personas los dispositivos reales,o estas reglas pueden también ser formuladas por un experto humano. En general la lógica borrosa se aplica tanto a sistemas de control como para modelar cualquier sistema continuo de ingeniería, física, biología o economía.

La lógica borrosa es entonces definida como un sistema matemático que modela funciones no lineales, que convierte unas entradas en salidas acordes con los planteamientos lógicos que usan el razonamiento aproximado.

Se fundamenta en los denominados conjuntos borrosos y un sistema de inferencia borroso basado en reglas de la forma " SI....... ENTONCES...... ", donde los valores lingüísticos de la premisa y el consecuente están definidos por conjuntos borrosos, es así como las reglas siempre convierten un conjunto borroso en otro.

4.2 QUE ES LA LOGICA DIFUSA

Un tipo de lógica que reconoce más que simples valores verdaderos y falsos. Con lógica difusa, las proposiciones pueden ser representadas con grados de veracidad o falsedad. Por ejemplo, la sentencia "hoy es un día soleado", puede ser 100% verdad si no hay nubes, 80% verdad si hay pocas nubes, 50% verdad si existe neblina y 0% si llueve todo el día.La Lógica Difusa ha sido probada para ser particularmente útil en sistemas expertos y otras aplicaciones de inteligencia artificial. Es también utilizada en algunos correctores de voz para sugerir una lista de probables palabras a reemplazar en una mal dicha. La Lógica Difusa, que hoy en día se encuentra en constante evolución, nació en los años 60 como la lógica del razonamiento aproximado, y en ese sentido podía considerarse una extensión de la Lógica Multivaluada. La Lógica Difusa actualmente está relacionada y fundamentada en la teoría de los Conjuntos Difusos.Según esta teoría, el grado de pertenencia de un elemento a un conjunto va a venir determinado por una función de pertenencia, que puede tomar todos los valores reales comprendidos en el intervalo[0,1]. La representación de la función de pertenencia de un elemento a un ConjuntoDifuso se representa según la figura 1.

Ejemplo de una función de pertenencia a un Conjunto Difuso.La Lógica Difusa (llamada también Lógica Borrosa por otros autores) o Fuzzy Logic es básicamente una lógica con múltiples valores, que permite definir valores en las áreas oscuras entre las evaluaciones convencionales de la lógica precisa: Si / No, Cierto / Falso, Blanco / Negro, etc. Se considera un súper conjunto de la Lógica Booleana. Con la Lógica Difusa, las proposiciones pueden ser representadas con grados de certeza o falsedad. La lógica tradicional de las computadoras opera con ecuaciones muy precisas y dos respuestas: Si o no, uno o cero. Ahora, para aplicaciones de computadores muy mal definidas o sistemas vagos se emplea la Lógica Difusa.Por medio de la Lógica Difusa pueden formularse matemáticamente nociones como un poco caliente o muy frío, para que sean procesadas por computadoras y cuantificar expresiones humanas vagas, tales como "Muy alto" o "luz brillante". De esa forma, es un intento de aplicar la forma de pensar humana a la programación de los computadores. Permite también cuantificar aquellas descripciones imprecisas que se usan en el lenguaje y las transiciones graduales en electrodomésticos como ir de agua sucia a agua limpia en una lavadora, lo que permite ajustar los ciclos de lavado a través de sensores. La habilidad de la Lógica Difusa para procesar valores parciales de verdad ha sido de gran ayuda para la ingeniería. En general, se ha aplicado a:Sistemas expertos.Verificadores de ortografía, los cuales sugieren una lista de Palabras probables para reemplazar una palabra mal escrita.

Control de sistemas de trenes subterráneos.Los operadores lógicos que se utilizarán en Lógica Difusa (AND, OR, etc.) se definen también usando tablas de verdad, pero mediante un "principio de extensión" por el cual gran parte del aparato matemático clásico existente puede ser adaptado a la manipulación de los Conjuntos Difusos y, por tanto, a la de las variables lingüísticasLa operación más importante para el desarrollo y creación de Reglas Lógicas es la implicación, simbolizada por " ® " que representa el "Entonces" de las reglas heurísticas: Si (...) Entonces ( ® ) (...).Así, en la Lógica Difusa hay muchas maneras de definir la implicación. Se puede elegir una "función (matemática) de implicación" distinta en cada caso para representar a la implicación.La última característica de los sistemas lógicos es el procedimiento de razonamiento, que permite inferir resultados lógicos a partir de una serie de antecedentes.Generalmente, el razonamiento lógico se basa en silogismos, en los que los antecedentes son por un lado las proposiciones condicionales (nuestras reglas), y las observaciones presentes por otro (serán las premisas de cada regla).Los esquemas de razonamiento utilizados son "esquemas de razonamiento aproximado", que intentan reproducir los esquemas mentales del cerebro humano en el proceso de razonamiento. Estos esquemas consistirán en una generalización de los esquemas básicos de inferencia en Lógica Binaria (silogismo clásico).Tan importante será la selección de un esquema de razonamiento como su representación material, ya que el objetivo final es poder desarrollar un procedimiento analítico concreto para el diseño de controladores difusos y la toma de decisiones en general. Una vez que dispongamos de representaciones analíticas de cada uno de los elementos lógicos que acabamos de enumerar, estaremos en disposición de desarrollar formalmente un controlador "heurístico" que nos permita inferir el control adecuado de un determinado proceso en función de un conjunto de reglas "lingüísticas", definidas de antemano tras la observación de la salida y normas de funcionamiento de éste.

4.3 CONCEPTOS BASICOS DE LOGICA DIFUSA

Conjuntos difusos.

La mayoría de los fenómenos que encontramos cada día son imprecisos, es decir, tienen implícito un cierto grado de difusidad en la descripción de su naturaleza. Esta imprecisión puede estar asociada con su forma, posición, momento, color, textura, o incluso en la semántica que describe lo que son. En muchos casos el mismo concepto puede tener diferentes grados de imprecisión en diferentes contextos o tiempo. Un día cálido en invierno no es exactamente lo mismo que un día cálido en primavera. La definición exacta de cuando la temperatura va de templada a caliente es imprecisa -no podemos identificar un punto simple de templado, así que emigramos a un simple grado, la temperatura es ahora considerada caliente. Este tipo de imprecisión o difusidad asociado continuamente a los fenómenos es común en todos los campos de estudio: sociología, física, biología, finanzas, ingeniería, oceanografía, psicología, etc.

Conceptos imprecisos.

Aceptamos la imprecisión como una consecuencia natural de ''la forma de las cosas en el mundo''. La dicotomía entre el rigor y la precisión del modelado matemático en todo

los campos y la intrínseca incertidumbre de ''el mundo real'' no es generalmente aceptada por los científicos, filósofos y analistas de negocios. Nosotros simplemente aproximamos estos eventos a funciones numéricas y escogemos un resultado en lugar de hacer un análisis del conocimiento empírico. Sin embargo procesamos y entendemos de manera implícita la imprecisión de la información fácilmente. Estamos capacitados para formular planes, tomar decisiones y reconocer conceptos compatibles con altos niveles de vaguedad y ambigüedad. considere las siguientes sentencias:

. La temperatura está caliente

. La inflación actual aumenta rápidamente

. Los grandes proyectos generalmente tardan mucho

. Nuestros precios están por abajo de los precios de la competencia

. IBM es una compañía grande y agresiva

. Alejandro es alto pero Ana no es bajita

Estas proposiciones forman el núcleo de nuestras relaciones con ''la forma de las cosas en el mundo''. Sin embargo, son incompatibles con el modelado tradicional y el diseño de sistemas de información. Si podemos incorporar estos conceptos logramos que los sistemas sean potentes y se aproximen más a la realidad.Pero, es la imprecisión un concepto artificial utilizado para aumentar o disminuir en uno o más las propiedades de los fenómenos? o es una parte intrínseca del fenómeno en sí mismo?.

Esta es una pregunta importante ya que es la parte fundamental de las medidas de la teoría difusa. Como veremos la fusificación es independiente de cualquier capacidad para medir, ya que un conjunto difuso es un conjunto que no tiene límites bien definidos. Un conjunto difuso tiene muchas propiedades intrínsecas que afectan la forma del conjunto, su uso y como participa en un modelo. Las propiedades más importantes de un conjunto difuso son las concernientes a las dimensiones verticales del conjunto difuso (altura y normalización) y las dimensiones horizontales (conjunto soporte y cortes "alpha").

La altura de un conjunto difuso es como máximo un grado de pertenencia y es una cota cercana al concepto de normalización. La superficie de la región de un conjunto difuso es el universo de valores. Todos estos conceptos se tratarán más adelante. Es decir un conjunto difuso A se considera como un conjunto de pares ordenados, en los que el primer componente es un número en el rango [0,1] que denota el grado de pertenencia de un elemento u de U en A, y el segundo componente especifica precisamente quién es ése elemento de u. En general los grados de pertenencia son subjetivos en el sentido de que su especificación es una cuestión objetiva. Se debe aclarar que aunque puede interpretarse como el grado de verdad de que la expresión ''u A'' sea cierta, es más natural considerarlo simplemente como un grado de pertenencia.Puede notarse además que:a) Mientras más próximo está (u) a el valor 1, se dice que u pertenece más a A (de modo que 0 y 1 denotan la no pertenencia y la pertenencia completa, respectivamente).b) Un conjunto en el sentido usual es también difuso pues su función característica u es también una función u [0,1]; o sea que los conjuntos difusos son una generalización de los conjuntos usuales.Ejemplo: Sea U =11, 2, 3, 4, 5, 6, 7, 8, 9, entonces los conjuntos definidos a continuación son difusos:POCOS = (.4/1, .8/2, 1/3, .4/4)VARIOS = (.5/3, .8/4, 1/5, 1/6, .8/7, .5,8) MUCHOS =(.4/6, .6/7, .8/8, .9/9,1/10)Note que el elemento 4 pertenece en grado .4 al conjunto POCOS, en grado .8 al conjunto VARIOS y en grado .0 a MUCHOS. Zadeh ha hecho algunas extensiones a los conceptos de conjuntos difusos ordinarios que se han explicado; por ejemplo los conjuntos difusos de nivel-m y los conjuntos difusos tipo-n. Para un conjunto difuso de nivel-m se considera como su universo de discusión al conjunto de conjuntos difusos de nivel-(m-1), sobreentendiendo que los conjuntos difusos de nivel-1 son conjuntos difusos ordinarios. Para los conjuntos difusos tipo-n, los valores de las funciones de pertenencia son conjuntos difusos de tipo-(n-1) del intervalo [0,1] (en lugar de ser puntos de [0,1]). También los conjuntos difusos tipo-1 son equivalentes a los conjuntos difusos ordinarios.Operaciones.En la lógica Booleana tradicional, los conjuntos son considerados como sistemas bivalentes con sus estados alternando entre inclusión y exclusión. La característica de la función discriminante refleja este espacio bivaluado.Esto indica que la función de pertenencia para el conjunto A es cero si x no es un elemento en A y la función de pertenencia es si x es un elemento en A. Dado que existen solamente dos estados, la transición entre estos dos estados es siempre inmediata. La pertenencia de estos conjuntos está siempre totalmente categorizada y no existe ambigüedad o dicotomía acerca de la pertenencia. Existen 4 operaciones básicas de conjuntos en esta lógica: unión, intersección, complemento y unión exclusiva. Al igual que en los conjuntos convencionales, existen definiciones específicas para combinar y especificar nuevos conjuntos difusos. Este conjunto de funciones teóricas provee las herramientas fundamentales de la lógica. En el caso usual, con las operaciones comunes de intersección, unión y complemento, el conjunto de conjuntos de U forman un álgebra booleana, es decir se cumplen las condiciones de asociatividad, conmutatividad, elementos neutros, ídem potencia, absorción, distributividad, complemento y las leyes de Morgan.

Las tres operaciones mencionadas se pueden extender de varias formas a conjuntos difusos, de modo que al restringirlas a los conjuntos usuales, coincidan con las comunes. Estas extensiones resultantes satisfacen en forma general sólo a algunas de las condiciones listadas anteriormente, y para mantener la vigencia de alguna, será obligatorio sacrificar a otras. En el sistema se optó por extender las operaciones

en el sentido clásico, es decir, dados dos conjuntos difusos A y B, se definen las operaciones extendidas de la siguiente forma

Dado que los conjuntos difusos no se particionan en el mismo sentido que los conjuntos Booleanos, estas operaciones son aplicadas al nivel de pertenencia, como una consecuencia de los conjuntos difusos. Decidir si un valor es o no es miembro de cualquier conjunto difuso en particular, requiere algunas nociones de cómo esta construido el conjunto, del universo y de los límites de éste.Las etiquetas lingüísticas y operadores.El centro de las técnicas de modelado difuso es la idea de variable lingüística. Desde su raíz, una variable lingüística es el nombre de un conjunto difuso. Si tenemos un conjunto difuso llamado ''largo'' éste es una simple variable lingüística y puede ser empleada como una regla-base en un sistema basado en la longitud de un proyecto en particular Si duración-proyecto es largo entonces la-terminación-de-tareas es DECRECIENTE; Una variable lingüística encapsula las propiedades de aproximación oconceptos de imprecisión en un sistema y da una forma de computar adecuada. Estoreduce la aparente complejidad de describir un sistema que debe concordar con su semántica. Una variable lingüística siempre representa un espacio difuso.

Lo importante del concepto de variable lingüística es su estimación de variable de alto orden más que una variable difusa. En el sentido de que una variable lingüística toma variables difusas como sus valores. En el campo de la semántica difusa cuantitativa al significado de un término "x" se le representa como un conjunto difuso M(x) del universo de discusión. Desde este punto de vista, uno de los problemas básicos en semántica es que se desea calcular el significado de un término compuesto.La idea básica sugerida por Zadeh es que una etiqueta lingüística tal como ''muy'', ''más o menos'', ''ligeramente'', etc... puede considerarse como un operador que actúa sobre un conjunto difuso asociado al significado de su operando. Por ejemplo en el caso de un término compuesto ''muy alto'', el operador ''muy'' actúa en el conjunto difuso asociado al significado del operando ''alto''. Una representación aproximada para una etiqueta lingüística se puede lograr en términos de combinaciones o composiciones de las operaciones básicas explicadas en la sección anterior. Es importante aclarar que se hará mayor énfasis en que estas representaciones se proponen principalmente para ilustrar el enfoque, más que para proporcionar una definición exacta de las etiquetas lingüísticas. Zadeh también considera que las etiquetas lingüísticas pueden clasificarse en dos categorías que informalmente se definen como sigue:Tipo I: las que pueden representarse como operadores que actúan en un conjunto difuso:''muy'', ''más o menos'', ''mucho'', ''ligeramente'', ''altamente'', ''bastante'', etc. y,Tipo II: las que requieren una descripción de cómo actúan en los componentes del conjunto difuso (operando): ''esencialmente'', ''técnicamente'', ''estrictamente'',''prácticamente'', ''virtualmente'', etc...En otras palabras, las etiquetas lingüísticas pueden ser caracterizadas cómo operadores más que construcciones complicadas sobre las operaciones primitivas de conjuntos difusos.Ejemplos de etiquetas tipo I.De acuerdo a éste punto de vista y sabiendo que el lenguaje natural es muy rico y complejo, tomamos el operador ''muy'' que podemos caracterizar con un significado de que aún cuando no tenga validez universal sea sólo una aproximación. Asumimos que si el significado de un término x es un conjunto difuso A, entonces el significado de muy X.Más y menosSe pueden definir etiquetas lingüísticas artificiales, por ejemplo: más, menos, que son instancias de lo que puede llamarse acentuador y desacentuador respectivamente, cuya función es proporcionar ligeras variantes de la concentración y la dilatación.

Los exponentes se eligen de modo que se de la igualdad aproximada: mas mas x = menos muy x, y que, además, se pueden utilizar para definir etiquetas lingüísticas cuyo significado difiere ligeramente de otras, ejemplo:Mas o menosOtra etiqueta lingüística interesante es ''más o menos'' que en sus usos más comunes como ''más o menos inteligente'', ''más o menos rectangular'' etc, juega el papel de difusificador.LigeramenteSu efecto es dependiente de la definición de proximidad u ordenamientos en el dominio del operando. Existen casos, sin embargo, en los que su significado puede definirse en términos de etiquetas lingüísticas tipo I, bajo la suposición de que el dominio del operando es un conjunto ordenado linealmente.

Clase deEs una etiqueta lingüística que tiene el efecto de reducir el grado de pertenencia de los elementos que están en el ''centro'' (grados de pertenencia grandes) de una clase x e incrementa el de aquellos que están en su periferia (grados de pertenencia pequeños). RegularEs una etiqueta que tiene el efecto de reducir el grado de pertenencia de aquellos elementos que tienen tanto un alto grado de pertenencia al conjunto como de aquellos que lo tienen pequeño, y sólo aumenta el grado de pertenencia de aquellos elementos que tienen un grado de pertenencia cercano.Etiquetas tipo II.Su caracterización envuelve una descripción de forma que afectan a los componentes del operando, y por lo tanto es más compleja que las del tipo I. En general, la definición de una etiqueta de este tipo debe formularse como un algoritmo difuso que envuelve etiquetas tipo I. Su efecto puede describirse aproximadamente como una modificación de los coeficientes de ponderación de una combinación convexa. Como la magnitud de las ponderaciones es una medida del atributo asociado, intuitivamente una etiqueta de este tipo tiene el efecto de aumentar las ponderaciones de los atributos importantes y disminuir los que relativamente no lo son.

4.4 CONJUNTOS DIFUSOS

Predicados Vagos y Conjuntos Difusos.

Los conjuntos clásicos se definen mediante un predicado que da lugar a una clara división del Universo de Discurso X en los valores "Verdadero" y "Falso". Sin embargo, el razonamiento humano utiliza frecuentemente predicados que no se pueden reducir a este tipo de división: son los denominados predicados vagos.Por ejemplo, tomando el Universo de Discurso formado por todas las posibles temperaturas ambientales en la ciudad de Huelva, se puede definir en dicho universo el conjunto A como aquél formado por las temperaturas "cálidas". Por supuesto, es imposible dar a A una definición clásica, ya que su correspondiente predicado no divide el universo X en dos partes claramente diferenciadas. No podemos afirmar con rotundidad que una temperatura es "cálida" o no lo es. El problema podría resolverse en parte considerando que una temperatura es "cálida" cuando su valor supera cierto umbral fijado de antemano. Se dice que el problema tan sólo se resuelve en parte, y de manera no muy convincente, por dos motivos: de

una parte el umbral mencionado se establece de una manera arbitraria, y por otro lado podría darse el caso de que dos temperaturas con valores muy diferentes fuesen consideradas ambas como "cálidas".

Evidentemente, el concepto "calor" así definido nos daría una información muy pobre sobre la temperatura ambiental.La manera más apropiada de dar solución a este problema es considerar que la pertenencia o no pertenencia de un elemento x al conjunto A no es absoluta sino gradual. En definitiva, definiremos A como un Conjunto Difuso. Su función de pertenencia ya no adoptará valores en el conjunto discreto {0,1} (lógica booleana), sino en el intervalo cerrado [0,1]. En conclusión podemos observar que los Conjuntos Difusos son una generalización de los conjuntos clásicos.Mediante notación matemática se define un Conjunto Difuso B como: B = { ( x , mB( x ) ) / x å X }mB: X® [0,1]

La función de pertenencia se establece de una manera arbitraria, lo cual es uno de losaspectos más flexibles de los Conjuntos Difusos. Por ejemplo, se puede convenir que el grado de pertenencia de una temperatura de "45ºC" al conjunto A es 1, el de "25ºC" es0.4 , el de "6ºC" es 0, etc.: cuanto mayor es el valor de una temperatura, mayor es su grado de pertenencia al conjunto B. Para operar en la práctica con los Conjuntos Difusos se suelen emplear funciones de pertenencia del tipo representado en la figura 2: Tipos de funciones de pertenencia.En la figura se pueden observar dos tipos de funciones de pertenencia de todos los posibles: el tipo triangular, que puede ser un caso concreto del trapezoidal en el que los dos valores centrales son iguales, y el de forma de campana gaussiana. Tómese ahora el Universo de Discurso de la edad. El Conjunto Difuso "Joven" representa el grado de pertenencia respecto al parámetro juventud que tendrían los individuos de cada edad. Es decir, el conjunto expresa la posibilidad de que un individuo sea considerado joven. Un Conjunto Difuso podría ser considerado como una distribución de posibilidad, que es diferente a una distribución de probabilidad.Se puede observar que los Conjuntos Difusos de la figura 3 se superponen, por lo que un individuo xl podría tener distintos grados de pertenencia en dos conjuntos al mismo tiempo: "Joven" y "Maduro". Esto indica que posee cualidades asociadas con ambos conjuntos. El grado de pertenencia de x en A, como ya se ha señalado anteriormente, se representa por m A(x). El Conjunto Difuso A es la unión de los grados de pertenencia para todos los puntos en el Universo de Discurso X, que también puede expresarse como:Bajo la notación de los Conjuntos Difusos, µA(x)/x es un elemento del conjunto A. La operación òx representa la unión de los elementos difusos µA(x)/x. Los Universos de Discurso con elementos discretos utilizan los símbolos "+" y "S " para representar la operación unión.Veamos un ejemplo:Ejemplo de Conjuntos Difusos en el universo de la edad.Tómese un individuo x cuya edad sea de 20 años. Como se puede observar en la figura, pertenece al Conjunto Difuso "Joven" y al Conjunto Difuso "Maduro". Se puede observar que posee un grado de pertenencia µA(x) de 0.6 para el Conjunto Difuso"Joven" y un grado de 0.4 para el Conjunto Difuso "Maduro"; también posee un grado de 0 para "Viejo". De este ejemplo se puede deducir que un elemento puede pertenecer a varios Conjuntos Difusos a la vez aunque con distinto grado. Así, nuestro individuo x tiene un grado de pertenencia mayor al conjunto "Joven " que al conjunto "Maduro"(0.6> 0.4), pero no se puede decir, tratándose de Conjuntos Difusos, que x es joven o que x es maduro de manera rotunda.

4.5 OPERACIONES ENTRE CONJUNTOS DIFUSOS

Los Conjuntos Difusos se pueden operar entre sí del mismo modo que los conjuntos clásicos. Puesto que los primeros son una generalización de los segundos, es posible definir las operaciones de intersección, unión y complemento haciendo uso de las mismas funciones de pertenencia:

µAÇ B (x) = minµA(x), µB(x) )µAÈ B (x) = max ( µA(x), µB(x) )µØ A (x) = 1 - µA(x)

En realidad, estas expresiones son bastante arbitrarias y podrían haberse definido de muchas otras maneras. Esto obliga a considerar otras definiciones más generales para las operaciones entre los Conjuntos Difusos. En la actualidad se considera correcto definir el operador intersección mediante cualquier aplicación t-norma y el operador unión mediante cualquier aplicación s-norma.

Variables LingüísticasLa Teoría de Conjuntos Difusos puede utilizarse para representar expresiones lingüísticas que se utilizan para describir conjuntos o algoritmos. Los Conjuntos Difusos son capaces de captar por sí mismos la vaguedad lingüística de palabras y frases comúnmente aceptadas, como "gato pardo" o "ligero cambio". La habilidad humana de comunicarse mediante definiciones vagas o inciertas es un atributo importante de la inteligencia.Una Variable Lingüística es aquella variable cuyos valores son palabras o sentencias que van a enmarcarse en un lenguaje predeterminado. Para estas variables lingüísticas se utilizará un nombre y un valor lingüístico sobre un Universo de Discurso. Además, podrán dar lugar a sentencias generadas por reglas sintácticas, a las que se les podrá dar un significado mediante distintas reglas semánticas.Los Conjuntos Difusos pueden utilizarse para representar expresiones tales como:<O:P</O:PX es PEQUEÑO.La velocidad es RÁPIDA. El ganso es CLARO.Las expresiones anteriores pueden dar lugar a expresiones lingüísticas más complejas como:X no es PEQUEÑO.La velocidad es RÁPIDA pero no muy RÁPIDA. El ganso es CLARO y muy ALEGRE.Así, se pueden ir complicando las expresiones. Por ejemplo, la expresión "x no es PEQUEÑO" puede calcularse a partir de la original calculando el complemento de la siguiente forma:µ_no_PEQUEÑA (x) = 1- µ_PEQUEÑO (x)Tratando de esta forma los distintos modificadores lingüísticos (muy, poco, rápido, lento...) pueden ir calculándose todas las expresiones anteriores.

4.6 APLICACIONES

Controlador Difuso Adaptativo

Quizás la aplicación en que la Lógica Difusa ha conseguido un éxito mayor, y por ende un mayor número de seguidores, se encuentra en el Control Industrial. Aún cuando existen numerosas versiones de controladores que emplean lógica difusa, suele asignarse el término Controlador Difuso a un sistema de control cuya estructura interna corresponde a la de la figura 1

Una de las ventajas que suelen mencionarse de los Controladores Difusos, frente a otro tipo de controladores, es que pueden diseñarse aunque no se tenga un modelo matemático exacto de la Planta a controlar, gracias a que están basados en reglas.

Esta situación, sin embargo, no es del todo sencilla: el no tener un modelo matemático de la Planta implica no poder realizar simulaciones sobre la misma, de tal manera que los ajustes del controlador deben realizarse en línea. Este hecho a promovido la aparición de controladores auto ajustable, que cuentan con algún algoritmo que les permite evaluar su desempeño, y de acuerdo con cierto criterio ajustar su diseño. Estos algoritmos de auto ajuste (también conocidos como algoritmos de auto sintonía) son muy útiles también en situaciones en las que la Planta a controlar varía en el tiempo, lo que implica que el controlador deba ajustarse a dichos cambios.Cuando un Controlador Difuso cuenta con un algoritmo de auto ajuste, se dice que es un Controlador Difuso Adaptativo. Sin embargo, existen Controladores con otros algoritmos que no son exactamente de auto ajuste, y que podríamos llamar de entrenamiento, que algunos autores denominan también Controladores Difusos Adaptativos.Los algoritmos de entrenamiento permiten ajustar el diseño del Controlador para que tenga un comportamiento deseado, pero fuera de línea. En general estos algoritmos no permiten la adaptación del controlador a cambios de la planta, pero son muy útiles para diseñar controladores en los que se combina información numérica con información lingüística.A continuación se presenta un Controlador Difuso Adaptativo desarrollado por Wang & Mendel [20] que cuenta con un algoritmo de entrenamiento. Se ha seleccionado este controlador, porque el algoritmo empleado es uno de los más sencillos conceptualmente, y de mayor simplicidad algorítmica, tal como se presenta en el numeral siguiente.

EJEMPLOSDado el problema del identificador de Imágenes Aéreas anteriormente presentado, se desea saber cómo debe plantearse el problema para emplear el agrupamiento fuzzy c- means, si cada una de las tres imágenes tiene 32*32=1024 pixels.Los tres grupos de 1024 pixels pueden organizarse en 1024 3-uplas así: X = [x 1 x 2 x 3 ... x 1023 x 1024 ]x 1 =[x 1,1 x 2,1 x 3,1 ]x 2 =[x 1,2 x 2,2 x 3,3 ]...x 1024 =[x 1,1024 x 2,1024 x 3,1024 ]x i,k = luminancia del píxel k en la imagen iUna vez determinado X se selecciona c=4 como el número de conjuntos que se desean obtener, debido a que se desean obtener cuatro zonas distintas en las imágenes, y se emplea el algoritmo fuzzy c-means.Trivedi [15] emplea los centros de los conjuntos obtenidos con este procedimiento para caracterizar cada una de las cuatro zonas. Posteriormente, para decidir a que zona pertenece cada píxel, observa a cual de los cuatro conjuntos difusos hallados pertenece en mayor medida, con lo que se completa el proceso de identificación de la imagen.

Base de Datos Difusa

La Lógica Difusa busca desarrollar un conjunto de procedimientos para manejar la información precisa y/o vaga. Ahora bien, los Sistemas de Bases de Datos tienen por propósito, hablando en términos muy generales, la organización de la información; por lo tanto no es de sorprender que se haya intentado incorporar las técnicas de Lógica Difusa en el diseño de Bases de Datos.Miyamoto & Umano distinguen dos tipos de técnicas difusas en las Bases de Datos:

58

- Bases de Datos Difusas.- Técnicas Difusas para la recuperación de la información.En la primera de estas técnicas el concepto de Conjunto Difuso se incorpora en la estructura misma de la Base de Datos, mientras que en la segunda se emplea en las estrategias de recuperación de la información.A continuación se presenta una de las técnicas del primer tipo, como en los anteriores ejemplos de este artículo, se ha seleccionado buscando un ejemplo conceptualmente sencillo. La técnica en cuestión se denomina Búsqueda Difusa, y fue propuesta inicialmente pot Tahani.En esta técnica la Base de Datos tiene dos componentes 4 : por una parte se tiene una Base de Datos tradicional, como la representada en la Tabla 2, y por otra parte se tiene una definición Difusa de las variables cuantificables de dicha Tabla

Base de Datos tradicional del EjemploAnte una consulta a la Base de Datos de la forma:"Cuáles son los nombres de las personas jóvenes o recientemente empleadas pero con sueldo alto"Tahani propone evaluar la función de pertenecía de cada registro a cada uno de los valores lingüísticos involucrados en la consulta, y entregar como resultado de la búsqueda un conjunto difuso con funciones de pertenencia obtenidas mediante la utilización de operadores AND, OR y NOT difusos []; los operadores empleados por Tahani son el mínimo para el AND, el máximo para el OR y el complemento para el NOT.Con esta metodología la consulta anterior podría representarse por la operación

En donde x es la edad, y el año de ingreso, z el salario, u joven (x) es la función de pertenecia al conjunto Joven definido sobre la variable edad, u reciente (y) es la función de pertenecia al conjunto Reciente definido sobre la variable Año de Ingreso, u alto (z) es la función de pertenecia al conjunto Alto definido sobre la variable salario, y u búsqueda (x,y,z) es la función de pertenecia al conjunto resultante de la búsqueda. Empleando la información se puede construir los resultados de la búsqueda para cada registro.Resultados de la búsqueda del ejemplo en cada registro El resultado final del ejemplo sería el conjunto: Búsqueda ={0.5/Anderson, 1.0/Long, 0.8/Smith} Psicología Cognoscitiva: Reconocimiento de PalabrasEl ejemplo que se presenta a continuación difiere de los anteriores sensiblemente.Este caso no emplea los algoritmos asociados a la lógica difusa, sino el concepto mismo de los Conjuntos Difusos, y ha sido seleccionado para resaltar que la importancia de la Lógica Difusa radica en la noción de Conjuntos con fronteras no exactas, lo que implica gradualidad en los cambios.Este ejemplo consiste en la definición de un experimento cuyo autor es Rueckl para el reconocimiento de palabras, que es uno de los temas abordados por la Psicología Cognoscitiva.La pregunta que se desea contestar es :Qué efectos tiene el contexto de una frase en el reconocimiento de palabras?A esta pregunta existen dos respuestas opuestas, sustentadas cada una por dos teorías diferentes:- La teoría del modelo Interactivo sostiene que el contexto si influye en elReconocimiento de palabras.

59

- La teoría del modelo Autónomo sostiene que el contexto no influye.Ambos modelos se apoyan en experimentos cuyos resultados son consistentes y robustos, con explicaciones consistentes con las respectivas teorías. Los experimentos son de la siguiente forma:- Se selecciona una palabra objetivo, por ejemplo desk 5 .- Se plantean frases con la palabra objetivo, unas en las que el contexto es congruente, y otras en las que el contexto es incongruente, por ejemplo:Contexto congruente: Mary's book were pilled up on her ______ Contexto incongruente: Last night Mary read a good ______· Se mide que tan fácilmente reconoce un individuo (un grupo de individuos) la palabra objetivo en los dos tipos de frases, para sacar conclusiones.Hasta este punto las dos teorías coinciden, pero cuando las frases de contexto incongruente se remplazan por frases de contexto neutral, los experimentos dan resultados distintos, cada uno reforzando una teoría, dependiendo de lo que se entienda por "contexto neutral". Se han utilizado frases como las siguientes:They said it was the ______ The the the _____It was the _____Secuencias aleatorias de palabras.La propuesta de Rueckl consiste en responder a la pregunta Qué es un contexto neutral diciendo que hay congruencias difusas, es decir, diciendo que entre los contextos congruentes e incongruentes no hay un único tipo de contexto neutral, sino que la congruencia puede manejarse gradualmente.El experimento de Rueckl utilizó dos palabras objetivo: pair pain . Estas palabras se insertaron en las siguientes frases:The cardplayer had a ______ in his hand The shoemaker had a ______ in his hand The piano player had a ______ in his hand The arthritic had a _____ in his handClaramente, el contexto varía para ambas palabras objetivo. Adicionalmente, en el experimento se manipulo la forma de la letra r - n que diferencia las dos palabras objetivo, en la forma que muestra. Ante este experimento, las dos teorías predicen resultados distintos. Los resultados obtenidos concuerdan más con la teoría Interactiva.

Variaciones de la letra r - n

Conclusiones de Aplicación

Se han presentado cuatro aplicaciones diferentes de la Lógica Difusa; las tres primeras recogen ejemplos sencillos de algunas de las más comunes aplicaciones en ingeniería, excluyendo otras igualmente comunes, como las relativas a la Investigación de Operaciones y toma de Decisiones, Filtraje de Señales, Diagnóstico de fallas, etc. La cuarta aplicación presentada cae en el área de la psicología, y se ha incluido aquí con el propósito de resaltar la importancia conceptual de los Conjuntos Difusos, ya que la existencia de fronteras no exactas. Puede emplearse en otros campos distintos a los de la ingeniería.

1virtual.usalesiana.edu.bo/web/contenido/dossier/12012/... · Web viewls arg max l x, lw 22 Un...

Documents

Transcript of 1virtual.usalesiana.edu.bo/web/contenido/dossier/12012/... · Web viewls arg max l x, lw 22 Un...