Bases de Datos Difusas

38
Bases de Datos Difusas 2/2010 Ing. Enrique Yañez

Transcript of Bases de Datos Difusas

2/2010 Ing. Enrique Yaez

Introducciny Una de las caractersticas del lenguaje natural, que

hace difcil su utilizacin en sistemas es su imprecisin. Por ejemplo conceptos como pequeo o grande, tienen significados diferentes de acuerdo al contexto en el que se estn utilizando, e incluso dentro del mismo contexto, pueden significar cosas diferentes para diferentes individuos.

Introducciny La teora de los conjuntos difusos desarrollada por

Zadeh, provee una poderosa herramienta para la representacin y manejo de la imprecisin por lo que actualmente est siendo utilizada en varios campos para el diseo de sistemas basados en reglas difusas.

Introducciny El grado de pertenencia a un conjunto en la teora

clsica tiene solo dos valores posibles: 0 y 1.

Introducciny La teora de conjuntos difusos, extiende la teora

clsica de conjuntos al permitir que el grado de pertenencia de un objeto a un conjunto sea representada como un nmero real entre 0 y 1

Conjuntos Difusosy La edad de una persona es un atributo que la

caracteriza, entonces el concepto joven , puede ser representado por un conjunto difuso, de la forma: Joven = {0/15, 1/20, 1/25, 0/30}. Esto, quiere decir, que las personas de 15 30 aos no son jvenes, pero si lo son las personas de 20 25 aos. En tanto, que una persona de 26 aos lo es con grado 0.8. En este caso el conjunto difuso es representado por valores numricos.

Conjuntos Difusosy El conjunto de las personas que son altas es un

conjunto difuso, pues no est claro el lmite de altura que se establece a partir de que medida una persona es alta o no lo es. Ese lmite es difuso y, por lo tanto, el conjunto que lo delimita tambin lo ser. En este caso, el conjunto difuso es representado por escalares simples.

Sistemas basados en reglas difusasy Un sistema basado en reglas difusas es un sistema

basado en reglas donde la lgica difusa es utilizada como una herramienta para representar diferentes formas de conocimiento acerca del problema a resolver, as como para modelar las interacciones y relaciones que existen entre sus variables.

Sistemas basados en reglas difusasy El modelo relacional no permiten el

procesamiento de consultas del tipo: Encontrar a todos los gerentes cuyo sueldo no sea muy altoy Dado que ni el clculo ni el lgebra relacional, que

establecen el resultado de cualquier consulta como una nueva relacin, tienen la capacidad de permitir consultas de una manera difusa.

Modelos de Implementaciny El problema de la implementacin de los sistemas

gestores de bases de datos difusas ha sido tratado en dos vertientes principales:

Modelos de Implementaciny Iniciar con un sistema gestor de bases de datos relacionales (SGBD) con informacin precisa y desarrollar una sintaxis que permita formular consultas imprecisas, lo cual da origen a extensiones SQL, como Fuzzy SQL, con capacidades de manejar la imprecisin.

SGBD

Gestor de consultas imprecisas

Modelos de Implementaciny Construir un gestor de bases de datos relacionales difusas (SGBDRD) prototipo que implemente un modelo concreto de base de datos relacional difusa en el que la informacin imprecisa pueda ser almacenada. Dentro de esta vertiente existen dos grandes ramas: Los modelos a travs de unificacin por relaciones de similitud y los modelos relacionales basados en distribuciones de probabilidades.distribuciones de probabilidades SGBDRD relaciones de similitud

Representacin de la informaciny Datos Precisos. y Manejados usualmente mediante la representacin provista por la base de datos relacional husped. y Datos Imprecisos. y Los modelos usualmente consideran dos tipos de representacin para los datos imprecisos adems de la informacin desconocida o indeterminada que se maneja mediante los tipos:

unknown, undefined y null:

Tipo de dato Indefinido (undefined)y Cuando un atributo toma el valor undefined, esto refleja

el hecho de que ningn valor de su dominio es permitido. y Por ejemplo: el nmero de telfono de alguien que no tiene telfono.

Tipo de dato desconocido (unknown)y Los datos de este tipo expresan nuestra ignorancia

sobre el valor que el atributo toma, sin embargo expresa tambin que puede tomar uno de los valores del dominio. y Por ejemplo la fecha de nacimiento de alguien, la desconocemos pero tiene que tener alguna.

Tipo de dato nulo (null)y Cuando un atributo toma el valor nulo, esto significa que

no tenemos informacin sobre l, ya sea porque no conocemos su valor o porque es imposible asignarle un valor del dominio. y Por ejemplo el email de alguien es null si desconocemos su valor o si lo tiene o no.

Operaciones relacionales difusasy Los diferentes operadores de comparacin que se

utilizan para representar relaciones en la base de datos son los operadores relacionales. Para que estos funcionen sobre informacin imprecisa es necesario extender estos operadores.

Operaciones relacionales difusasy Igual a: y Este operador modela el concepto de igualdad para

datos imprecisos.

Operaciones relacionales difusasy Aproximadamente igual: y Este operador define el grado en el que dos

valores numricos (no difusos) son aproximadamente iguales de acuerdo a si la diferencia de sus valores se encuentra dentro de un lmite preestablecido. Y se calcula mediante la siguiente expresin:

l modelo GEFREDy El modelo relacional difuso GEFRED (GEneralized

model for Fuzzy RElational Databases) permite representar los siguientes atributos difusos:y Atributo difuso de Tipo 1: Estos atributos son

utilizados para representar valores precisos . y Atributo difuso de Tipo 2: Estos atributos son utilizados para representar valores imprecisos sobre referenc ial ordenado . y Atributo difuso de Tipo 3: Estos atributos son utilizados para representar valores imprecisos sobre referencial no ordenado .

Atributo difuso de Tipo 1y El dominio D, asociado a este tipo de atributo puede

estar definido por:y valores numricos o por escalares simples, en ambos

casos, el grado de posibilidad es 1, es decir con A (u) = 1.

Atributo difuso de Tipo 2y El dominio D, asociado a este tipo de atributo puede estar definido por: y valores numricos o por escalares simples, en ambos casos, con grado de posibilidad 1; y por etiquetas lingsticas; y por valores parcialmente desconocidos entre dos valores precisos; y por valores parcialmente desconocidos entre un valor preciso, en esos tres casos, con grado de posibilidad entre 0 y 1, es decir, con A (u) [0,1]; y por valores desconocidos con grado de posibilidad 1; y por valores inaplicables con grado de posibilidad 0; y por valores nulos con grado de posibilidad 1.

Atributo difuso de Tipo 3y El dominio D, asociado a este tipo de atributo puede

estar definido por:y valores excluyentes de nmeros o escalares con grado de y y y y

posibilidad 1, es decir, con A (u) = 1; por relaciones de similitud con grado de posibilidad entre 0 y 1, es decir, con A (u) [0,1]; por valores desconocidos con grado de posibilidad 1; por valores inaplicables con grado de posibilidad 0 por valores nulos con grado de posibilidad 1.

Manejo de las BDRDy Para el manejo de las bases de datos relacionales

difusas (BDRD) se utiliza el lenguaje Fuzzy SQL (FSQL) que es un lenguaje que deriva de SQL, incorporando las siguientes novedades.

Etiquetas Lingsticasy En las sentencias FSQL las etiquetas van

precedidas del smbolo $, para poder distinguirlas fcilmente. Esta representada por el conjunto difuso LABEL y El conjunto difuso LABEL es definido por una distribucin de posibilidad sobre un intervalo real [0,1] de la forma:

Etiquetas Lingsticasy Supongamos que sobre el atributo edad , adems de la etiqueta

lingstica joven , se encuentra definidas otras dos etiquetas: maduro y mayor . La figura , muestra el dominio de la funcin de pertenencia para cada una de esas etiquetas. As, la edad 26 tiene un grado de pertenencia 0.8 para la etiqueta lingstica joven . Grficamente, la funcin de pertenencia, corresponde a un trapecio dado por sus 4 valores caractersticos, por ejemplo: {0/25, 1/30, 1/40, 0/45}, para la etiqueta lingstica maduro .

Relacin de similitudy Una relacin de similitud permite comparar etiquetas

lingsticas definidas en dominios con referencial no ordenado. Esta relacin indica, que para cada dominio, es necesario definir una funcin de similitud que permita medir la similitud o parecido entre dos valores del dominio. y Matemticamente, una funcin de similitud sr puede ser vista como el producto cartesiano sobre dos dominios D, tal que:

Relacin de similitudy Supongamos que tenemos el atributo color de pelo , donde el dominio se encuentra definido por tres etiquetas lingsticas: Rubio , Moreno , y Pelirrojo . Es este caso el conjunto difuso definido por esas etiquetas, no se encuentra definido en un referencial ordenado, lo que hace necesario la implementacin de una funcin de similitud, que por comodidad, normalmente se presenta en un formato de matriz, tal como lo muestra la tabla

Comparadores Difusosy Permiten comparar dos atributos o un atributo con una

constante. y Conectivas Lgicas:y Pueden usarse NOT, AND y OR, para enlazar

condiciones difusas simples.

Umbral de Cumplimiento (threshold)y Tras cada condicin simple puede imponerse un

umbral de cumplimiento mnimo (por defecto es 1), con el siguiente formato: THOLD La palabra reservada THOLD es opcional y puede sustituirse por un comparador tradicional (=,