Sample-Based Quality Estimation of Query
Results in Relational Database Environments
•Donald P. Ballou•InduShobha N. Chengalur-Smith•Richard Y. Wang
Agenda
• Motivación• Definiciones• Hipótesis• Proceso de Medición• Ejemplo• Consideraciones sobre el
muestreo• Crítica del artículo
Motivación
•Investigaciones previas no brindan una solución general.▫Asumen tasas fijas de error▫Dimensiones y factores específicos
•Quienes toman decisiones, requieren un cierto nivel de calidad.
Definiciones
•IP (Information Product)▫Resultado de una consulta.
•Unidad de Datos▫Celda.▫Conjunto de celdas.▫Tupla.
Definiciones
•Aceptabilidad de una unidad de datos▫Dependiendo de si es apto para el uso en el
IP y de la dimensión de calidad considerada.
•Medida de calidad de un IP▫Unidades de datos aceptables, dividido el
número total de unidades de datos.
Hipótesis
•Hipótesis de Herencia
•Hipótesis de Distribución del Error
•Hipótesis de Calidad de Muestras▫Sistemas comerciales las tablas suelen ser muy
grandes y dinámicas.▫Muestras de las tablas de la base de datos.
Proceso de medición
•Estimación de la Calidad de las Tablas Base para un IP▫Tablas muy grandes => se toman
muestras ▫Se determina la aceptabilidad de cada
unidad de datos con respecto al IP.▫Estimación en función del IP
considerado, por lo que puede variar de un IP a otro
•Procedimiento de Tabla Referencial▫Estima cuánto se aleja un IP real del IP sin
errores. Se utiliza dicha estimación como la de la
calidad del IP.▫Se estima la calidad del IP como:
T1: IP generado a partir de las muestras originalesT2: IP generado a partir de las muestras corregidas
Proceso de medición
Operaciones del álgebra relacional
•Técnica más intuitiva de obtener estimaciones de la calidad de los IP.
•Aplicable solo en casos simples.
•Selección▫Misma estimación de calidad calculada
para la tabla base, por hipótesis de la distribución del error.
Proceso de medición
•Proyección
▫No hay duplicados (incluye la PK): Se mide la calidad de la muestra
considerando solo las columnas seleccionadas.
▫Si hay duplicados: Se debe aplicar el procedimiento de tabla
referencial.
Operaciones del álgebra relacional
Proceso de medición
•Unión
▫Si no existen duplicados, se puede estimar como:
Pi : proporción de unidades de datos aceptables de la tabla ini : tamaño de la muestra de la tabla i
Se puede generalizar fácilmente a múltiples tablas.
▫Si existen duplicados, se debe utilizar el Procedimiento de Tabla Referencial.
Operaciones del álgebra relacionalProceso de medición
•Diferencia▫IP se forma a través de T – S => calidad del IP
es la calidad de T.▫Procedimiento Tabla Referencial
•Producto Cartesiano ▫Cada tupla del producto será aceptable si las
unidades de datos que la componen lo son.▫ La estimación se obtiene multiplicando la
proporción de valores aceptables para los componentes.
Operaciones del álgebra relacionalProceso de medición
• Join▫ Es una combinación del producto cartesiano y selección▫ Se considera en este estudio como un caso especial (es
muy utilizada)
• Join sobre claves foráneas▫ La estimación de la calidad será la estimación de la
calidad del producto cartesiano.• Join sobre columnas que no son claves foráneas
▫ Es necesario recurrir al procedimiento de la tabla referencial.
Operaciones del álgebra relacionalProceso de medición
EjemploCédula Nombre Telefono
1.111.222-3 Juan Varela 1234562.666.777-7 Pedro Perez 6789014.000.555-1 Carla Mu~oz 9876543.333.123.8 Julieta Martínez a2.122.772-3 Luis Gonzalez 1230062.282.124-1 Roberto Brum 8645314.045.755-9 Ernesto Rodriguez 4107823.773.444.2 Sandra Lopez 553637
Estimar la calidad del siguiente IP:select * from personas;
Todos los datos deben ser correctos => granularidad a nivel de tupla- 3 unidades de datos incorrectas- 8 unidades de datos en total
- La calidad de la muestra es: (8 -3) /8 = 0,625
- Como es una selección, no es necesario aplicar Proc. Tabla Referencial.La Calidad del IP se puede estimar como 0,625 .
- Si el IP fuera una proyección por cedula y telefono, el error en la columna nombre no se hubiera considerado y la calidad de la muestrahubiera sido otra.
Consideraciones sobre el muestreo•Tamaño de la muestra
▫Tomar muestras de tamaño suficientemente grande a fin de que aparezcan tuplas defectuosas en la muestra.
•Tuplas faltantes▫Los datos de una tabla son correctos, pero
debería tener tuplas que no tiene.▫Técnica de captura / recaptura: dos etapas de
muestreo independiente, donde se etiqueta la primera de ellas.
Consideraciones sobre el muestreo•Ejemplo Técnica de captura/recaptura:
▫ Tabla de empleados con n2 tuplas.
▫ Evaluación independiente (encuesta) encuentra n1 empleados.
▫ De estos n1 empleados, m2 se encuentran en la tabla.
▫ Se puede estimar el nro. de empleados que faltan como:
(n1 * n2 / m2) – n2
Critica del artículo•Aspectos Positivos
▫Conjunto fijo de muestras reutilizables.▫No requiere conocimiento a priori sobre la
calidad de las tablas.▫Generalidad del Procedimiento de Tabla
Referencial.•Aspectos Negativos
▫Dificultad para identificar y corregir los errores en una muestra.
▫No se consideran las operaciones de agregación y agrupamiento (sum, count, avg y group by)
▫Tiempos prohibitivos ante la estimación de calidad de un nuevo IP.
Preguntas
Top Related