Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P....

18
Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur- Smith Richard Y. Wang

Transcript of Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P....

Page 1: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Sample-Based Quality Estimation of Query

Results in Relational Database Environments

•Donald P. Ballou•InduShobha N. Chengalur-Smith•Richard Y. Wang

Page 2: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Agenda

• Motivación• Definiciones• Hipótesis• Proceso de Medición• Ejemplo• Consideraciones sobre el

muestreo• Crítica del artículo

Page 3: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Motivación

•Investigaciones previas no brindan una solución general.▫Asumen tasas fijas de error▫Dimensiones y factores específicos

•Quienes toman decisiones, requieren un cierto nivel de calidad.

Page 4: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Definiciones

•IP (Information Product)▫Resultado de una consulta.

•Unidad de Datos▫Celda.▫Conjunto de celdas.▫Tupla.

Page 5: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Definiciones

•Aceptabilidad de una unidad de datos▫Dependiendo de si es apto para el uso en el

IP y de la dimensión de calidad considerada.

•Medida de calidad de un IP▫Unidades de datos aceptables, dividido el

número total de unidades de datos.

Page 6: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Hipótesis

•Hipótesis de Herencia

•Hipótesis de Distribución del Error

•Hipótesis de Calidad de Muestras▫Sistemas comerciales las tablas suelen ser muy

grandes y dinámicas.▫Muestras de las tablas de la base de datos.

Page 7: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Proceso de medición

•Estimación de la Calidad de las Tablas Base para un IP▫Tablas muy grandes => se toman

muestras ▫Se determina la aceptabilidad de cada

unidad de datos con respecto al IP.▫Estimación en función del IP

considerado, por lo que puede variar de un IP a otro

Page 8: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

•Procedimiento de Tabla Referencial▫Estima cuánto se aleja un IP real del IP sin

errores. Se utiliza dicha estimación como la de la

calidad del IP.▫Se estima la calidad del IP como:

T1: IP generado a partir de las muestras originalesT2: IP generado a partir de las muestras corregidas

Proceso de medición

Page 9: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Operaciones del álgebra relacional

•Técnica más intuitiva de obtener estimaciones de la calidad de los IP.

•Aplicable solo en casos simples.

•Selección▫Misma estimación de calidad calculada

para la tabla base, por hipótesis de la distribución del error.

Proceso de medición

Page 10: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

•Proyección

▫No hay duplicados (incluye la PK): Se mide la calidad de la muestra

considerando solo las columnas seleccionadas.

▫Si hay duplicados: Se debe aplicar el procedimiento de tabla

referencial.

Operaciones del álgebra relacional

Proceso de medición

Page 11: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

•Unión

▫Si no existen duplicados, se puede estimar como:

Pi : proporción de unidades de datos aceptables de la tabla ini : tamaño de la muestra de la tabla i

Se puede generalizar fácilmente a múltiples tablas.

▫Si existen duplicados, se debe utilizar el Procedimiento de Tabla Referencial.

Operaciones del álgebra relacionalProceso de medición

Page 12: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

•Diferencia▫IP se forma a través de T – S => calidad del IP

es la calidad de T.▫Procedimiento Tabla Referencial

•Producto Cartesiano ▫Cada tupla del producto será aceptable si las

unidades de datos que la componen lo son.▫ La estimación se obtiene multiplicando la

proporción de valores aceptables para los componentes.

Operaciones del álgebra relacionalProceso de medición

Page 13: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

• Join▫ Es una combinación del producto cartesiano y selección▫ Se considera en este estudio como un caso especial (es

muy utilizada)

• Join sobre claves foráneas▫ La estimación de la calidad será la estimación de la

calidad del producto cartesiano.• Join sobre columnas que no son claves foráneas

▫ Es necesario recurrir al procedimiento de la tabla referencial.

Operaciones del álgebra relacionalProceso de medición

Page 14: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

EjemploCédula Nombre Telefono

1.111.222-3 Juan Varela 1234562.666.777-7 Pedro Perez 6789014.000.555-1 Carla Mu~oz 9876543.333.123.8 Julieta Martínez a2.122.772-3 Luis Gonzalez 1230062.282.124-1 Roberto Brum 8645314.045.755-9 Ernesto Rodriguez 4107823.773.444.2 Sandra Lopez 553637

Estimar la calidad del siguiente IP:select * from personas;

Todos los datos deben ser correctos => granularidad a nivel de tupla- 3 unidades de datos incorrectas- 8 unidades de datos en total

- La calidad de la muestra es: (8 -3) /8 = 0,625

- Como es una selección, no es necesario aplicar Proc. Tabla Referencial.La Calidad del IP se puede estimar como 0,625 .

- Si el IP fuera una proyección por cedula y telefono, el error en la columna nombre no se hubiera considerado y la calidad de la muestrahubiera sido otra.

Page 15: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Consideraciones sobre el muestreo•Tamaño de la muestra

▫Tomar muestras de tamaño suficientemente grande a fin de que aparezcan tuplas defectuosas en la muestra.

•Tuplas faltantes▫Los datos de una tabla son correctos, pero

debería tener tuplas que no tiene.▫Técnica de captura / recaptura: dos etapas de

muestreo independiente, donde se etiqueta la primera de ellas.

Page 16: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Consideraciones sobre el muestreo•Ejemplo Técnica de captura/recaptura:

▫ Tabla de empleados con n2 tuplas.

▫ Evaluación independiente (encuesta) encuentra n1 empleados.

▫ De estos n1 empleados, m2 se encuentran en la tabla.

▫ Se puede estimar el nro. de empleados que faltan como:

(n1 * n2 / m2) – n2

Page 17: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Critica del artículo•Aspectos Positivos

▫Conjunto fijo de muestras reutilizables.▫No requiere conocimiento a priori sobre la

calidad de las tablas.▫Generalidad del Procedimiento de Tabla

Referencial.•Aspectos Negativos

▫Dificultad para identificar y corregir los errores en una muestra.

▫No se consideran las operaciones de agregación y agrupamiento (sum, count, avg y group by)

▫Tiempos prohibitivos ante la estimación de calidad de un nuevo IP.

Page 18: Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.

Preguntas