Using Quality of Data Metadata for Source Selection and Ranking

Using Quality of Data Metadata for Source Selection andRanking Santiago López Andrés Margalef

Agenda • Introducción y Datos generales • Motivación • Objetivos • Modelo • Lenguaje de consulta • Solución Propuesta • Críticas • Conclusión

Introduccion • Usando la Calidad de Datos para la selección de fuentes de datos. • Autores • George Mihaila. (Doctorado en Universidad de Toronto, actualmente trabaja IBM). • Louiqa Raschid. (UMIACS) • María Esther Vidal. (UMIACS) • Fecha Publicación • ¿2000?

Motivación • Crecimiento del uso de Internet • Adopción formatos y estándares • Cuales son los datos relevantes para un determinado problema? • De los datos relevantes, cuales son los mejores?

Objetivos • Usando calidad de datos… • Selección de fuentes de datos • Ranking de fuentes relevantes • Score de rankeo

Modelo • Bases del modelo • Se basa en atributos de dimensión y de medición, los dominios de ellos y además de parámetros de calidad de los datos. • Parámetros de calidad • Completitud • Edad de los datos (Recency) • Frecuencia de actualización (Update Frecuency) • Granularidad (Granularity)

Componentes del modelo • SODA: conjunto de atributos dimensión como por ejemplo ciudad, tiempo. • SOMA: conjunto de atributos de medición por ejemplo, temperatura, presión atmosférica. • T1…TN son tipos relacionales, cada Ti tienen un conjunto de atributos los cuales estos tienen determinados dominios. Los atributos pertenecen a la unión entre SODA y SOMA. • Fuente S, que contiene los datos para cada Ti comprendida.

Descriptores de calidad del contenido de una fuente (SCQD) Es una terna (t, cd, qods) • t: tipo relacionado a los datos (valor de Ti) • Cd: es el descriptor del contenido, comprende un conjunto de parejas de atributos y su respectivos dominio. Estos atributos pertenecen a SODA. • Qods: conjunto de descriptores de calidad de los datos.

Descriptor de calidad de dato (QOD) Es una tupla con los elementos (lcd, c, r, f, g, soma) los cuales • lcd: descriptor de contenido de alguna fuente, estos deben estar incluidos en el descriptor del contenido (cd). • c, r, f, g: corresponden a los parámetros de calidad de datos, completitud, edad de datos, frecuencia de actualización y granularidad respectivamente. • soma: subconjunto de todos los atributos de medición (SOMA).

Identificación de componentes

Proponen utilizar el formato WS-XML

Lenguaje de Consulta • Notación similar a SQL.

Resultados de las Consultas Se devuelve una lista ordenada de las fuentes que verifican las condiciones impuestas en la consulta. • A cada fuente se le asigna un score que indica el nivel de relevancia de la fuente. • Combinando fuentes.

Solución Propuesta • Ejemplo

Agrupando descriptores de contenido de las fuentes. (Buckets) • Buckets del ejemplo

Surge un problema… • Si bien se reduce el problema de eficiencia, igualmente es posible que la cantidad de buckets crezca considerablemente. • Como se puede solucionar?… • Extendiendo la solución empleando conjuntos parcialmente ordenados

Conjuntos parcialmente ordenados • Relación de inclusión entre Buckets. • Bi esta incluido en Bj si y solo si, los dominios comprendidos por los atributos de Bi están incluidos estrictamente en los dominios de los atributos definidos en Bj. • Incompatibilidad Dos buckets son incompatibles si no son el mismo y ninguno esta incluido en el otro. • Usando la inclusión entre buckets se agrupan buckets en diferentes niveles, cada nivel es un superbucket.

SuperBucket • Consiste en la agrupación de los buckets incompatibles. • Implícitamente si un bucket Bi incluye a otro Bj, entonces el superbucket que aloja Bi incluye al superbucket que aloja Bj • Conjunto parcialmente ordenado(po-set) • Conjunto de superbackets ordenados según la relación de inclusión

po-set del ejemplo

Combinaciones de SCQD • Si no hay una fuente que cumpla con la consulta se pueden usar combinaciones de fuentes de datos, de manera tal que el resultado obtenido de esta combinación cumpla con las condiciones de la consulta , y como consecuencia esta combinación es relevante. • Aquellos buckets tal que su lcd cumplan con algún elemento del lcd propuesto en la consulta serán los candidatos a formar parte de la combinación.

En este ejemplo los buckets candidatos son: B32, B31, B12, resultando las siguientes combinación de fuentes: {S1, S2, S6}, {S1, S2, S5}, {S2, S4, S6}, {S2,S4, S5}.

Problemas • Puede existir un numero muy grande de combinaciones de fuentes. • Alternativa 1 • Extender el po-set hacia un lattice. • Se agregan todos los buckets generados a través de combinación de fuentes a la estructura de superbukets. • El problema de esta solución ese que igualmente puede existir un crecimiento exponencial de la cantidad de buckets.

Alternativa 2 • Construir parcialmente el lattice. • Se agrega un bucket que contiene la combinación de las fuentes de los buckets mas generales. • Solución sencilla, pero tiene como contrapartida la perdida de exactitud en los datos devueltos.

Según esta metodología el ejemplo retornaría el resultado a S2 y S3, cuando existe una mejor solución realizando la unión de S1 y S2

Criticas • No es auto contenido • Creación de scores no desarrollados. • Elección de parámetros de calidad. • No consigue una solución definitiva • Ubicación de componentes de ejemplos inadecuada. • Ausencia de fecha de publicación del articulo. • Profundidad técnica sencilla de comprender • Presenta ejemplos claros.

Conclusión • Problemática adecuada a la realidad • Solución no es completamente madura. • Mejorar el desarrollo de las alternativas propuestas. • Una buena idea para solucionar problemas que se presentan en la actualidad en esta area.

Preguntas

Using Quality of Data Metadata for Source Selection and Ranking

Using Quality of Data Metadata for Source Selection and Ranking

Presentation Transcript

Using Metadata to Drive Data Quality Hunting the Data Dust Bunnies

Evidence and Source Selection

Data selection from metadata catalogues

Survey Data Management Using Metadata

Better data quality through global data and metadata sharing

GMDH-based feature ranking and selection for improved classification of medical data

Source Selection and Evaluation

Data quality and station selection

Tools for Dissemination of Data and Metadata

Measuring Data Quality and Compilation of Metadata

Source Selection

Defining Source Metadata

Using Metadata to Link Uncertainty and Data Quality

Metadata and quality

Contextual Ranking of Keywords Using Click Data

Using Quality of Data Metadata for Source Selection and Ranking

Source Selection and Evaluation

Quality Metadata

Measuring Data Quality and Compilation of Metadata