1 / 55

Tópicos de Pesquisa e Desenvolvimento no GBD-UFSC

UFSC-CTC-INE Grupo de Banco de Dados da UFSC. Tópicos de Pesquisa e Desenvolvimento no GBD-UFSC. Ronaldo S. Mello Março/2006. Tópicos de Pesquisa Atuais. Integração de Dados (semi-estruturados - XML) Gerência de Dados XML Ferramentas de Apoio à Gerência de Dados.

ronnie
Download Presentation

Tópicos de Pesquisa e Desenvolvimento no GBD-UFSC

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UFSC-CTC-INE Grupo de Banco de Dados da UFSC Tópicos de Pesquisa e Desenvolvimento no GBD-UFSC Ronaldo S. Mello Março/2006

  2. Tópicos de Pesquisa Atuais • Integração de Dados (semi-estruturados - XML) • Gerência de Dados XML • Ferramentas de Apoio à Gerência de Dados

  3. Tópicos de Pesquisa Atuais • Integração de Dados (semi-estruturados - XML) • Gerência de Dados XML • Ferramentas de Apoio à Gerência de Dados

  4. Integração de Dados (XML) • Motivações • disponibilidade crescente de dados XML na Web • formato simples para publicação e transferência • formato texto • muitos dados são redundantes e/ou complementares • interessante ter uma visão única e integrada desses dados • bom para máquinas de busca • bom para aplicações Web que transferem dados XML • Web Semântica • visão da Web como um grande BD! • BDs relacionais ou XML Distribuídos • lidam com fragmentos XML redundantes

  5. Integração de Dados (XML) • Sub-Tópicos de Pesquisa • BInXS • Esquemas GML • Projeto DIGITEX (em parceria com UFRGS)

  6. BInXS • BInXS é uma sigla para • Bottom-up Integration of XML Schemata • Abordagem de integração semântica de esquemas de fontes de dados XML • define um processo composto por 2 etapas • pode ser considerado em um ambiente mais amplo de mediação de fontes XML na Web • componente de uma arquitetura mediador-wrapper

  7. BInXS – Principais Contribuições • Abordagem bottom-up • gera, de forma semi-automática, um esquema global a partir dos esquemas XML das fontes locais • considera todos os dados presentes em todas as fontes • Representações conceituais de esquemas XML • esquemas canônicos e global são conceituais • alto nível de abstração para os dados XML • Estratégia de unificação específica para XML • leva em conta as características semi-estruturadas dos dados XML

  8. BInXS - Processo Esquema Global BInXS Unificação BDs Terminológicas . . . Esquema Conceitual 1 Esquema Conceitual n Usuário Especialista . . . Conversão Conversão Esquema XML 1 . . . Esquema XML n Documentos XML Documentos XML

  9. BInXS - Processo Esquema Global BInXS Unificação BDs Terminológicas . . . Esquema Conceitual 1 Esquema Conceitual n Usuário Especialista . . . Conversão Conversão Esquema XML 1 . . . Esquema XML n Documentos XML Documentos XML

  10. BInXS – Etapa de Conversão • Baseado em um conjunto de regras para mapeamento de construtores do modelo XML para construtores do modelo conceitual • Documentos XML (instâncias) são também analisados • objetivo: gerar, de forma automática, um esquema conceitual preliminar mais próximo de um esquema exato • Modelo conceitual de dados escolhido: ORM • correspondência mais próxima com o modelo XML • elemento complexo  conceito não-léxico • elemento simples ou atributo  conceito léxico • todas as associações entre dados no modelo XML (elemento-elemento, elemento-atributo, referências, ...) são facilmente mapeáveis para associações no modelo ORM

  11. Categoria Livro (1,1) (1,N) (0,1) (0,1) Autor Título Ano (1,1) Endereço (1,1) (1,N) (1,1) Nome Universidade Empresa Modelo XML Nome string (1,1) (1,1) (1,N) (1,N) Universidade (1,N) (1,N) Livro Autor Ano (0,1) (1,N) string integer (1,N) (1,N) (1,N) (1,N) (1,1) comercial residencial (1,1) Empresa (0,1) (1,1) Modelo ORM Categoria string string Endereço {técnico, ficção} Modelos Considerados na Conversão Esquema XML em DTD <!ELEMENT Livro (Título, Ano?, Autor+)> <!ATTLIST Livro Categoria CDATA (técnico | ficção)> <!ELEMENT Autor (Nome, (Universidade+ | Empresa), ...)> <!ELEMENT Nome (#PCDATA) ...

  12. Conversão de Elemento Complexo <!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)> Publicação

  13. Conversão de Elemento Simples <!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)> <!ELEMENT Ano(#PCDATA)> Publicação análise de docs XML Ano integer default: string

  14. Conversão de Componentes <!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)> <!ELEMENT Ano(#PCDATA)> análise de docs XML Publicação default: (1,N) (1,N) (0,1) Ano regras de cardinalidade integer

  15. Conversão de Representações Alternativas <!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)> <!ELEMENT Ano(#PCDATA)> <!ELEMENT Autor(Nome,(Universidade+ | Empresa), ...)> Publicação (1,N) (1,N) (1,N) (0,1) Autor Ano (1,N) (1,N) (1,1) (1,N) integer Universidade Empresa string string

  16. Deifinição de Relações de Especialização <!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)> <!ELEMENT Ano(#PCDATA)> <!ELEMENT Autor(Nome,(Universidade+ | Empresa), ...)> consulta a BDs terminológicas Publicação <Publicação IS-A Livro> (1,N) (1,N) (1,N) (0,1) Autor Livro Ano (1,N) (1,N) (1,1) (1,N) integer Universidade Empresa string string

  17. Conversão de Atributos <!ELEMENT Publicação (Ano?,...,Autor+,...,Livro?)> <!ELEMENT Ano(#PCDATA)> <!ELEMENT Autor(Nome,(Universidade+ | Empresa), ...)> <!ATTLIST Livro Categoria CDATA#REQUIRED(técnico | ficção)> Publicação (1,N) (1,N) (0,1) (1,N) Autor Ano integer Livro (1,N) (1,N) (1,N) (1,1) (1,N) (1,1) Universidade Empresa Categoria string string string {técnico, ficção}

  18. Conversão de Elementos Mistos ... <!ELEMENT Livro (Editora,...,Capítulo+,...)> <!ELEMENT Capítulo (Seção |#PCDATA)*> Livro (1,1) (1,N) Capítulo (1,1) (1,1) (0,N) (0,N) Seção Capítulo-Texto string

  19. BInXS – Dados de Mapeamento • Dados gerados durante a conversão • Expressões XPath • indicam o caminho até o dado XML na fonte local • permitem a localização de dados nas fontes XML a partir do esquema global • definem mapeamento para conceitos e relacionamentos • Exemplos Fonte XML 1: LivroCapítulo: conteúdo/capítulo CapítuloLivro: . . / . . Fonte XML 2:  Livro (1,1) (1,N) Capítulo Fonte XML 1: /publicação/livro Fonte XML 2: /acervo/midiaImpressa/livro Fonte XML 1: /publicação/livro/conteúdo/capítulo Fonte XML 2: 

  20. BInXS – Catálogo • Definição em OWL (Ontology Web Language) • recomendação atual da W3C para descrição de ontologias e esquemas conceituais de dados • Exemplo <Class ID = “Livro”> <subClassOf resource = “NonLexicalConcept”/> <subClassOf> <restriction> <onProperty resource = “#RelatedConcept”> <toClass> <UnionOf parseType = “collection”> <Thing about = “#LivroCapitulo”> ... </UnionOf> </toClass> </onProperty> ... </restriction> </subClassOf> </Class> Livro (1,1) (1,N) Capítulo

  21. BInXS - Processo Esquema Global BInXS Unificação BDs Terminológicas . . . Esquema Conceitual 1 Esquema Conceitual n Usuário Especialista . . . Conversão Conversão Esquema XML 1 . . . Esquema XML n Documentos XML Documentos XML

  22. BInXS – Etapa de Unificação • Geração de um esquema conceitual global a partir dos esquemas conceituais locais • Etapas tradicionais da integração de esquemas de BDs são aplicadas • Comparação de Esquemas • agrupa conceitos ORM em clusters de afinidade • apoio deBDs Terminológicaspara determinar esses clusters • “Casamento” (Unificação propriamente dita) • gera um conceito global para cada cluster de afinidade • trata 3 casos de unificação: LxL, NLxNL e NLxL • Reestruturação • executa ajustes manuais e automáticos no esquema global • remoção de relacionamentos redundantes, generalização de conceitos, ...

  23. Casos de Unificação

  24. Exemplo de Unificação L x L {técnico, infantil, poesia} {técnico, ficção} Classe Categoria X string[30] string[20] Fonte XML 2 Fonte XML 1 {técnico, ficção, infantil, poesia} Categoria Esquema Global string[30]

  25. Classe (1,N) Categoria Universidade (1,N) (1,1) (1,N) (0,2) Universidade (1,N) (1,N) (1,1) (1,N) (1,1) (1,N) Instituto-Pesquisa (1,N) Empresa Autor (1,N) Escritor (1,N) (1,1) Empreendimento (1,N) (1,N) Escritório (1,N) (1,1) (1,N) Escritório Domicílio X (1,N) (1,1) Fonte XML 2 Residência Fonte XML 1 Categoria (0,N) Universidade (1,N) Residência (1,N) (0,1) Empresa (1,N) (1,N) (1,N) Autor (1,N) Instituto-Pesquisa (1,N) (0,1) (1,N) Esquema Global (0,1) Escritório Exemplo de Unificação NL x NL

  26. Exemplo de Unificação NL x L Residência Domicílio (1,N) X (1,1) (1,1) (1,N) Rua (0,1) (1,1) Número Cidade Fonte XML 2 Fonte XML 1 Residência (1,N) (1,1) (1,1) (1,N) Rua (0,1) (1,1) Mapeamento do conceito Cidade para a Fonte XML 2: /Autores/Autor/Domicílio Número Esquema Global Cidade

  27. Exemplos de Reestruturação Publicação Título Publicação generalização de conceitos (1,1) (1,1) Artigo Livro Artigo Livro (1,1) (1,1) Título (1,1) (1,1) remoção de relacionamentos redundantes Publicação Publicação (1,N) (1,N) (1,1) (1,1) (1,N) (1,1) Livro Ano Livro Ano

  28. BInXS – Trabalhos • Concluídos • sistema de controle de BDs terminológicas (Fabrício - TCC) • conversão de esquemas XML Schema para ORM (Leonardo Garcia - TCC) • Em Andamento • geração de esquemas XML a partir de docs XML (Keli & Susane - TCC) • biblioteca de funções de apoio (análise de documentos XML, geração de info. mapeamento, etc) (Bernardo - TCC) • análise e incorporação de RIs de domínio das fontes XML no esquema global (Khaue - dissertação) • A Desenvolver... • projeto e implementação de TODA a etapa de unificação • interface gráfica do BInXS • ...

  29. Integração de Dados (XML) • Sub-Tópicos de Pesquisa • BInXS • Esquemas GML • Projeto DIGITEX (em parceria com UFRGS)

  30. Integração de Esquemas GML • GML (Geographic Markup Language) é uma aplicação da XML e uma recomendação internacional para representação de dados geográficos • inclui propriedades convencionais e espaciais de fenômenos geo-referenciados • pode ser utilizada em aplicações de diversas áreas • cadastro urbano, controle de queimadas, ... • interessados: órgãos públicos, institutos de pesquisa, ... • Interoperabilidade de esquemas e dados GML entre aplicações é relevante • exemplo: unificação ou transferência de dados cadastrais de/entre distritos de um município • problema de integração de esquemas de BDG • tratamento da heterogeneidade de dados em diversos níveis • convencional, espacial, ...

  31. Esquemas GML - Trabalhos • Em Andamento • método para determinação de equivalências semânticas entre esquemas GML para o domínio de cadastro urbano (Ângelo - dissertação) • considera a existência de uma ontologia de domínio em OWL • estratégia adotada • “conceitos GML de esquemas diferentes são semanticamente equivalentes se ambos tem equivalência com o mesmo conceito da ontologia” • principais problemáticas • definição de métricas de similaridade (estrutural, espacial, conteúdo, etc) entre conceitos GML e OWL • definição de um catálogo de mapeamento entre esquemas GML e OWL • apoio à implementação do método (Rafael Vasel e Leonardo Rosa - TCCs)

  32. Integração de Dados (XML) • Sub-Tópicos de Pesquisa • BInXS • Esquemas GML • Projeto DIGITEX (em parceria com UFRGS)

  33. Projeto DIGITEX • Projeto CNPq/CTInfo iniciado em nov/05 • grupos de BD de 3 universidades (UFRGS,UFSC e UCPel) • 8 docentes pesquisadores, alunos de pós-graduação e bolsistas • duração de 2 anos • Digitex é um apelido para • Plataforma de Indexação e Busca Personalizada em Bibliotecas Digitais

  34. Projeto DIGITEX • Motivação • biblioteca digital é uma tecnologia que permite agregar e gerar conhecimento que pode ser disponibilizado a todos • Objetivos e Metas • auxiliar no processo social de criar conhecimento científico, aperfeiçoar este conhecimento através da revisão pelos pares e indicar ou receber indicação de conhecimento relevante • definir o ciclo do processo de editoração de documentos científicos digitais com revisão interativa pelos pares de discussão pública e o tratamento de versões dos documentos publicados • tratar o problema de sugestão e aquisição de artigos baseado no interesse e perfil do usuário utilizando-se de uma ontologia de domínio, e lidando com a questão da integração de instâncias equivalentes de documentos advindos de fontes heterogêneas • Contribuição • gestão automatizada do conhecimento de uma biblioteca digital • resultados devem ser aplicados à Biblioteca Digital da SBC

  35. DIGITEX – Sub-Projetos

  36. DIGITEX – Sub-Projetos gerência do armazenamento e acesso a documentos, assim como a gerência da evolução dos documentos tanto a nível de conteúdo quanto de estrutura (Nina Edelweiss e Renata de Matos Galante - UFRGS)

  37. DIGITEX – Sub-Projetos obtenção automática, semi-automática ou manual de metadados dos documentos digitais e seu armazenamento em formato XML compatível com Dublin Core e com a plataforma BDBComp, e sua disponibilização como um Web service. Para um domínio de aplicação (no caso, a área de Computação) será desenvolvida uma Ontologia de Domínio (José Palazzo Moreira de Oliveira – UFRGS)

  38. DIGITEX – Sub-Projetos gerência dos processos de autoria e revisão coletiva dos documentos digitais, levando em conta o gerenciamento da percepção dos atores do trabalho (mecanismos de awareness) que está sendo desenvolvido, não apenas para direcionar o esforço do grupo, mas também receber informações para melhorar sua participação (José Valdeni de Lima – UFRGS)

  39. DIGITEX – Sub-Projetos processo de integração de instâncias heterogêneas de documentos digitais estruturados (ou de metadados a partir deles gerados) (já no formato XML) semanticamente equivalentes, a serem arquivados na biblioteca digital (Carlos A. Heuser - UFRGS, Ronaldo S. Mello - UFSC)

  40. DIGITEX – Sub-Projetos análise de dados associados a um usuário, tais como CV Lattes, documentos previamente recuperados, características de navegação entre outros, e definição de um modelo do usuário. Este modelo de usuário é utilizado no processo de recuperação e recomendação de documentos, em conjunto com a ontologia de domínio (Maria Aparecida Souto – UFRGS)

  41. DIGITEX – Sub-Projetos registro e certificação das atividades e qualificação dos participantes do processo com base em dados objetivos e pareceres dos pares. Esta atividade é essencial para atribuir um “valor de qualidade” a uma publicação realizada. Os fundamentos são, em parte, relacionados com o conceito de page rank, mas considerando o valor acadêmico da recomendação ou referência (José Palazzo M. de Oliveira e José Valdení de Lima - UFRGS)

  42. DIGITEX – Sub-Projetos processo de classificação de documentos em função da correlação entre as características dos documentos e dos usuários durante uma busca. Leva em conta aspectos de similaridade com o tópico utilizado na busca e o perfil do usuário (Stanley Loh - UCPel)

  43. DIGITEX – Trabalhos • Em Andamento • definição de um método de determinação de similaridade entre instâncias XML heterogêneas (Rodrigo - dissertação) • implementação do método (Carlos – bolsista IC) • definição de operadores de integração de instâncias XML heterogêneas similares (Fabiano - dissertação) • implementação dos operadores (Fábio – bolsista IC) (Obs.: os resultados destes trabalhos podem ser aproveitados para o ambiente de mediação que o BInXS faz parte)

  44. Tópicos de Pesquisa Atuais • Integração de Dados (semi-estruturados - XML) • Gerência de Dados XML • Ferramentas de Apoio à Gerência de Dados

  45. Gerência de Dados XML • Motivação • manipulação crescente de dados XML por aplicações • pesquisa e desenvolvimento de SGBDs XML ou extensões de SGBDRs é “recente” e tem open issues • armazenamento e acesso eficientes, restrições de integridade, gerência de transações, modelagem de BDs XML, ... • Sub-Tópicos de Pesquisa • Restrições de Integridade • Mapeamento do modelo XML para outros modelos de dados • Projeto lógico de BD XML

  46. Gerência de Dados XML - Trabalhos • Concluídos • controle de restrições de integridade de domínio para documentos XML (XDC) (Alexandre Lazzaretti - dissertação) • define uma linguagem de marcação para especificação de RIs em dados XML (XDCL) • sintaxe SQL-like para checks e triggers • considera a tecnologia relacional para controle de RIs • define um parser para validação de um doc XML com relação a um doc de restrições XML (.xdc)

  47. analysis of domain integrity constraints analysis of data requirements conceptual schema domain integrity constraint for data definition XML documents of the applications reference definition reference XDCL specifications composed by XML database reference reference XML schema document composed by XDC document XML instances query schema validation query XML parser domain integrity constraint validation XDCL parser generation generation validation result validation result XDC reference validation XDC - Contexto application domain

  48. Gerência de Dados XML - Trabalhos • Concluídos • processo de mapeamento de esquemas XML-Schema para esquemas relacionais (Cláudio Maurício - dissertação) • define um conjunto detalhado de regras de mapeamento que leva em conta todos os conceitos do modelo da XML Schema • define um algoritmo para aplicação destas regras • processo de mapeamento de esquemas de BDOO para esquemas XML-Schema(Fabiana Peres - dissertação) • mesma abordagem do trabalho anterior

  49. Gerência de Dados XML - Trabalhos • Em andamento • Metodologia para projeto lógico (e físico?) de BDs XML (Alessandro Lemos - dissertação) • definição de um conjunto de etapas para modelagem lógica (modelo de grafo hierárquico) e física XML (esquema DTD ou XSD) a partir de uma modelagem conceitual ER • deve definir regras detalhadas de modelagem lógica que levem em conta todos os conceitos do modelo ER • deve definir algoritmos de mapeamento

  50. ISBN título nome (1,N) (0,N) eMail (0,N) Autores Livros autoria nome ordem (1,N) (1,1) Capítulos organização referências (0,N) Projeto de BD XML - Exemplo Livros (1,N) Livro (1,1) (1,1) ISBN Título <!ELEMENT Livros (Livro+)> <!ELEMENT Livro (Título, Autor+, Capítulo+)> <!ATTLIST Livro ISBN CDATA> <!ELEMENT Título (#PCDATA)> <!ELEMENT Autor (Nome, eMail*)> <!ELEMENT Nome (#PCDATA)> <!ELEMENT eMail (#PCDATA)> <!ELEMENT Capítulo (Nome, Referência*)> <!ATTLIST Capítulo ordem CDATA> <!ELEMENT Referência (#PCDATA)> (1,N) (1,N) Autor Capítulo (1,1) (1,1) (1,1) (0,N) (0,N) Nome Nome Ordem eMail Referência

More Related