1 / 56

Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular. Departamento de Informática PUC-Rio Aluno: Luiz Fernando Bessa Seibel (seibel@inf.puc-rio.br) Orientador : Sérgio Lifschitz (lifschitz@inf.puc-rio.br). Agenda. Introdução Motivação

Download Presentation

Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular Departamento de Informática PUC-Rio Aluno: Luiz Fernando Bessa Seibel (seibel@inf.puc-rio.br) Orientador: Sérgio Lifschitz (lifschitz@inf.puc-rio.br)

  2. Agenda • Introdução • Motivação • Abordagens de integração • no contexto da biologia molecular • Trabalhos relacionados • A solução proposta - via framework • Funcionalidades • Instanciação dos hot spots • Modelo de dados da arquitetura • Modelo conceitual de informações biológicas • Comparação entre as arquiteturas de integração • Implementação da solução proposta • Estudos de caso • Contribuições • Trabalhos futuros Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  3. Introdução • Proposta inicial do doutorado: Pesquisa na área de Bioinformática • Primeiro contato com FioCruz: 97 • Resposta à questão: “que modelo de dados é apropriado ?” • Importância de arquitetura de integração que atendesse requisitos da pesquisa • Importância de construção de índices para sequências (melhorar desempenho do BLAST) • Poucos grupos de pesquisa na área de bancos de dados e bioinformática: S. Davidson, N. Paton, N. Goodman, V. Markowitz Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  4. MotivaçãoRequisitos da Pesquisa em Bioinformática • Desafios: • Lidar com enormes volumes de dados de sequências e outras anotações biológicas, armazenadas em inúmeras fontes de dados heterogêneas, que estão distribuídas • Desenvolver algoritmos de suporte à interpretação dos dados • Novas descobertas precisam ser incorporadas às fontes de dados e podem exigir reconstrução dos algoritmos • Novo ramo da ciência: Bioinformática Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  5. MotivaçãoRequisitos da Pesquisa em Bioinformática • Problemas a resolver: • acesso eficiente e integrado às informações • tratamento da evolução dos esquemas das fontes de dados • tratamento da heterogeneidade das fontes de dados • formulação de consultas complexas • acesso a dados atualizados • uso de estruturas de índices para acesso aos dados • desenvolvimento de algoritmos específicos • qualidade das informações armazenadas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  6. MotivaçãoFontes de Dados de Biologia Molecular • Arquivos texto • Bancos de dados que usam modelos de dados distintos (relacional, orientado a objetos, relacional-objeto, semi-estruturados) • Arquivos com formatos apropriados para a execução de algoritmos específicos (ex: FASTA, BLAST) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  7. MotivaçãoFontes de Dados de Biologia Molecular • Armazenam informações complementares do domínio do conhecimento • sequências de nucleotídeos e de proteínas • estruturas de proteínas • microarrays de DNA • anotações de fenômenos biológicos • taxonomia • publicações • pessoas e centros de pesquisa Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  8. MotivaçãoFontes de Dados de Biologia Molecular • Contém dados de: • diversos organismos [GenBank, PIR, Swiss-Prot] • um organismo [AceDB, TcruziDB] • células específicas (ou partes de) [Mitomap] • funções biológicas específicas [ExPASy] • mutações [Human Mutation Databases] Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  9. MotivaçãoAplicações e Ferramentas • Estão associadas às fontes de dados • Cada fonte disponibiliza um conjunto reduzido de aplicações • Podem exigir formatos específicos • Existe código fonte público • Exemplos: • Depuração das sequências [LabBase] • Sistema automático de submissão de sequências [LabBase] • Montagem de fragmentos [Phred-Phrap] • Pesquisa de genes [GeneFinder] • Comparação de sequências [FAST, BLAST] • Alinhamento de sequências [ClustalW] • Visualização do mapa do cromossomo / fragmento [AceDB] Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  10. Abordagens de Integração no Contexto da Biologia Molecular(Trabalhos Relacionados) • Via SGBDDH • Via multidatabase • CPL/Kleisli por P. Buneman, S. Davidson et al. • Via data warehouse • GIMS por N. Paton, C. Goble et al. • Via mediador • proposto por P. Karp • Outras formas de integração usadas em biologia • Via navegação hipertexto entre registros de fontes de dados • Entrez (NCBI) • Via sistemas de links entre fontes de dados • SRS (EBI) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  11. Discussão das Abordagens de Integração da Biologia Molecular Ferramentas apresentam limitações: • São pouco flexíveis • adotam modelo de dados / esquema próprio • tem dificuldades inerentes à alteração dos esquemas • não permitem o uso das aplicações disponíveis • Apresentam baixa performance • Não são extensíveis • não permitem incorporar aplicações existentes • limitam o uso das fontes de dados envolvidas • não permitem a instanciação de uma fonte de dadosapropriada a uma pesquisa específica Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  12. Por que a integração via framework ? Definição: “Um Framework é uma arquitetura abstrata de software, flexível e extensível, que contém componentes pré-definidos (frozen spots) e outros que devem ser instanciados (hot spots) para a implementação de um desejado e particular sistema” Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  13. A Solução Proposta O framework proposto propicia: • Flexibilidade, através da • captura dos esquemas das fontes de dados da biologia • definição e manutenção de um esquema próprio • definição de um modelo de dados / ontologia efetivamente usada nas fontes de dados existentes • utilização das aplicações disponíveis • Alta performance no acesso aos dados • Extensibilidade, através da • incorporação de qualquer aplicação existente • incorporação de qualquer fonte de dados de biologia • instanciação de uma fonte de dados para uma pesquisaespecífica Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  14. A Solução Proposta O framework proposto também propicia: • Tratar a evolução dos esquemas das fontes de dados • detecta alteração de esquemas, viaagente de monitoração • informa ao usuário administrador que houve alteração • usuário administrador procede a uma nova captura, no momento adequado => alteração dos esquemas é assíncrona ! • Tratar a evolução dos esquemas específicos • a qualquer momento, por ação do administrador Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  15. A Solução Proposta O framework propicia ainda: • Tratar a atualização das instâncias de dados • monitora atualização da fonte de dados • procede à alteração de forma autônoma • termina atualização por ação do administrador O framework é uma solução de integração mais geral do que as existentes e pode ser aplicado a outros domínios, desde que tenham os mesmos requisitos Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  16. Apresentação da Arquitetura Framework para Integração de Fontes de Dados e Aplicações da Biologia Molecular Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  17. Aplicações da Biologia Dados Metadados Fonte 1 Fonte 2 Fonte 3 Usuários Aplic.1 Aplic.2 Aplic.3 Administrador Driver 1 Driver 2 Driver 3 Drivers de Aplicação Modelo da Biologia Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Wrapper 3 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  18. Funcionalidades Captura de Esquemas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  19. Metadados Fonte 1 Usuário Administrador Administrador Capturador Conversor (Wrappers) Wrapper 1 Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  20. Funcionalidades Incremento do Modelo da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  21. Metadados • Identifica Objetos • Relaciona Objetos • Define Ontologia Usuário Administrador Administrador Modelo da Biologia Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  22. Funcionalidades Definição de um Esquema Específico Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  23. Metadados • Seleciona objetos do modelo Usuário Administrador Administrador Modelo da Biologia Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  24. Funcionalidades Captura de Dados Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  25. Dados Metadados Fonte 1 Fonte 2 Usuário Administrador Administrador Modelo da Biologia Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  26. Funcionalidades Geração de Dados para Aplicações Externas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  27. Dados Metadados Usuário Administrador Aplic.1 Administrador Driver 1 Drivers de Aplicação Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  28. Funcionalidades Consultas aos Dados e Esquemas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  29. Dados Metadados Usuário Administrador Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  30. Funcionalidades Execução de Métodos da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  31. Dados Metadados Usuário Administrador Modelo da Biologia Capturador Arquitetura do Framework Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  32. Funcionalidades Tratamento da Atualização de Esquemas Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  33. Metadados Fonte 1 Fonte 2 Fonte 3 Usuário Administrador Administrador Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Wrapper 3 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  34. Funcionalidades Tratamento da Atualização de Dados Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  35. Metadados Dados Fonte 1 Fonte 2 Usuário Administrador Administrador Capturador Conversor (Wrappers) Wrapper 1 Wrapper 2 Arquitetura do Framework Fontes de Dados da Biologia Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  36. FrameworkInstanciação de Wrappers Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  37. FrameworkInstanciação de Drivers Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  38. O uso de XML e XML Schema • XML possui características voltadas para solução de problemas de bioinformática: • flexível • orientada à Internet • usada para especificar padrões de dados • pode ser lida por qualquer editor de textos • Usada para troca de informações entre fontes de dados • Diversas ferramentas disponíveis Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  39. O uso de XML e XML Schema • XML Schema é mais completo para a descrição de dados XML do que DTD • Existem geradores automáticos de XML Schema a partir de XML • XML Schema tem as construções necessárias para descrever esquemas • RDF é aplicado a outro tipo de problema • XML representa uma estrutura hierárquica cujos nós estão presentes em um documento • RDF respresenta um grafo rotulado cujos nós são recursos que normalmente estão externos ao documento Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  40. Modelo da Biologia • OMG apresenta propostas de parte do modelo da biologia (foco no genoma) • GIMS apresenta proposta incompleta do modelo da biologia (ex: estruturas de proteínas) • Modelos consideram aspectos não biológicos (ex: detalhes implementação - Corba) • Modelos não identificam aspectos tecnológicos (ex: fragmentos, experimentos com microarrays, etc.) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  41. Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  42. Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  43. Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  44. Modelo ConceitualGenoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  45. Modelo ConceitualProteoma Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  46. Comparação entre as Arquiteturas de IntegraçãoCritérios • Permitir a formulação de consultas complexas, via web, também via interface amigável • Permitir acesso a todas as fontes de dados • Lidar com o ambiente heterogêneo • Permitir transparência de esquema e de localização Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  47. Comparação entre as arquiteturas de integraçãoCritérios • Tratar atualização de esquemas e dados • Adotar esquema coerente com os das fontes de dados • Instanciar fonte específica para uma pesquisa biológica • Permitir execução de todos os aplicativos disponíveis • Facilitar entendimento dos objetos biológicos Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  48. Comparação entre as arquiteturas de integração Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  49. Implementação da Arquitetura Proposta • Implementada em Java • Orientada a Objetos • Portabilidade • Reuso • Interface Web • Persistência via Oracle 9i • Tipo de dados XMLType • Consultas: SQL e uso de expressões XPATH • Índices em elementos XML Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

  50. Implementação da Arquitetura Proposta • Implementação dos wrappers • Swiss-Prot: • Construção do analisador gerando código XML • Geração do esquema (via SPY) • GenBank: • Uso do analisador READSEQ, que gera código XML • Geração do esquema (via SPY) • PIR: • Já disponibiliza dados em XML • Geração do esquema (via SPY) Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular

More Related