200 likes | 280 Views
Integração de informação proveniente da Web. Daniel Gomes Orientador: Mário J. Silva. Motivação. A Web é a maior fonte de informação criada! O que se diz acerca da Coca-Cola? Quantas palavras tem um documento? Necessitam de processamento automático!. Problemas de acessibilidade.
E N D
Integração de informação proveniente da Web • Daniel Gomes • Orientador: Mário J. Silva
Motivação • A Web é a maior fonte de informação criada! • O que se diz acerca da Coca-Cola? • Quantas palavras tem um documento? • Necessitam de processamento automático!
Problemas de acessibilidade • Informação muito vasta e dispersa • Heterogeneidade de formatos e desrespeito de especificações • Disponibilidade • Volatilidade da informação • Pouca reutilização de software e dados Web
Hipótese Integração em grande escala de informação proveniente da Web, num sistema que permita o seu processamento automático.
A integração de dados provenientes da Web é um novo problema! • Complexo: Carece de uma solução geral para um conjunto de problemas específicos. • Multi-disciplinar.
Estrutura da Apresentação • Motivação • Problema • Solução • Validação • Plano • Conclusão
Processo de integração • Modelação* • Recolha • Carregamento • Armazenamento • Acesso
Arquitectura Web Recolha Carregamento Acesso Modelação Armazenamento
Modelação da fonte de informação • Dimensionar o sistema e definir abordagens. • Validar as assunções: • Sítios com 70 páginas->Particionável. • 15% de docs duplicados->Duplicação de informação.
Recolha e carregamento • Capacidade de recolha adequada. • Configurável. • Robusto. • Captura de meta-dados.
Armazenamento e acesso • Suporte temporal. • Acessível a pessoas e máquinas. • Preservação. • Reutilizável noutros contextos.
Validação • Pesquisa e publicação de literatura • Prototipagem • Casos práticos. • Teste em ambiente não controlado. • Arquitectura aplicada em diferentes contextos.
Contributos • Arquitectura que contempla todo o processo de integração de informação proveniente da Web. • Arquitectura de S.I. reutilizável em sistemas com problemas comuns. • Definição de “boas-práticas” para WW. • Aplicação na resolução de problemas práticos. • Reutilização dos protótipos. • Simulações realistas em ambiente controlado
Plano: 1º ano (2002/2003) • Pesquisa e levantamento de trabalho relacionado; • Definição da arquitectura; • Levantamento e avaliação de tecnologia a utilizar; • Desenvolvimento do 1º protótipo; • Aplicação do protótipo num caso real (tumba!); • Investigação do problema da modelação de fontes de informação; • Publicação dos resultados desta investigação.
Plano: 2º ano (2003/2004) • Investigação/Publicação relativa ao problema da recolha e carregamento de informação; • Análise/Publicação da evolução do modelo da fonte de informação obtido no ano anterior; • Desenvolvimento do protótipo final;
Plano: 3º e 4º ano • 3º ano: 2004/2005 • Investigação/Publicação relativa ao problema do armazenamento e acesso a informação; • Validação da arquitectura em 3 projectos distintos: • Rebil: Relacionamento de informação biológica através da Literatura; • Linguateca: Centro de recursos distribuído para a língua Portuguesa; • Tumba!: Extensão a arquivo histórico da Web Portuguesa • Recolha e análise de dados para validação. • 4ºano: 2005/2006 • Escrita e defesa da tese.
Resultados (1 ano e meio) • 1º protótipo • Integração de 3.5M de documentos Web • Suporte ao estudo de um corpus da Web Portuguesa. • Caracterização da Web • Collecting Statistics about the Portuguese Web. FCUL Technical Report DI/FCUL TR 03-10. June 2003. • A Characterization of the Portuguese Web. 3rd ECDL Workshop on Web Archives. Trondheim, Norway, August 2003. • Characterizing a Community Web. TOIT-Transactions on Internet Technology (submetido).
Conclusão • A integração de dados Web coloca novos problemas. • Carência de arquitectura de S.I. e metodologia. • Cada etapa do processo de integração impõe abordagens especificas. • Conciliar diferentes correntes de investigação. • Resultados animadores com o 1º protótipo.
Obrigado pela atenção. Questões? daniel@tumba.pt http://xldb.fc.ul.pt http://www.tumba.pt