1 / 45

Pesquisa e Arquivo da Web Portuguesa

Pesquisa e Arquivo da Web Portuguesa. Daniel Gomes daniel.gomes@fccn.pt FCCN. Estrutura da apresentação. 1ª parte Como surgiu e como funciona o tumba! 2ª parte Projecto de arquivo da web portuguesa. Como surgiu o tumba?. 1999-2000 – Projecto de pesquisa sobre noticias.

abeni
Download Presentation

Pesquisa e Arquivo da Web Portuguesa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN

  2. Estrutura da apresentação • 1ª parte • Como surgiu e como funciona o tumba! • 2ª parte • Projecto de arquivo da web portuguesa

  3. Como surgiu o tumba? • 1999-2000 – Projecto de pesquisa sobre noticias. • 2000-2001 – Projecto de recolha de publicações online com a BN. • 2001 – Tumba!: investigação • 5 pessoas • 4 PCs velhos para suportar o sistema • Problemas para a FCUL • 2002 – Apoio da FCCN, serviço público gratuito • 2006 – Ainda estamos vivos (?!) • Com a ajuda de novos alunos • Grande rotatividade: 17 alunos já passaram pelo projecto

  4. Para que tem servido? • Para aprender • Como é que funciona o Google? • Para ensinar • Como é que funciona o Google: • Serviço público com 3 fins • Motor de busca da comunidade portuguesa • Arquivo da Web Portuguesa • Recurso de investigação • Ao vivo em www.tumba.pt

  5. O que aconteceu a seguir ao Enter? • O gnomo verde foi buscar as páginas à web? • Não.

  6. Levantando o véu Batedor Repositório Índice Ordenação Apresentação Web

  7. Crawler Batedor (crawler) Sementes(URLs) Repositório Web

  8. Recolha • Duas listas: • URLs por recolher • URLs recolhidos • Pega num URLAdos URLs por recolher • Recolhe e guarda a páginaA no repositório • Extrai os URLs dos links da páginaA • Insere os novos URLs nos URLs por recolher. • Insere o URLA nos URLs recolhidos • Para não voltar lá.

  9. Problemas • Milhões de páginas para recolher • Requer muitos computadores e rede • Há pessoas que não gostam das visitas • Robots Exclusion Protocol • A web é um caos • O crawler está sempre a avariar-se. • Qualidade crescente devido a browsers mais rigorosos

  10. Exemplo: simulem o crawler a extrair links de uma página HTML <html> <head> <title>Página de teste</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> <body> <p>Bem vindos!</p> <p>Experimentem o <a href="http://www.tumba.pt"> motor de busca tumba!</a>.</p> <p>Vejam também a minha <a href="http://xldb.fc.ul.pt/daniel/"> página pessoal</a>.</p> </body> </html> Dica: os links estão próximos dos href

  11. O crawler recolhe 3 páginas http://xldb.fc.ul.pt/teste http://xldb.fc.ul.pt/daniel/ http://www.tumba.pt

  12. Exemplo: simulem o crawler a extrair links de um Flash CWS^F·^U^@^@x<9C>íWy<ÔkÛ¿f1ÆÈ^^<89>B٥ž¥!Yr,ÉVª#<8D>^XÙ<97>²^\<9A>)ÙJ<92>He;iQ²fP¢"<92><9D>B<85>VI²<9B>ßóESCÔ9=<9F>ç¼ïyÞ¿Þ?Î=<9F>ß|î¹ïïu_ ×÷{]÷=÷Ï^GH<97>^A,$` ^F^L<82><90>±<9B>°^@H^GÒ^M^FÀ˹<84>{ <89><97><9B><8B><9B><9F><8F>W@XNDXHHXIRz¥<9C>¶<8A>îF-^UM^M=<93>Ý^Vz[ì^M54· yZÙ;îs¥ºn2÷^Möq^NÚ½ß<95>ÂZ^DÃÇÏ/,(¼^Dd=e³æfÊ^?Ý<90>^G ^N<80>aÃÌ7Xl^X,^NÏF`'r<90>8Q@!/`18^\^V<8F>ccÃãÑÙ0t^^ð|lü«<94>ô ^BVNì«}<97>*^_9 <9D>N<94>Ü|«Jpû³^Q)<95>}~ • Não percebem nada? • O crawler também não. • Só o programa da Macromedia é que percebe

  13. O crawler recolhe apenas 1 página • Estas páginas não são recolhidas • Não aparecem nos resultados dos motores de busca http://www.hpinformatica.net/menu.swf ./servicos.html ./produtos.html ./contactos.html

  14. Indexação • Para acelerar, as pesquisas são feitas sobre índices e não sobre as páginas armazenadas Crawler Repositório Índice Ordenação Apresentação Web

  15. Termo Páginas Arquivo.........4, 10, 12, 99, 123 Biblioteca......1, 11, 20, 33 Correio..........32, 54, 94 ... Índice remissivo de um livro

  16. Motor de busca: Índice remissivo da web Termo Páginas (URLs) Arquivo.........1,188 milhões Biblioteca......301 mil Correio..........303 mil ... • Mesmo o índice é muito grande • E tem de ser rápido! Porque os utilizadores esperam apenas alguns segundos pela resposta a uma pesquisa

  17. E agora?

  18. Dividir para conquistar • Construção do índice • Dividem-se as páginas por várias máquinas • Cada máquina • Extrai o texto das suas páginas • Constrói um índice • Responde a parte das pesquisas

  19. Quando se pesquisa Tumba! Servidor 1 Índice A-H arquivo da web portuguesa arquivo Servidor 2 Servidor Web Browser portuguesa Índice I-Q Servidor 3 web • Então e o “da”? • -Stop-words • Ocupam muito espaço • Sem significado Índice R-Z

  20. Hardware do tumba! • Computadores • 6 chaços (P200, 128 MB) • 10 servidores (com uns aninhos) • Internet: FCCN 30 Mbps ATM • Rede local: 1 Gbps (recente)

  21. Plataforma: Linux Oracle – meta-dados BerkeleyDB – índices Hsql – crawlers Httpd, tomcat, struts Wiki CVS Bugzilla Linguagens: Java C++ Perl, bash scripts, SQL Software

  22. Desempenho do Tumba! • Até 20 000 queries /dia • 10 milhões de documentos – a maior recolha da web portuguesa! • 95% respondidas em menos de 0.5 seg. – com 3 servidores

  23. Como obter os melhores resultados na primeira página? Batedor Repositório Índice Ordenação Apresentação Web

  24. Resultados ordenados por relevância Combinação de vários factores PageRank Textos das âncoras Frequência no documento Partes importantes do documento Frequência na Web

  25. Como se mede a relevância • Quanto maior a frequência de um termo da pesquisa num documento, maior a relevância. • Quanto maior a frequência de um termo da pesquisa na Web, menor a relevância. • Quanto maior for documento em número de palavras, menor a relevância. • Quanto maior o PageRank de um documento, maior a relevância • Quanto maior a frequência de um termo da pesquisa em partes importantes da página (ex: o título), maior a relevância Usada uma formula que combina todos estes parâmetros Documentos mais relevantes retornados em primeiro lugar!

  26. Problemas com lista ordenada de resultados • Pesquisas com vários “sentidos” possíveis • Jaguar (o animal ou o carro desportivo) • Benfica (o clube de futebol ou o local) • … • Problema para as vossas pós-graduações. • Clustering • Semantic Web e Ontologias • Resultados personalizados

  27. 2ª parte: Arquivo da Web Portuguesa

  28. A era digital começou (já há alguns anos) • A Web é a maior fonte de informação construída • Jornais, livros, documentação técnica • Informação publicada exclusivamente na Web • A informação na Web é efémera • Gerações futuras poderão testemunhar uma “Idade das Trevas” digital • Temos que começar a arquivar • Propósitos históricos • Provas em casos judiciais

  29. Requisitos de um arquivo da Web • A forma de arquivo tradicional requer demasiada intervenção humana • Não é compatível com a dimensão da Web • Recolha e armazenamento automático • Intervenção humana mínima • Dispendioso em larga escala • Internet Archive (www.archive.org)

  30. Arquivos web nacionais • Dividir para conquistar: cada país arquiva a sua web • 11 da U. E.: Alemanha, Áustria, Dinamarca, Finlândia, França, Grécia, Lituânia, Holanda, Suécia, Reino Unido e República Checa. • 6 externos: Austrália, Canadá, Estados Unidos da América, Japão, Nova Zelândia e Noruega. • Necessários critérios para definir limites das webs nacionais • Necessárias arquitecturas de sistema e software específico para suportar o arquivo da web

  31. Estrutura da apresentação • Introdução • Proposta para o arquivo da web portuguesa • Conclusões

  32. Contexto • Projecto de I & D • É necessária investigação para seguir a evolução da web • Duração de 2 anos • Necessária visão a longo prazo

  33. Principais objectivos • Iniciar o “depósito legal” da web portuguesa • Serviço público de acesso ao arquivo • Formação de recursos humanos • Disseminação da informação arquivada para preservação

  34. Benefícios nacionais • Português como língua da web • Capacidade local de tratamento de informação da web • Segurança nacional não pode depender do estrangeiro • Exportação do saber-fazer • Arquivo da Web é tecnologia de ponta. • Dados para a Ciência • Sociologia, prospecção de dados, processamento da língua • Provas judiciais

  35. Principais desafios • Recrutamento de mão-de-obra qualificada • Tecnologia específica pouco madura • Boa abrangência da Web portuguesa • Pesquisa eficiente num arquivo histórico • É um problema em aberto • Apresentação de conteúdos • Preservação da informação • Financiamento e continuidade a longo prazo • Má qualidade da Web portuguesa • Web ≠ Internet

  36. O que arquivar? • Sites sob .PT (1ª fase) • Estamos a perder metade da web portuguesa • Alguns utilizadores ficarão insatisfeitos • Tipos GIF, JPEG e HTML • 95% dos conteúdos publicados • Espaço necessário estimado • 250 GB por recolha • Recolhas trimestrais

  37. Como arquivar? • Meta-dados que permitam preservar e aceder à informação • Estratégia de conversão de formatos • Espaço de armazenamento incremental • Acessibilidade à informação por pessoas e máquinas • Ferramentas de gestão e preservação

  38. Tecnologias • Não existe software comercial de arquivo da web • Adoptar soluções de código aberto • Alteração para o contexto da web • Maior garantia de preservação • Gratuitas • Existem para o arquivo da Web!

  39. Exemplos de tecnologias para arquivo • Internet Archive • Archive-access project (http://archive-access.sourceforge.net/) • Heritrix crawler • Formatos ARC e WARC • NutchWAX (Nutch + Web Archive eXtensions) • Nutch: motor de busca de código-aberto para a web • WERA (Web aRchive Access) • Archive viewer application • Antigo Nordic Web Archive

  40. Boas notícias • Conseguiu-se fazer um protótipo usável com: • 3 pessoas • Máquinas velhas • Boa vontade • Existe conhecimento nacional acerca do assunto • Contacto com o IA

  41. Dados arquivados no protótipo • Recolhidos da web portuguesa e migrados de recolhas do tumba! • Conteúdos maioritariamente textuais • Intervalo de tempo de 4 anos (2002-2006) • 57 milhões de conteúdos,1.5 TB de dados • 1º passo: migrar os conteúdos para o novo sistema de arquivo

  42. Conclusões • Arquivo da web nacional está atrasado • Não existe um critério único para delimitar a web portuguesa • Espalhada fora do domínio .PT • Um arquivo necessita de ser pesquisável eficientes ou a informação arquivada “morre” por estar inacessível • Arquivar a web tem interesse nacional • Arquivar a web é complexo • Arquivar a web portuguesa é possível

  43. Obrigado pela atenção. Daniel Gomes daniel.gomes@fccn.pt

More Related