1 / 41

Gestão e Recuperação de Informação

Gestão e Recuperação de Informação. Informação Estruturada. José Borbinha – DEI/IST. Informação => Recursos. Informação?. Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”.

faris
Download Presentation

Gestão e Recuperação de Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST

  2. Informação => Recursos

  3. Informação? • Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”. • Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...

  4. Como se define um recurso? • Definição simples: Um recurso de informação poderá ser tudo aquilo a que se pode atribuir um identificador!!! • Exemplos de identificadores: • URL • URI • ISBN • Número de Contribuinte • “Pathname” num sistema de ficheiros • Número de telefone • Endereço de email • Número de aluno do IST • Matrícula de um automóvel • .. • A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...

  5. Identificadores e géneros de recursos: • Géneros de recursos: • Uma página web! • ...qualquer coisa... • Um livro! • Uma pessoa ou organização! • Um ficheiro num computador! • Uma pessoa ou organização! • Uma pessoa ou organização! • Uma pessoa! • Um automóvel! • .. ??? ... • Exemplos de identificadores: • URL • URI • ISBN • Número de Contribuinte • “Pathname” num sistema de ficheiros • Número de telefone • Endereço de email • Número de aluno do IST • Matrícula de um automóvel • .. Mais exemplos ...???...

  6. Voltando ao problema genérico da Gestão e Recuperação de Informação O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir: • Espaços de identificadores, para todos os recursos • Atributos que possam ser processados sobre os recursos (eventualmente, os identificadores de um recurso podem ser atributos seus) • Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos • Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores

  7. Atributos => Metadados

  8. Sobre os Atributos • Podemos fazer uma analogia dizendo que no problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...) • Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso! • (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.

  9. Exemplos de atributos/metadados Título = A Morgadinha dos Canaviais <autor>Jaime Silva<autor> id := 123-xpto-h3d4 Género: Dissertação Type = JPEG2000 Data de Edição - 29 de Fevereiro de 2004 102 ## $aPT 700 #1 $aHalpern$bManuel Júdice$f1932-

  10. Metadados podem ser criados • Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca! • Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ...

  11. Objectos de informação estruturados podem facilitar a extracção de metadados!!! “Information IQ”(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)

  12. Que tipos de metadados podemos ter? • Descritivos • título, nome do autor, assunto, data de criação, ... • Técnicos • formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes), ... • Administrativos • Password de acesso, responsável pela compra ou licenciamento, ... • ...aqueles que o negócio precisar...

  13. Voltando à criação de Metadados • Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...

  14. Metadados num documento PDF(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)

  15. Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)

  16. Mais metadados • <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> • <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml"> • <head> • <title>Instituto Superior T&eacute;cnico</title> • <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /> • <meta name="keywords" content="ensino, ensino superior, universidade, instituto, ciência, instituto superior técnico, investigação e desenvolvimento" /> • <meta name="description" content="O Instituto Superior Técnico é a maior escola de engenharia, ciência e tecnologia em Portugal." /> • <meta name="author" content="Instituto Superior Técnico" /> • <meta http-equiv="pragma" content="no-cache" /> • <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" /> • <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" /> • <link rel="stylesheet" type="text/css" media="print" href="css/print.css" /> • <script src="/js/flash.js" type="text/javascript"></script> • <script src="/js/flash.vbs" type="text/vbscript"></script> • <script src="http://www.google-analytics.com/urchin.js" type="text/javascript"> • </script> • <script type="text/javascript"> • _uacct = "UA-182539-2"; • urchinTracker(); • </script> • </head> • <body> • ...

  17. Mais sobre extracção de metadados

  18. Mais sobre extracção de metadados

  19. Há mesmo um negócio na extracção de metadados...

  20. A propósito, uma patente em...(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)

  21. Ponto de ordem: • Metadados são estruturas de informação sobre recursos que podem servir de suporte à gestão, pesquisa e acesso a esses recursos • Metadados podem existir independentes dos recursos ou existir integrados nos mesmos • Metadados podem ser criados: • Manualmente • Automaticamente: • Durante os processos de criação dos recursos • Posteriormente à criação dos recursos, extraídos dos mesmos

  22. Metadados e Esquemas Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos: • XMP - Extensible Metadata Platform • http://xml.coverpages.org/xmp.html • MARC Standards • http://www.loc.gov/marc/ • UNIMARC • http://www.unimarc.info/bibliographic/2.3/en/summary • Dublin Core Metadata Initiative • http://dublincore.org/ • MPEG-7 / MPEG-21 DIDL • http://www.chiariglione.org/mpeg/ • etc...

  23. Dos Metadados aos Serviços...

  24. O que se pode fazer então com os metadados? • Em cenários bem definidos, podem ser simplesmente “despejados” para uma base de dados, criando serviços de Precision=Recall=1

  25. A propósito, um registo UNIMARC (codificado em MarcXchange)

  26. O que se pode fazer então com os metadados? • Em cenários menos bem definidos (mais “Information Retrieval”), podem-se usar os registos de metadados como fontes para serviços na mesma:

  27. Partilha de Metadados • Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...). • A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!! • No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...) • Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação... • Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)

  28. OAI - Open Archives Initiative

  29. OAI-PMHProtocol for Metadata Harvesting(http://www.oaforum.org/tutorial/image/structure-model.gif) Web-Services segundo o modelo REST...

  30. No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50... http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg

  31. Servidores Z39.50 em bibliotecas Portuguesas:

  32. O Z39.50 é um protocolo bastante complexo...SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)

  33. TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

  34. Próximas aulas... GML DocBook RSS METS UNIMARC ATOM MPEG... Metadata Registries Document Schemas RDF SMIL XML Dublin Core... ... ONIX MARC21 ... ...

  35. Perguntas?

More Related