410 likes | 540 Views
Gestão e Recuperação de Informação. Informação Estruturada. José Borbinha – DEI/IST. Informação => Recursos. Informação?. Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”.
E N D
Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST
Informação? • Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”. • Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...
Como se define um recurso? • Definição simples: Um recurso de informação poderá ser tudo aquilo a que se pode atribuir um identificador!!! • Exemplos de identificadores: • URL • URI • ISBN • Número de Contribuinte • “Pathname” num sistema de ficheiros • Número de telefone • Endereço de email • Número de aluno do IST • Matrícula de um automóvel • .. • A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...
Identificadores e géneros de recursos: • Géneros de recursos: • Uma página web! • ...qualquer coisa... • Um livro! • Uma pessoa ou organização! • Um ficheiro num computador! • Uma pessoa ou organização! • Uma pessoa ou organização! • Uma pessoa! • Um automóvel! • .. ??? ... • Exemplos de identificadores: • URL • URI • ISBN • Número de Contribuinte • “Pathname” num sistema de ficheiros • Número de telefone • Endereço de email • Número de aluno do IST • Matrícula de um automóvel • .. Mais exemplos ...???...
Voltando ao problema genérico da Gestão e Recuperação de Informação O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir: • Espaços de identificadores, para todos os recursos • Atributos que possam ser processados sobre os recursos (eventualmente, os identificadores de um recurso podem ser atributos seus) • Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos • Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores
Sobre os Atributos • Podemos fazer uma analogia dizendo que no problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...) • Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso! • (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.
Exemplos de atributos/metadados Título = A Morgadinha dos Canaviais <autor>Jaime Silva<autor> id := 123-xpto-h3d4 Género: Dissertação Type = JPEG2000 Data de Edição - 29 de Fevereiro de 2004 102 ## $aPT 700 #1 $aHalpern$bManuel Júdice$f1932-
Metadados podem ser criados • Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca! • Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ...
Objectos de informação estruturados podem facilitar a extracção de metadados!!! “Information IQ”(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)
Que tipos de metadados podemos ter? • Descritivos • título, nome do autor, assunto, data de criação, ... • Técnicos • formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes), ... • Administrativos • Password de acesso, responsável pela compra ou licenciamento, ... • ...aqueles que o negócio precisar...
Voltando à criação de Metadados • Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...
Metadados num documento PDF(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)
Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)
Mais metadados • <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> • <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml"> • <head> • <title>Instituto Superior Técnico</title> • <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /> • <meta name="keywords" content="ensino, ensino superior, universidade, instituto, ciência, instituto superior técnico, investigação e desenvolvimento" /> • <meta name="description" content="O Instituto Superior Técnico é a maior escola de engenharia, ciência e tecnologia em Portugal." /> • <meta name="author" content="Instituto Superior Técnico" /> • <meta http-equiv="pragma" content="no-cache" /> • <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" /> • <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" /> • <link rel="stylesheet" type="text/css" media="print" href="css/print.css" /> • <script src="/js/flash.js" type="text/javascript"></script> • <script src="/js/flash.vbs" type="text/vbscript"></script> • <script src="http://www.google-analytics.com/urchin.js" type="text/javascript"> • </script> • <script type="text/javascript"> • _uacct = "UA-182539-2"; • urchinTracker(); • </script> • </head> • <body> • ...
A propósito, uma patente em...(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)
Ponto de ordem: • Metadados são estruturas de informação sobre recursos que podem servir de suporte à gestão, pesquisa e acesso a esses recursos • Metadados podem existir independentes dos recursos ou existir integrados nos mesmos • Metadados podem ser criados: • Manualmente • Automaticamente: • Durante os processos de criação dos recursos • Posteriormente à criação dos recursos, extraídos dos mesmos
Metadados e Esquemas Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos: • XMP - Extensible Metadata Platform • http://xml.coverpages.org/xmp.html • MARC Standards • http://www.loc.gov/marc/ • UNIMARC • http://www.unimarc.info/bibliographic/2.3/en/summary • Dublin Core Metadata Initiative • http://dublincore.org/ • MPEG-7 / MPEG-21 DIDL • http://www.chiariglione.org/mpeg/ • etc...
O que se pode fazer então com os metadados? • Em cenários bem definidos, podem ser simplesmente “despejados” para uma base de dados, criando serviços de Precision=Recall=1
O que se pode fazer então com os metadados? • Em cenários menos bem definidos (mais “Information Retrieval”), podem-se usar os registos de metadados como fontes para serviços na mesma:
Partilha de Metadados • Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...). • A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!! • No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...) • Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação... • Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)
OAI-PMHProtocol for Metadata Harvesting(http://www.oaforum.org/tutorial/image/structure-model.gif) Web-Services segundo o modelo REST...
No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50... http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg
O Z39.50 é um protocolo bastante complexo...SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)
TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50
Próximas aulas... GML DocBook RSS METS UNIMARC ATOM MPEG... Metadata Registries Document Schemas RDF SMIL XML Dublin Core... ... ONIX MARC21 ... ...