Gest o e tratamento de informa o
This presentation is the property of its rightful owner.
Sponsored Links
1 / 19

Gestão e Tratamento de Informação PowerPoint PPT Presentation


  • 66 Views
  • Uploaded on
  • Presentation posted in: General

Gestão e Tratamento de Informação. Helena Galhardas DEI IST. Corpo docente. Helena Galhardas (responsável e aulas teóricas) Pável Calado (aulas teóricas) Bruno Martins (laboratórios). Organização das aulas. Aulas teóricas Aulas de laboratório Grupos de três elementos

Download Presentation

Gestão e Tratamento de Informação

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Gest o e tratamento de informa o

Gestão e Tratamento de Informação

Helena Galhardas

DEI IST


Corpo docente

Corpo docente

  • Helena Galhardas (responsável e aulas teóricas)

  • Pável Calado (aulas teóricas)

  • Bruno Martins (laboratórios)


Organiza o das aulas

Organização das aulas

  • Aulas teóricas

  • Aulas de laboratório

    • Grupos de três elementos

      • inscrições na página da cadeira no Fénix iniciam-se hoje

    • Apoio no software a ser utilizado

      • SW open-source

    • Apoio na resolução dos mini-projectos


Avalia o

Avaliação

  • Exame (52%)

    • 22/1/2009

    • 5/2/2009

  • 4 Mini-Projectos (48%), cada um vale12%

    • Enunciado é distribuído na aula teórica

    • Alunos têm cerca de 2/3 semanas para resolver

    • Entrega dos alunos feita na aula teórica

    • Solução e correcções mostradas na aula teórica

    • Conteúdo: uma parte teórica/prática e outra de SW


Calend rio mini projectos

Calendário Mini-Projectos

  • MP1

    • Entrega enunciado: 26/9

    • Entrega alunos: 17/10

  • MP2

    • Entrega enunciado: 17/10

    • Entrega alunos: 7/11

  • MP3

    • Entrega enunciado: 7/11

    • Entrega alunos: 28/11

  • MP4

    • Entrega enunciado: 28/11

    • Entrega alunos: 11/12


Programa

Programa

  • Gestão de dados XML

    • Linguagens de interrogação e modificação: XPath, XSLT, XQuery, XQuery Update

    • Armazenamento de dados XML

  • Extracção de Informação

    • Extracção de dados da Web

    • Técnicas de extracção de informação a partir de texto

    • Hidden Markov Models

    • Ferramentas: Mallet, GATE, MinorThird, UIMA

  • Integração de dados e esquema

    • Global-as-view vs local-as-view

    • Mediadores e wrappers

    • Systems: LSD, TSIMMIS, Information Manifold

  • Transformação e limpeza de dados

    • Discrepâncias de esquemas e dados

    • Detecção e eliminação de duplicados

    • Fusão de informação


Extrac o de informa o

Extracção de informação

  • Extracção de dados estruturados a partir da Web (docs HTML, XML)

  • Extracção de dados estruturados a partir de texto

    • Tb. conhecido por prospecçãod e texto (text mining)

  • Desafios da Web:

    • Número grande de fontes de dados

    • Páginas Web devem ser transformadas em dados estruturados

    • Falta de controlo sobre os dados

    • Fontes têm restrições de entrada e saída

    • Natureza distribuída da Web pode tornar a integração de dados mto lenta


Extrac o de dados estruturados a partir de texto

Extracção de dados estruturados a partir de texto

  • Como descobrir estrutura em dados não estruturados

  • Exemplo (http://www.imdb.com)

    Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman. ...

  • Algumas técnicas de aprendizagem automática (Machine Learning) podem ser usadas


Gest o de dados xml

Gestão de dados XML

  • XML é vastamente utilizada como linguagem de troca de dados na Internet

  • DTD, XMLSchema, XPath, XSLT são assuntos já conhecidos

  • A linguagem XQuery é a linguagem de interrogação de dados XML que vamos estudar aqui


Integra o de dados e esquema

Integração de dados e esquema

  • Integrar dados oriundos de múltiplas fontes de dados heterógeneas

  • Desafios:

    • Acesso aos dados

    • Resolver as diferenças existentes ao nível de esquema e dados

    • Executar a integração de forma eficiente


Transforma o e limpeza de dados

Transformação e limpeza de dados

  • Durante e após a integração, alguns problemas com os dados precisam de ser resolvidos

  • Exemplo:

    Filmes (id, título, realizador, ano, ano_ult_remake)

    (1|Casablanca|Weir|1942|1940)

    (2|Dead Poets Society|Curtiz|1989|-)

    (3|Rman Holiday|Wylder|1953|-)

    (4|Casblanca|Weir|1940|1950)

  • Detecção e eliminação de duplicados é um dos aspectos que vamos estudar


Software utilizado

Software utilizado

  • Pacotes de SW open source:

    • Interrogação de dados XML, integração e limpeza de dados

      • Saxon - Java API for XML processing, supporting SAX, DOM, XPath 2.0, XSLT 2.0 and XQuery 1.0 http://saxon.sourceforge.net/

      • SimPack - Java Library of similarity functions http://www.ifi.uzh.ch/ddis/simpack.html

    • Extracção de dados da Web

      • RoadRunner - Java Library for Automated Web Data Extraction http://www.dia.uniroma3.it/db/roadRunner/software.html

    • Extracção de dados a partir de texto

      • Minorthird - Java Library for ML-based Text Annotation and Classification

        http://minorthird.sourceforge.net/

      • LingPipe - Java Framework for General Text Mining

        http://alias-i.com/lingpipe/


Bibliografia

Bibliografia

  • Não há um livro único

  • Algumas partes da matéria cobertas por artigos

  • Livros:

    • Data on the Web: From Relations to Semistructured Data and XML Serge Abiteboul, Peter Buneman, Dan SuciuMorgan Kaufmann Publishers2000 (4 ex. Bib IST Tagus)

    • XQuery from the Experts: A Guide to the W3C XML Query LanguageHoward Katz, Don Chamberlin, Denise Draper, Mary Fernandez, Michael Kay, Jonathan Robie, Michael Rys, Jerome Simeon, Jim Tivy, Philip WadlerAddison-Wesley2004

    • Data Quality: Concepts, Methodologies and Techniques Carlo Batini, Monica ScannapiecoSpringer2006 (4 ex. Bib. IST Tagus)


Outras informa es interessantes

Outras informações interessantes


Investiga o na rea de gest o de dados e tratamento de informa o no tagus park alameda

Investigação na área de Gestão de Dados e Tratamento de Informação no Tagus Park/Alameda

  • Se estiverem interessados:

    Grupo [email protected]

    http://dmir.inesc-id.pt


  • Login