Minera o de bancos de dados n o convencionais
Download
1 / 37

Roteiro - PowerPoint PPT Presentation


  • 226 Views
  • Uploaded on

Mineração de Bancos de Dados Não Convencionais. André Novaes Rafael Palermo CIn-UFPE. Roteiro. Bancos de dados não convencionais consultar BD multimídia (baseado em metadados ou contéudo) BD O-R e OO generalização por indução orientada a atributos e OLAP BD de planos BD espaciais

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Roteiro' - Gabriel


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Minera o de bancos de dados n o convencionais
Mineração de Bancos de Dados Não Convencionais

André Novaes

Rafael Palermo

CIn-UFPE


Roteiro
Roteiro

  • Bancos de dados não convencionais

    • consultar BD multimídia (baseado em metadados ou contéudo)

  • BD O-R e OO

    • generalização por indução orientada a atributos e OLAP

  • BD de planos

  • BD espaciais

    • generalização por indução orientada a atributos e OLAP

    • regras de associação

    • clustering

    • classificação

    • series espaço-temporais

  • BD multimídia

    • Generalização por indução orientada a atributos e OLAP

    • regras de associação

    • Classificação e predição


Roteiro1
Roteiro

  • Bancos de dados não convencionais

  • BD O-R e OO

  • BD de planos

  • BD espaciais

  • BD multimídia


Bancos de dados n o convencionais
Bancos de dados não convencionais

  • BD dedutivo

  • BD probabilista

  • BD indutivo

  • BD temporal

  • BD de restrições

  • BD semi-estruturado

  • Páginas web

  • BD espacial

  • BD objeto-relacional

  • BD orientado a objetos

  • BD multimídia


Bds multimidia
Bds Multimidia

  • Armazena grande coleção de objetos multimidia

    • Audio

    • Imagem

    • Video

    • hipertexto


Revis o de alguns conceitos de representa o de imagens
Revisão de alguns conceitos de representação de imagens

  • Representações matriciais e vetoriais de imagens

  • Orientação, textura (layout, density)

  • Wavelet


Consultar bds multimidia
Consultar Bds Multimidia

  • Recuperação baseada em descrição

    • Palavras chaves, titulos, tamanho, tempo de criação

    • Manualmente: trabalhoso

    • Automatizado: resultado de pouca qualidade

  • Recuperação baseada em conteudo

    • Histograma de cor

      • Não leva em conta fatores espaciais

    • Multiplas Caracteristicas

    • Wavelet

      • Captura forma, textura

      • Problemas

    • Wavelet baseada em regiões



Multi dimensional analysis in multimedia databases
Multi-Dimensional Analysis in Multimedia Databases

Histograma de Cor

Layout de textura


Mining multimedia databases
Mining Multimedia Databases

Refining or combining searches

Search for “airplane in blue sky”

(top layout grid is blue and

keyword = “airplane”)

Search for “blue sky and

green meadows”

(top layout grid is blue

and bottom is green)

Search for “blue sky”

(top layout grid is blue)


Roteiro2
Roteiro

  • Bancos de dados não convencionais

  • BD O-R e OO

  • BD de planos

  • BD espaciais

  • BD multimídia


Minerando Tipos de Dados Complexos:Generalização de Dados Estruturados

  • Set-valued

    • Generalização de cada valor do conjunto em seu correspondente um nível acima de abstração

    • Derivação do comportamento geral do conjunto, tal como o número de elementos, os tipos ou intervalo de valores, ou a média para dados numéricos

    • hobby = {tênis, hóquei, xadrez, violino, atari} pode ser genérico para {esportes, música, vídeo_games}

  • List-valued ou sequence-valued

    • Igual a set-valued exceto que a ordem dos elementos deve ser mantida na generalização


Generalizando Dados Espaciais e Multimídia

  • Dados espaciais:

    • Generaliza pontos geográficos detalhados agrupados em regiões, tal como business, residencial, industrial, ou agricultural, de acordo com o uso

    • Requer a união de um conjunto de áreas geográficas através de operações espaciais

  • Dados de imagem:

    • Extraídos por agregação e/ou aproximação

    • Tamanho, cor, forma, textura, orientação, e posições relativas dos objetos contidos ou regiões na imagem

  • Dados musicais:

    • Resumir esta melodia: baseado nos padrões aproximados que ocorrem repetidamente

    • Resumir este estilo: baseado no tom, tempo, ou nos principais instrumentos tocados


Generalizando Dados do Objeto

  • Identificador do objeto: generaliza para um nível menor na hierarquia de classes

  • Hierarquia da composição das classes

    • generaliza estruturas de dados aninhadas

    • generaliza apenas objetos mais semelhantes semanticamente ao atual

  • Construção e mineração de cubos de objetos

    • Estende o método de indução orientado a atributo

      • Aplica uma seqüência de operadores de generalizações baseadas em classes sobre os atributos

      • Continua até conseguir um pequeno número de objetos genéricos que podem ser resumidos e concisos em termos de alto nível

    • Por uma implementação eficiente

      • Examina cada atributo, generaliza para um dado simple-valued

      • Constrói um cubo de dados multi-dimensional

      • Problema: nem sempre é desejável generalizar um conjunto de valores em um dado single-valued


Roteiro3
Roteiro

  • Bancos de dados não convencionais

  • BD O-R e OO

  • BD de planos

  • BD espaciais

  • BD multimídia


Um Exemplo: Planejamento de mineração

  • Planejamento: uma seqüência variável de ações

    • Viagem (vôo): <viajante, partida, chegada, hora-p, hora-c, companhia, preço, assento>

  • Planejamento de mineração: extração de padrões genéricos mais significativos de uma base de planejamentos

    • Descobrir padrões de viagens em uma base de vôos, ou

    • achar padrões significativos em uma seqüência de ações no reparo de automóveis

  • Método

    • Indução orientada a atributo sobre uma seqüência de dados

      • Um plano de viagem genérico: <pequeno-grande*-pequeno> (tamanho do aeroporto)

    • Divide & conquer: Minera características para cada subseqüência

      • grande*: mesma companhia aérea, pequeno-grande: região próxima


Uma Base de Viagens para um Planejamento de Mineração

  • Exemplo: Minerando uma base de planejamento de viagens

Tabela de planos de viagens

Tabela de informações de aeroportos


Análise Multi-dimensional

  • Estratégia

    • Generaliza a base de planejamento em diferentes direções

    • Procura por padrões seqüenciais nos planejamentos genéricos

    • Deriva planejamentos de alto nível

Modelo multi-dimensional para uma base de

planejamento

tamanho_aeroporto

categoria

#_passageiros

subir hierarquicamente

estado

região

cidade

localização

companhia

parceiros

linha_aérea


Generalização Multi-dimensional

Generalização multi-dimensional de uma base de planejamento

Unindo ações idênticas e consecutivas nos planos

Vôo(x,y) ^ tamanho_aeroporto(x,S) ^ tamanho_aeroporto(y, L)

> região(x) = região(y) [75%]


Mineração em Seqüência Baseada em Generalização

  • Generaliza uma base de planejamento de forma multi-dimensional usando tabelas dimensionais

  • Usa # para valores distintos (cardinalidade) a cada nível para determinar o nível correto da generalização (planejamento de níveis)

  • Usa operadores * para unir (merge) e [] (opcional) para facilitar a generalização de padrões

  • Retém padrões com apoio significativo


Padrões de Seqüência Genéricos

  • Numa seqüência de tamanho_aeroporto, ficará uma que engloba todas as outras (aplicando o operador de união)

    S - L* - S [35%], L* - S [30%], S - L* [24.5%], L* [9%]

  • Depois de aplicar o operador opcional:

    [S] - L* - [S] [98.5%]

    • Na maioria das vezes, as pessoas viajam de grandes aeroportos para chegar ao destino

  • Outro planos: 1.5% de chances, existem outros padrões:

    S - S, L- S - L


Roteiro4
Roteiro

  • Bancos de dados não convencionais

  • BD O-R e OO

  • BD de planos

  • BD espaciais

  • BD multimídia


Banco de dados espacial
Banco de dados espacial

  • Dados relacionados ao espaço

    • Mapas

    • Sensoriamento remoto

    • Chips VLSI

    • Imagens médicas

  • Informações topologicas e de distancia

  • Mineração:

    • relações espaciais

    • Padrões


Dimens es e medidas em data warehouses espaciais

Dimensões

Não-espacial

E.x. temperatura: 25-30

Espacial para não espacial

E.x. acre(objeto espacial) generalizado para string “região norte”

Espacial para espacial

e.x. acre (objeto espacial) para região norte (objeto espacial)

Medidas

numericas

distributivo (e.x. count, sum)

algebricas (e.x. média)

holistica (e.x. mediana)

espaciais

Coleção de ponteiros para objetos espaciais em uma mapa (e.x. regiões com temperatura de 25-30 graus em julho)

Dimensões e medidas em Data Warehouses espaciais


Esquema estrela of the bc weather warehouse
Esquema estrela of the BC Weather Warehouse

  • 3000 medidores do clima na Columbia Britanica(BC)

  • Cada medidor mede Temperatura e Precipitação

  • Dimensões

    • Nome da região

    • tempo

    • temperatura

    • precipitação

  • Medidas

    • Região do mapa

    • area

    • contador

Tabela de dimensão

Tabela de fatos


Roll up
Roll-up

Por Temperatura

Por Precipitação


Metodos para computa o de cubos espaciais
Metodos para computação de cubos espaciais

  • Não armazenar medidas

  • Pré-computar todas as possiveis medidas

  • Pré-computar estimativas

  • Pré-computar apenas as mais acessadas


Regras de associa o
Regras de associação

  • Regra de associação: AÞB [s%, c%]

    • A e B são conjuntos de predicados

      • Relações topologicas

      • Orientação espacial

      • Informação de distancia

    • s% suporte e c% confidencia

    • e_um(x,cidade) e intercepta(x,estrada) -> adjacente(x,agua)[7%, 85%]

    • e_um(X,”escola”) e perto_de(X,”centro esportivo” ) -> perto_de(X,”parque”) [0.5%,80%]


Regras de associa o1
Regras de associação

  • Refinamento Progressivo

    • Deve preservar todas as respostas possiveis

  • Minerar relação perto_de

    • Aplicar algoritmo impreciso

    • Intersecção entre retangulos


Classifica o e analise de tendencias
Classificação e Analise de tendencias

  • Classificação

    • Exemplo: regiões ricas x regiões pobres

    • Determinar regiões

  • Tendencias

    • Espaciais

    • Temporais


Roteiro5
Roteiro

  • Bancos de dados não convencionais

  • BD O-R e OO

  • BD de planos

  • BD espaciais

  • BD multimídia


An lise multidimensional e olap
Análise Multidimensional e OLAP

  • MultiMediaMiner

    • Descritor de caracteristicas

      • Conjunto de vetores para caracteristicas visuais

      • Histograma de cores quantizado

      • Cor mais frequente

    • Descritor de layout

      • Imagens transformadas em grade 8X8

      • Armazena informações para celulas da grade



Minerando banco de dados multimidia1

Three Dimensions

The Data Cube and

the Sub-Space Measurements

Small

GIF

JPEG

Medium

Two Dimensions

Large

Very Large

By Size

By Format

By Format & Size

Group By

RED

WHITE

Colour

BLUE

RED

By Colour & Size

Cross Tab

By Format & Colour

WHITE

BLUE

By Colour

JPEG

GIF

Sum

By Colour

RED

WHITE

Sum

  • Format of image

  • Duration

  • Colors

  • Textures

  • Keywords

  • Size

  • Width

  • Height

  • Internet domain of image

  • Internet domain of parent pages

  • Image popularity

BLUE

By Format

Sum

Dimensions

Minerando banco de dados multimidia

Measurement


Regras de associa o2
Regras de associação

  • Entre imagem – não imagem

    • 50% de azul no topo da figura -> representa céu

  • Entre imagens sem relação espacial

    • figura contem dois quadrados azuis -> circulo vermelho

  • Entre imagens relacionadas espacialmente

    • Triangulo vermelho entre dois quadrados amarelos -> grande circulo abaixo

  • Uso de resolução progressiva

    • Garantir completude

  • Recorrencia

  • Relações espaciais


Minerando banco e dados multimidia

Different Resolution Hierarchy

Minerando banco e dados multimidia

Relações espaciais

property P1on-top-of property P2

property P1next-to property P2


Predi o e classifica o
Predição e Classificação

  • Pré-computação para descobrir atributos

  • Exemplo de interface:


ad