Rosuda
Download
1 / 47

rosuda - PowerPoint PPT Presentation


  • 102 Views
  • Uploaded on

rosuda. Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta. IVDM 2003. rosuda. ROSUDA:. Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse Dipartimento di Statistica Computazionale ed Analisi dei Dati. IVDM 2003. rosuda. IVDM by ROSUDA: Outline. I PARTE

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' rosuda' - phuoc


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

rosuda

Interactive Visual Data Mining

e la Ricerca

dell’Informazione Nascosta

IVDM 2003


rosuda

ROSUDA:

Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse

Dipartimento di Statistica Computazionale ed Analisi dei Dati

IVDM 2003


rosuda

IVDM by ROSUDA: Outline

I PARTE

  • Partiamo dai dati

  • Il Data Mining

  • I Grafici

  • Visualizzazione

  • Interattivitá

  • IVDM

  • MosaicPlot & MANET

  • ParallelCoordinates & CASSATT

II PARTE

  • Software per il DM

  • Software per l´ IVDM

  • Grafici Interattivi by Rosuda

  • Map & MONDRIAN

  • Glyphs&…

  • Trees & KLIMT

  • Interattivitá nello specifico

  • Torniamo ai dati

  • Information & “Informations”

  • IntGraphics per “tutti”

  • La ricerca Rosuda

  • Discussione

IVDM 2003


rosuda

What´s Data Mining?

Secondary analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in a novel ways that are both understandable and useful to the data owner

(D.Hand)

IVDM 2003


rosuda

Cominciamo dai Dati: La Veritá dei Dati

Veritá Evidente

Dati nudi e crudi

Veritá Latente es. evoluzione delInfo da estrarrefenomeno nel tempo

IVDM 2003


rosuda

Un case-study in generale

Punti da chiarire:

Un pò di storia

Da dove nasce l`esigenza di analizzare i dati…

Tipo di Dati

Descrizione dei dati e delle variabilie

Fonte

Ragione e tempi di raccolta dei dati

IVDM 2003


rosuda

Chi Cosa, Dove e Quando

Un Viaggio fra i dati…e l album di viaggio:

Di tappa in tappa si decide una nuova direzione

IVDM 2003


rosuda

Analisi parziale e nuovi obiettivi

  • Evoluzione della conoscenza in merito al fenomeno analizzato mano a mano che l’ analisi procede

  • Incidenza singoli fattori

  • Reintegrazione dell`Informazione estratta

  • Ripianificazione dell`analisi

  • Lettura e rilettura dei dati alla luce della nuova conoscenza

  • Rileggere il passato

  • Pianificare il cambiamento

  • informazione

IVDM 2003


rosuda

Obiettivi del Data Mining

  • Analisi di dati raccolti per altre ragioni

  • I migliori risultati non sono necessariamente quelli di maggiore interesse

  • É comune trovare dati di Cattiva Qualitá -

  • Interpretazione difficile

  • Generalizzazione difficile

IVDM 2003


rosuda

Data Mining. L´Approccio (a)

Informatica Ricerca Automatica di Informazione Interessante

METODI VELOCI ED EFFICIENTI PER EDA

IVDM 2003


rosuda

Data Mining. L´Approccio (b)

Statistica Ricerca di risultati di qualunque interesse

DEFINIZIONE DI INTERESSE E POTENZIALITÁ DEI METODI STATISTICI PER L´ANALISI DEI DATI

IVDM 2003


rosuda

Cosa sono i grafici?

* Oggetti che rappresentano sinteticamente i dati

* Valutabili con gli occhi….

IVDM 2003


rosuda

Cosa sono i grafici?

IVDM 2003


rosuda

Cos è la Visualizzazione?

  • Non supportata da un´unica teoria formale

  • Collezione di utili strumenti per :

  • * condurre analisi

  • * verificare la qualitá dei dati

  • * identificare patterns

  • * suggerire strutture

  • principale oggetto della rappresentazione sono i Grafici

IVDM 2003


rosuda

Cos è l´ Interattività?

Becker et al.

direct manipulation and instantaneous change

Unwin

direct manipulation of plots and plotting elements in them

immediacy of place

immediacy of action

IVDM 2003


rosuda

Visual Interactive Data Mining

Collezione di strumenti GRAFICI per

* condurre analisi * verificare la qualitá dei dati

* identificare patterns * suggerire strutture

Con data sets anchemolto grandi attraverso

diretta manipolazione delle rappresentazioni grafiche

collocazione estemporanea di nuovi elementi

IVDM 2003


rosuda

Interactive Visual Data Mining:

Implementazione

Gli oggetti grafici sono

direttamente collegati ai dati tramite ID

NON solo OUTPUT statici

**Graphics manipulation = Data manipulation**

IVDM 2003


rosuda

Interactive Visual Data Mining:

Features

Theus`s List:

Highlighting

Linking

Querying

Warnings

……..???

IVDM 2003


rosuda

Interactive Visual Data Mining:

Issues

Information Extraction

Information Reintegration

attraverso

Graphical Data Representation

e

Data Manipulation

IVDM 2003


rosuda

Interactive Visual Data Mining:

dai dati agli Scatterplot...

IVDM 2003


rosuda

…dentro gli Scatterplot

IVDM 2003


rosuda

Bank Dataset

data set, ottenuto da una Banca Tedesca, per identificare i pricipali fattori condizionanti le transazioni

Dati raccolti per ragioni tecniche

ca. 600,000 transazioni in 24 variabili

IVDM 2003


rosuda

…agli Scatterplot indietro ai dati...

Si cominciano avedere dei gruppi

Questi Gruppi non sono individuabili da normali procedure di Clustering

IVDM 2003


rosuda

..poi la Regressione...


rosuda

…Istogrammi

IVDM 2003


rosuda

Titanic Dataset

www.amstat.org/publications/jse/v3n3/datasets.dawson.html

descritto nell´articolo:

The "Unusual Episode" Data Revisited

Robert J. MacG. Dawson

Saint Mary's University

Journal of Statistics Education v.3, n.3 (1995)

2201 casi and 4 variabili: Class, Sex, Age (Giovani o Anziani) e Survival.

IVDM 2003


rosuda

Barchart per dati Categorici....

Ogni oggetto deve poter essere interrogato

In questo caso la query riguarda la sola selezione

IVDM 2003


rosuda

Ogni pixel informativo deve essere visibile!

Sottolineature in rosso indicano effettiva presenza di (pochi) casi

Dalla query possiamo evincere la presenza di 6 bimbi in prima classe

IVDM 2003


rosuda

…per esplorare l´Associazione...

Non indipendenti

--C´è associazione fra suvival e (age, sex, class)?

--Chi avevauna probabilitá maggiore di sopravvivere?

Indipendenti

IVDM 2003


rosuda

...Mosaic Plot e Manet

IVDM 2003


rosuda

Cos è un MosaicPlot?

Funzione applicata a tavole di contingenza ad entrata multipla, che producono output grafici

f

IVDM 2003


rosuda

Costruire un MosaicPlot

K=0

K=1

K=2

P11 P21 P31

P41

P1

P1 P2 P3

P4

P12 P22 P32

P42

IVDM 2003


Not indep

Independent

rosuda

Interpretare un MosaicPlot:

Interactive feature:

Highlighting

Editing structure(re-ordering, grouping, splitting)

Linking

Rotation

Querying

Reparametrisation

Zoom

IVDM 2003


rosuda

Mosaic Plot e c2

Che succede???

IVDM 2003


rosuda

Mosaic plot, c2 e Survival...

La significativitá dell´Ipotesi di non indipendenza è evidente

Tuttavia,

c2 = 671,96 suggerirebbe di rifiutare l´ipotesi di non Independenza

IVDM 2003


rosuda

Cosa vediamo da rappresentazioni diverse

IVDM 2003


rosuda

Missing Are Now Equally Treated

IVDM 2003


rosuda

E se il numero di variabili cresce?

IVDM 2003


rosuda

Soluzione “voluminosa” ed inefficiente

IVDM 2003


rosuda

Pensa in Parallelo!

IVDM 2003


rosuda

Pensa in Parallelo!

Parallel coordinates per…

Correlazione

N-dimensional clusters

outliers

IVDM 2003


rosuda

Parallel Coordinates e Cassatt

Dualismo punto-linea

IVDM 2003


rosuda

Stressing Parallel Coordinates

Si possono analizzare fino a qualche centinaio di variabili!

IVDM 2003


rosuda

Riassumendo…..

I dati sono “problematici”

I dati nascondono iformazione

Non esiste il miglior metodo in Assoluto

Visualizzazione ed Interattivitá sono strumenti innovativi, di grande utilitá ed interesse scientifico

IVDM 2003


rosuda

Come li rappresentereste?

  • Number of Observations:

  • A few

  • Many

  • Kind of Observations:

  • Categorical

  • Continuous

  • Number of Variables:

  • One-two

  • A few

  • Many

  • Infinite

Scatterplot

Trellis Display

Barchart

Mosaic Plot

Parallel Coordinate

IVDM 2003


rosuda

Rosuda: analisi interattiva per ogni tipo di dati

  • Soluzioni Interattive differenziate ed Ottimali

  • Design Consistente

  • Buon CHI

  • Gamma di soluzioni tale da consentire una completa EDA

  • Ottimizzazione delle risorse informatiche e delle tecniche statistiche

IVDM 2003


rosuda

No Conclusion,

c´è ancora parecchio da fare!

Commenti? Consigli? Domande?

bibliografia:

http://stats.math.uni-augsburg.de

IVDM 2003


ad