470 likes | 607 Views
rosuda. Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta. IVDM 2003. rosuda. ROSUDA:. Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse Dipartimento di Statistica Computazionale ed Analisi dei Dati. IVDM 2003. rosuda. IVDM by ROSUDA: Outline. I PARTE
E N D
rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003
rosuda ROSUDA: Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse Dipartimento di Statistica Computazionale ed Analisi dei Dati IVDM 2003
rosuda IVDM by ROSUDA: Outline I PARTE • Partiamo dai dati • Il Data Mining • I Grafici • Visualizzazione • Interattivitá • IVDM • MosaicPlot & MANET • ParallelCoordinates & CASSATT II PARTE • Software per il DM • Software per l´ IVDM • Grafici Interattivi by Rosuda • Map & MONDRIAN • Glyphs&… • Trees & KLIMT • Interattivitá nello specifico • Torniamo ai dati • Information & “Informations” • IntGraphics per “tutti” • La ricerca Rosuda • Discussione IVDM 2003
rosuda What´s Data Mining? Secondary analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in a novel ways that are both understandable and useful to the data owner (D.Hand) IVDM 2003
rosuda Cominciamo dai Dati: La Veritá dei Dati Veritá Evidente Dati nudi e crudi Veritá Latente es. evoluzione delInfo da estrarrefenomeno nel tempo IVDM 2003
rosuda Un case-study in generale Punti da chiarire: Un pò di storia Da dove nasce l`esigenza di analizzare i dati… Tipo di Dati Descrizione dei dati e delle variabilie Fonte Ragione e tempi di raccolta dei dati IVDM 2003
rosuda Chi Cosa, Dove e Quando Un Viaggio fra i dati…e l album di viaggio: Di tappa in tappa si decide una nuova direzione IVDM 2003
rosuda Analisi parziale e nuovi obiettivi • Evoluzione della conoscenza in merito al fenomeno analizzato mano a mano che l’ analisi procede • Incidenza singoli fattori • Reintegrazione dell`Informazione estratta • Ripianificazione dell`analisi • Lettura e rilettura dei dati alla luce della nuova conoscenza • Rileggere il passato • Pianificare il cambiamento • informazione IVDM 2003
rosuda Obiettivi del Data Mining • Analisi di dati raccolti per altre ragioni • I migliori risultati non sono necessariamente quelli di maggiore interesse • É comune trovare dati di Cattiva Qualitá - • Interpretazione difficile • Generalizzazione difficile IVDM 2003
rosuda Data Mining. L´Approccio (a) Informatica Ricerca Automatica di Informazione Interessante METODI VELOCI ED EFFICIENTI PER EDA IVDM 2003
rosuda Data Mining. L´Approccio (b) Statistica Ricerca di risultati di qualunque interesse DEFINIZIONE DI INTERESSE E POTENZIALITÁ DEI METODI STATISTICI PER L´ANALISI DEI DATI IVDM 2003
rosuda Cosa sono i grafici? * Oggetti che rappresentano sinteticamente i dati * Valutabili con gli occhi…. IVDM 2003
rosuda Cosa sono i grafici? IVDM 2003
rosuda Cos è la Visualizzazione? • Non supportata da un´unica teoria formale • Collezione di utili strumenti per : • * condurre analisi • * verificare la qualitá dei dati • * identificare patterns • * suggerire strutture • principale oggetto della rappresentazione sono i Grafici IVDM 2003
rosuda Cos è l´ Interattività? Becker et al. direct manipulation and instantaneous change Unwin direct manipulation of plots and plotting elements in them immediacy of place immediacy of action IVDM 2003
rosuda Visual Interactive Data Mining Collezione di strumenti GRAFICI per * condurre analisi * verificare la qualitá dei dati * identificare patterns * suggerire strutture Con data sets anchemolto grandi attraverso diretta manipolazione delle rappresentazioni grafiche collocazione estemporanea di nuovi elementi IVDM 2003
rosuda Interactive Visual Data Mining: Implementazione Gli oggetti grafici sono direttamente collegati ai dati tramite ID NON solo OUTPUT statici **Graphics manipulation = Data manipulation** IVDM 2003
rosuda Interactive Visual Data Mining: Features Theus`s List: Highlighting Linking Querying Warnings ……..??? IVDM 2003
rosuda Interactive Visual Data Mining: Issues Information Extraction Information Reintegration attraverso Graphical Data Representation e Data Manipulation IVDM 2003
rosuda Interactive Visual Data Mining: dai dati agli Scatterplot... IVDM 2003
rosuda …dentro gli Scatterplot IVDM 2003
rosuda Bank Dataset data set, ottenuto da una Banca Tedesca, per identificare i pricipali fattori condizionanti le transazioni Dati raccolti per ragioni tecniche ca. 600,000 transazioni in 24 variabili IVDM 2003
rosuda …agli Scatterplot indietro ai dati... Si cominciano avedere dei gruppi Questi Gruppi non sono individuabili da normali procedure di Clustering IVDM 2003
rosuda ..poi la Regressione...
rosuda …Istogrammi IVDM 2003
rosuda Titanic Dataset www.amstat.org/publications/jse/v3n3/datasets.dawson.html descritto nell´articolo: The "Unusual Episode" Data Revisited Robert J. MacG. Dawson Saint Mary's University Journal of Statistics Education v.3, n.3 (1995) 2201 casi and 4 variabili: Class, Sex, Age (Giovani o Anziani) e Survival. IVDM 2003
rosuda Barchart per dati Categorici.... Ogni oggetto deve poter essere interrogato In questo caso la query riguarda la sola selezione IVDM 2003
rosuda Ogni pixel informativo deve essere visibile! Sottolineature in rosso indicano effettiva presenza di (pochi) casi Dalla query possiamo evincere la presenza di 6 bimbi in prima classe IVDM 2003
rosuda …per esplorare l´Associazione... Non indipendenti --C´è associazione fra suvival e (age, sex, class)? --Chi avevauna probabilitá maggiore di sopravvivere? Indipendenti IVDM 2003
rosuda ...Mosaic Plot e Manet IVDM 2003
rosuda Cos è un MosaicPlot? Funzione applicata a tavole di contingenza ad entrata multipla, che producono output grafici f IVDM 2003
rosuda Costruire un MosaicPlot K=0 K=1 K=2 P11 P21 P31 P41 P1 P1 P2 P3 P4 P12 P22 P32 P42 IVDM 2003
Not indep Independent rosuda Interpretare un MosaicPlot: Interactive feature: Highlighting Editing structure(re-ordering, grouping, splitting) Linking Rotation Querying Reparametrisation Zoom IVDM 2003
rosuda Mosaic Plot e c2 Che succede??? IVDM 2003
rosuda Mosaic plot, c2 e Survival... La significativitá dell´Ipotesi di non indipendenza è evidente Tuttavia, c2 = 671,96 suggerirebbe di rifiutare l´ipotesi di non Independenza IVDM 2003
rosuda Cosa vediamo da rappresentazioni diverse IVDM 2003
rosuda Missing Are Now Equally Treated IVDM 2003
rosuda E se il numero di variabili cresce? IVDM 2003
rosuda Soluzione “voluminosa” ed inefficiente IVDM 2003
rosuda Pensa in Parallelo! IVDM 2003
rosuda Pensa in Parallelo! Parallel coordinates per… Correlazione N-dimensional clusters outliers IVDM 2003
rosuda Parallel Coordinates e Cassatt Dualismo punto-linea IVDM 2003
rosuda Stressing Parallel Coordinates Si possono analizzare fino a qualche centinaio di variabili! IVDM 2003
rosuda Riassumendo….. I dati sono “problematici” I dati nascondono iformazione Non esiste il miglior metodo in Assoluto Visualizzazione ed Interattivitá sono strumenti innovativi, di grande utilitá ed interesse scientifico IVDM 2003
rosuda Come li rappresentereste? • Number of Observations: • A few • Many • Kind of Observations: • Categorical • Continuous • Number of Variables: • One-two • A few • Many • Infinite Scatterplot Trellis Display Barchart Mosaic Plot Parallel Coordinate IVDM 2003
rosuda Rosuda: analisi interattiva per ogni tipo di dati • Soluzioni Interattive differenziate ed Ottimali • Design Consistente • Buon CHI • Gamma di soluzioni tale da consentire una completa EDA • Ottimizzazione delle risorse informatiche e delle tecniche statistiche IVDM 2003
rosuda No Conclusion, c´è ancora parecchio da fare! Commenti? Consigli? Domande? bibliografia: http://stats.math.uni-augsburg.de IVDM 2003