1 / 20

Contesto applicativo

Download Presentation

Contesto applicativo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UNIVERSITÀ DI PISAFACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDATesi di laurea:Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità.Relatori:Prof. Francesco MarcelloniProf. Beatrice LazzeriniCandidato: Baldini PaoloANNO ACCADEMICO 2005-2006

  2. Contesto applicativo • Data Clustering • Rappresentazione relazionale dei dati • Problemi: • Maggiore occupazione di memoria • Dimensional Curse • Soluzione: • Riduzione del numero di caratteristiche • Da evitare: • Perdita di informazioni necessarie alla corretta classificazione dei dati Algoritmo ARCA

  3. Raggiungere l’obiettivo preposto • Possibile? • Sì perché… • Implicita ridondanza della rappresentazione relazionale • Come? • Selezione delle caratteristiche salienti (feature selection) • Implementazione di apposite tecniche • MYPCA_Fs • NP_Fs • PCA_Fs • CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura

  4. NP_Fs: Near Points Feature Selection • Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. • Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti • N-vettore B = [bj]: • A parità di bj, calcolato vettore S = [sj]: • Caratteristica j-esima eliminata se: Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei campioni tra loro molto simili in base alla caratteristica in esame) { Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esima

  5. MyPCA_Fs Matrice A (ogni riga un autovettore) • Principal Component Analysis • Matrice di covarianza dei dati Autovettori Autovalori Vettore B • Autovettori pesati per i relativi autovalori • Somma delle componenti relative a ciascuna caratteristica • N-vettore B’ = B x A • b’j = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. • Selezione delle M caratteristiche con massimo valore di b’j corrispondente

  6. PCA_Fs • Principal Component Analysis • Matrice di covarianza dei dati Matrice A (ogni colonna un autovettore) • Eliminazione delle N - q colonne di A con autovalori associati di valore minimo • 1 ≤ q ≤ N • Nuova matrice A’ Autovettori Autovalori Vettore B Preferibilmente 1 ≤ q ≤ M • Clustering delle righe di A’ con numero di prototipi i pari a M • Individuazione della riga più vicina a ciascuno degli M prototipi • Selezione delle M caratteristiche corrispondenti alle righe individuate

  7. CORR_Fs • Matrice R di correlazione dei dati • Scelta delle M caratteristiche meno correlate fra loro come più rappresentative • Individuata coppia di caratteristiche massimamente correlate tra loro • Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima • Valore di soglia minima di correlazione • Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia

  8. Criterio di STOP adottato • Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua

  9. Valutazione dei risultati sperimentali • Validità della partizione • Coefficiente di partizione Ripreso dalla letteratura • 1/C ≤ P ≤ 1 • Misura del livello di fuzzyness

  10. Valutazione dei risultati sperimentali (II) Sviluppato durante la tesi • Differenza dalla partizione di riferimento • Indice Ivx • Misura della distanza tra due generiche partizioni Pi e Pj • Trasposizione dei campioni in un fittizio spazio N-dimensionale • Nuova immagine dei dati dipendente dalla partizione • Distanza normalizzata tra immagini ottenute da partizioni diverse Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei campioni

  11. Quantizzazione di Ivx

  12. Fase Sperimentale Dati reali dal database UCI Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) • Fase 1: • 5 dataset di dimensioni relativamente contenute • Dimostrazione della validità delle tesi ipotizzate • Impiego di tutti e 4 gli algoritmi di feature selection • Test dell’effettiva efficacia degli algoritmi in esame conservazione dell’informazione necessaria per una corretta classificazione dei campioni anche a seguito dell’eliminazione di un elevato numero di caratteristiche CORR_Fs MYPCA_Fs NP_Fs PCA_Fs

  13. Fase sperimentale (II) • Fase 2: • 2 dataset ad altissima dimensionalità (dell’ordine delle migliaia di dimensioni) • Ulteriore riprova dei risultati ottenuti nella Fase 1 • Verifica dell’eliminazione della maledizione dimensionale • Impiego del solo NP_Fs Raggiungere le condizioni necessarie a far convergere ARCA anche laddove precedentemente essa lo impediva • Phonemes • dati reali dal database del progetto ELENA • 5404 caratteristiche • DS8 • dati sintetici generati per l’occasione • 15000 caratteristiche

  14. Struttura dei test • Partizione di riferimento eseguita sul dataset completo • Eliminazione successiva di un numero crescente di caratteristiche • Confronto ogni volta con la partizione di riferimento • Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate • Più cicli considerando numeri diversi di cluster • Controllo del coefficiente di partizione

  15. Esempio di grafico dei test

  16. Risultati Fase 1 • Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile all’originale Valore medio globale di Ivx: 0.0681

  17. Risultati Fase 1 (II) • In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente all’originale ripartizione dei dati • Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente • Variazione inversa del numero di campioni classificati diversamente rispetto al dataset • overfitting

  18. Risultati Fase 1 (III) • Sostanziale equivalenza dei metodi di feature selection • Impossibile individuarne uno universalmente migliore • Dipendenza delle prestazioni dai diversi scenari • Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs • NP_Fs = via di mezzo tra essi e CORR_Fs

  19. Risultati Fase 2 • Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio • Conferma dell’efficacia della feature selection per eliminare la maledizione dimensionale • Maggiore chiarezza dei dati • Convergenza dell’algoritmo di clustering (ARCA) • Valori più alti del coefficiente di partizione P Dataset Phonemes Dataset DS8

  20. Conclusioni • Gli obiettivi preposti sono stati raggiunti • Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione • Eliminazione della maledizione dimensionale • Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata l’efficacia • NP_Fs • MYPCA_Fs

More Related