1 / 17

Dip. Ingegneria Meccanica Univ. Trieste AREA Science Park

Dip. Ingegneria Meccanica Univ. Trieste AREA Science Park. Interpretazione e visualizzazione di sistemi complessi multidimensionali: SOM e Text mining. Danilo Di Stefano. Argomenti. Dettagli dell’algoritmo delle Self Organizing Maps Esempio di utilizzo delle SOM in un caso illustrativo

cosima
Download Presentation

Dip. Ingegneria Meccanica Univ. Trieste AREA Science Park

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dip. Ingegneria Meccanica Univ. TriesteAREA Science Park Interpretazione e visualizzazione di sistemi complessi multidimensionali: SOM e Text mining Danilo Di Stefano

  2. Argomenti • Dettagli dell’algoritmo delle Self Organizing Maps • Esempio di utilizzo delle SOM in un caso illustrativo • Applicazione delle SOM a dati di testo (opere letterarie)

  3. Algoritmo SOM - Spunto • Proposto da T. Kohonen* negli anni ‘80 • Prende spunto dalla capacità del cervello di organizzare in maniera topografica gli stimoli sensoriali: un determinato tipo di stimolo viene processato in zone specifiche • Gli algoritmi che tentano di riprodurre questa caratteristica vengono detti auto-organizzanti; le SOM ne sono l’esempio principale • Le SOM associano i dati da analizzare a specifiche unità di output disposte in maniera topologicamente ordinata in un piano; producono in questo modo una rappresentazione ordinata dei dati su una mappa * T. Kohonen, Self Organizing Maps, Springer 1997

  4. Algoritmo SOM 1) XT=(X1, X2 .. Xd), campionamento dello spazio delle features. Crea una griglia con i nodi (i=1,…,k) in 2D. A ciascun nodo viene assegnato un vettore d-dimensionale W(i)T= (W1(i)W2(i).. Wd(i)), W(i) = W(i)(t) (codebook),che cambia con la variabile temporale discretat. 2)Inizializza:valori casualiW(i)(0)per ciascun nodoi=1...K.Definisce i parametri iniziali della neighborhood function(t)h(|ri-rc|/s(t),t) 3)Itera: seleziona un vettore di input XT

  5. Algoritmo SOM - Ciclo 3.1)Calcola distanzed(X,W(i)), trova W(c)più simile a (più vicino a)X 3.2)Aggiorna i valori delle componenti di tutti i nodi nell’intornoO(rc) 3.3)Diminuisce il valoreh0(t)e restringe il raggio dei vicinis(t). 3.4)Se raggiunto il numero di cicli desiderato, termina 4)Calcola l’errore di quantizzazione (qualità della mappa ottenuta)

  6. Algoritmo SOM - Dinamica Nella mappa è visibile la proiezione del processo di adattamento “ elastico” dei codebook alla distribuzione dei dati. L’elasticità diminuisce nel tempo: a convergenza la mappa assume la configurazione definitiva

  7. Utilizzo delle SOM • Visualizzazione di dati multidimensionali • Esplorazione dei dati • Classificazione

  8. Utilizzo delle SOM- Iris - Dati SepalL SepalW PetalL PetalW Tipo 4.6 3.6 1.0 0.2 Setosa 5.1 3.3 1.7 0.5 Setosa 4.8 3.4 1.9 0.2 Setosa 5.0 3.0 1.6 0.2 Setosa 5.0 3.4 1.6 0.4 Setosa 6.5 2.8 4.6 1.5 Versicolor 5.7 2.8 4.5 1.3 Versicolor 6.3 3.3 4.7 1.6 Versicolor 4.9 2.4 3.3 1.0 Versicolor 6.6 2.9 4.6 1.3 Versicolor 7.6 3.0 6.6 2.1 Virginica 4.9 2.5 4.5 1.7 Virginica 7.3 2.9 6.3 1.8 Virginica 6.7 2.5 5.8 1.8 Virginica 7.2 3.6 6.1 2.5 Virginica 6.5 3.2 5.1 2.0 Virginica 150 misurazioni di 4 variabili 3 tipologie

  9. Utilizzo delle SOM – Iris - Piani Associazioni locali su singoli dati Correlazioni locali, dipendenze non lineari, ridondanze

  10. Utilizzo delle SOM – Iris - Cluster U-Matrix Clustering non supervisionato: le SOM, senza nessun vicolo a priori, permettono di esplorare i dati in modo da poter individuare eventuali gruppi di dati molto simili tra loro (cluster)

  11. Utilizzo delle SOM – Iris - Classificazione Se i dati analizzati sono un campione rappresentativo della distribuzione, è possibile utilizzare una SOM per una classificazione di esempi non conosciuti

  12. Applicazione a testi Preso in considerazione un insieme di 35 opere letterarie di quattro autori diversi. Si indaga la possibilità di formare gruppi di documenti simili • Codifica del testo: ciascuna parola,escluse quelle con una, due o tre lettere, viene codificata secondo lo schema con ccodice ascii del carattere i-esimo della parola y di lunghezza L: ogni parola ha un codice diverso • Calcolo della distanza euclidea: la similarità tra due documenti viene calcolata come distanza euclidea tra i rispettivi istogrammi della frequenza relativa delle singole parole comuni

  13. Applicazione a testi - Istogrammi

  14. Applicazione a testi - Dendrogrammi

  15. Applicazione a testi - SOM sal1 Alla conquista di un impero sal2 Attraverso l'Atlantico in pallone sal3 I misteri della giungla nera sal4 I pirati della Malesia sal5 I predoni del Sahara sal6 Il figlio del corsaro rosso sal7 Jolanda, la figlia del corsaro nero sal8 La rivincita di Yanez sal9 Le due tigri sha1 Amleto sha2 Antonio e Cleopatra sha3 Coriolano sha4 Enrico V sha5 Giulio Cesare sha6 Macbeth sha7 Otello sha8 Riccardo III sha9 Tito Andronico sha10 Tutto e' bene quel che finisce bene ver1 Eros ver2 Eva ver3 I Malavoglia ver4 Il marito di Elena ver5 La lupa ver6 Mastro don Gesualdo ver7 Rose caduche ver8 Storia di una capinera ver9 Tigre reale ver10 Una peccatrice sve1 Corto viaggio sentimentale sve2 La coscienza di Zeno sve3 La novella del buon vecchio sve4 Senilita' sve5 Una burla sve6 Una vita

  16. Sviluppi • Applicazione del metodo (con le opportune modifiche) a documenti di interesse in ambito finanziario (rapporti, news, quotidiani) • Accoppiamento con un classificatore binario (SVM) : SOM in fase di esplorazione, SVM come classificatore

More Related