Metadatazione automatica di videogiornali mediante Text Categorization

1. Metadatazione automatica di videogiornali mediante Text Categorization

2. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Classificazione di un videogiornale

3. Metadatazione automatica di videogiornali mediante Text Categorization MAM L�obiettivo � quello di realizzare un modulo che faccia la metadatazione automatica di contenuti multimediali. In altre parole quello che si vuole fare � la classificazione delle notizie contenute in documenti testuali e nel parlato di audio e video. Agiamo nella fase di Indicizzazione per permettere una fase di ricerca migliore. Ad esempio, grazie a questo modulo � possibile ricercare tutti i video che parlano della vita sociale dei Leoni. Il Multimedia Asset Management � l�evoluzione del CMS (Content Management System) e nasce appositamente per la gestione dei digital asset (beni digitali). I Sistemi MAM, a differenza dei CMS, pongono l�asset (il bene) al centro del sistema, ed hanno come concetto principale quello del �riuso�. Il progetto di un tale sistema esige lo sviluppo di sei sottosistemi e delle relazioni che intercorrono fra essi: Ingestion, Indicizzazione, Ricerca, Storage, Sicurezza e Distribuzione. L�obiettivo � quello di realizzare un modulo che faccia la metadatazione automatica di contenuti multimediali. In altre parole quello che si vuole fare � la classificazione delle notizie contenute in documenti testuali e nel parlato di audio e video. Agiamo nella fase di Indicizzazione per permettere una fase di ricerca migliore. Ad esempio, grazie a questo modulo � possibile ricercare tutti i video che parlano della vita sociale dei Leoni. Il Multimedia Asset Management � l�evoluzione del CMS (Content Management System) e nasce appositamente per la gestione dei digital asset (beni digitali). I Sistemi MAM, a differenza dei CMS, pongono l�asset (il bene) al centro del sistema, ed hanno come concetto principale quello del �riuso�. Il progetto di un tale sistema esige lo sviluppo di sei sottosistemi e delle relazioni che intercorrono fra essi: Ingestion, Indicizzazione, Ricerca, Storage, Sicurezza e Distribuzione.

4. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Definizione Sistema Esperto o Machine Learning? Feature Extraction Il Classificatore Metrica di Valutazione Classificazione di un Videogiornale

5. Metadatazione automatica di videogiornali mediante Text Categorization Cos�� la Text Categorization? Ha l�obiettivo di assegnare un valore booleano a ogni coppia <di,ci>� DXC dove D � l�insieme di documenti e C di categorie � in altre parole � il processo attraverso il quale un documento di testo viene classificato in una o pi� categorie predefinite in base ai suoi contenuti. La TC � il processo attraverso il quale un documento di testo viene classificato in una o pi� categorie predefinite in base ai suoi contenuti. Automatizzare il processo di TC significa dunque fornire un fondamentale ausilio per ordinare la gran mole di dati disponibile in base agli interessi specifici dell�utente.La TC � il processo attraverso il quale un documento di testo viene classificato in una o pi� categorie predefinite in base ai suoi contenuti. Automatizzare il processo di TC significa dunque fornire un fondamentale ausilio per ordinare la gran mole di dati disponibile in base agli interessi specifici dell�utente.

6. Metadatazione automatica di videogiornali mediante Text Categorization Sistema Esperto o Machine Learning? IF <DNF Formula> THEN <ci> ELSE <?ci> (DNF=Forma Normale Disgiuntiva) O costruttore automatico di classificatori Presuppone la disponibilit� iniziale di un corpus di documenti preclassificati Negli anni 80 la classificazione veniva effettuata tramite l�utilizzo di sistemi esperti che classificavano i testi in base a delle regole logiche definite manualmente da esperti umani. Quest�approccio limitava il classificatore ad un dominio di applicazione specifico. Negli anni 90 si afferma il ML che a differenza di quello che accade per i sistemi esperti, lo sforzo ingegneristico si concentra non sulla costruzione di un classificatore, bens� sulla realizzazione di un costruttore automatico di classificatori (il learner). Tutto ci� che si deve fare � avviare la costruzione automatica del classificatore a partire da un set di documenti classificati manualmente. L�intervento dell�esperto in questo caso si riduce alla classificazione di documenti appartenenti alla categoria di interesse. Negli anni 80 la classificazione veniva effettuata tramite l�utilizzo di sistemi esperti che classificavano i testi in base a delle regole logiche definite manualmente da esperti umani. Quest�approccio limitava il classificatore ad un dominio di applicazione specifico. Negli anni 90 si afferma il ML che a differenza di quello che accade per i sistemi esperti, lo sforzo ingegneristico si concentra non sulla costruzione di un classificatore, bens� sulla realizzazione di un costruttore automatico di classificatori (il learner). Tutto ci� che si deve fare � avviare la costruzione automatica del classificatore a partire da un set di documenti classificati manualmente. L�intervento dell�esperto in questo caso si riduce alla classificazione di documenti appartenenti alla categoria di interesse.

7. Metadatazione automatica di videogiornali mediante Text Categorization Prima di procedere� �bisogna trasformare il doc da �machine-readable� a �machine-processable�. Feature Extraction Preprocessing Rimozione dei Tag Rimozione delle Stopword in, un, e, allora, � Stemming walk, walked, walker, walking walk Indicizzazione Vector Space Model Riduzione della Dimensione Term Selection e Term Extraction Stemming : estrazione della radice comune del termine con eliminazione della desinenza (singolare/plurale, maschile/femminile, INFINITO PRESENTE, ecc.). In questo modo la lista di termini che utilizziamo sar� pi� generale e non sottoposta alle restrizioni di genere e numero. Ma si pu� anche decidere, sulla base di criteri significativi, di adottare solo il singolare o solo il plurale, e cos� via, inserendo gli altri termini fra i sinonimi. Funzione standard tfidf (Tern Frequency-Inverse Document Frequency) tfidf (tk ,dj ) = #(tk ,dj ) log[|Tr| / #Tr(tk)] dove: #(tk ,dj ) indica il numero di occorenze di tk in dj #Tr(tk) indica il numero di documenti di Tr nel quale tk occorre Stemming : estrazione della radice comune del termine con eliminazione della desinenza (singolare/plurale, maschile/femminile, INFINITO PRESENTE, ecc.). In questo modo la lista di termini che utilizziamo sar� pi� generale e non sottoposta alle restrizioni di genere e numero. Ma si pu� anche decidere, sulla base di criteri significativi, di adottare solo il singolare o solo il plurale, e cos� via, inserendo gli altri termini fra i sinonimi. Funzione standard tfidf (Tern Frequency-Inverse Document Frequency) tfidf (tk ,dj ) = #(tk ,dj ) log[|Tr| / #Tr(tk)] dove: #(tk ,dj ) indica il numero di occorenze di tk in dj #Tr(tk) indica il numero di documenti di Tr nel quale tk occorre

8. Metadatazione automatica di videogiornali mediante Text Categorization Il Classificatore Esistono vari tipi di classificatore; quello che fa al caso nostro � di tipo probabilistico: P(ci) � la probabilit� che un documento selezionato a caso appartenga a ci, P(dj) la probabilit� che un documento selezionato a caso ha come relativa rappresentazione il vettore dj, P(di|cj) la probabilit� che un documento selezionato a caso sia rappresentato dal vettore dj quando questo appartiene alla categoria ci. In generale, la valutazione della P(di|cj) presenta delle difficolt� poich� il numero di vettori possibili � molto alto. Esistono due versioni del metodo NB Multivariate Bernoulli (considera solo il termine di occorrenza) and Multinomial Misure (considera solo il termine di frequenza). E� un metodo che ha come vantaggio la robustezza e un piccolo consumo di risorse, anche se criticato per l��assunzione della indipendenza della parola� (gli attributi utilizzati negli esempi sono indipendenti gli uni dagli altri all�interno di un dato contesto della categoria ) P(ci) � la probabilit� che un documento selezionato a caso appartenga a ci, P(dj) la probabilit� che un documento selezionato a caso ha come relativa rappresentazione il vettore dj, P(di|cj) la probabilit� che un documento selezionato a caso sia rappresentato dal vettore dj quando questo appartiene alla categoria ci. In generale, la valutazione della P(di|cj) presenta delle difficolt� poich� il numero di vettori possibili � molto alto. Esistono due versioni del metodo NB Multivariate Bernoulli (considera solo il termine di occorrenza) and Multinomial Misure (considera solo il termine di frequenza). E� un metodo che ha come vantaggio la robustezza e un piccolo consumo di risorse, anche se criticato per l��assunzione della indipendenza della parola� (gli attributi utilizzati negli esempi sono indipendenti gli uni dagli altri all�interno di un dato contesto della categoria )

9. Metadatazione automatica di videogiornali mediante Text Categorization Naive Bayes La prima ipotesi � che la probabilit� di una parola d�essere presente in una determinata posizione del testo � indipendente dalla collocazione delle altre parole nel documento, fissando una determinata classe d�appartenenza; La seconda ipotesi � che le parole siano identicamente distribuite, cio� che ogni parola del vocabolario si possa trovare con uguale probabilit� in una prefissata posizione; L�approccio bayesiano per classificare una nuova istanza � quello di assegnare un valore VMAP (Maximum Attribute Probability) sulla base degli attributi dell�istanza, valutati secondo l�esperienza del classificatore. La prima ipotesi � che la probabilit� di una parola d�essere presente in una determinata posizione del testo � indipendente dalla collocazione delle altre parole nel documento, fissando una determinata classe d�appartenenza; La seconda ipotesi � che le parole siano identicamente distribuite, cio� che ogni parola del vocabolario si possa trovare con uguale probabilit� in una prefissata posizione; L�approccio bayesiano per classificare una nuova istanza � quello di assegnare un valore VMAP (Maximum Attribute Probability) sulla base degli attributi dell�istanza, valutati secondo l�esperienza del classificatore.

10. Metadatazione automatica di videogiornali mediante Text Categorization Funzione Obiettivo La terza ipotesi � che la classe d�appartenenza di un documento non dipenda dalla sua lunghezza. La terza ipotesi � che la classe d�appartenenza di un documento non dipenda dalla sua lunghezza.

11. Metadatazione automatica di videogiornali mediante Text Categorization Funzione Obiettivo La terza ipotesi � che la classe d�appartenenza di un documento non dipenda dalla sua lunghezza. Dove |cj| denota il numero di documenti di training e |D| � il numero totale di documenti usati per il training di tutte le classi (approccio frequentista). N � il numero di token presenti in Textj Nk = frequenza della parola wk in Textj.La terza ipotesi � che la classe d�appartenenza di un documento non dipenda dalla sua lunghezza. Dove |cj| denota il numero di documenti di training e |D| � il numero totale di documenti usati per il training di tutte le classi (approccio frequentista). N � il numero di token presenti in Textj Nk = frequenza della parola wk in Textj.

12. Metadatazione automatica di videogiornali mediante Text Categorization NaiveBayesTrainer Selezionare le parole o token che compaiono in tutti i documenti del train-set, l�elenco ottenuto costituir� il vocabolario. Calcolare P(Cj) e P(wk|Cj) Per ogni categoria o classe Cj �C Considerare i documenti della categoria Cj tra tutti quelli del train-set e ricavare: P(Cj) =|Ci| / |Vocabolario| Creare un documento Textj dalla concatenazione di tutti i dj (quindi i documenti d�esempio di una classe). Contare i token presenti in Textj e memorizzarne il valore in N. Per tutte le parole del vocabolario calcolare Nk = frequenza della parola wk in Textj. P(wk|Cj) = (NK+1) / (N+|Vocabolario|) NaiveBayesClassify Riconoscere i token del documento da classificare considerando solo quelle presenti anche nel vocabolario precostituito in fase d�apprendimento. Vbn=argmaxCj �C P(Cj)*produttoria(i=1 to |docs|)P(wk|Cj)

13. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione L�appartenenza di un documento ad una categoria �, per mezzo del suo carattere soggettivo, non formalizzabile la valutazione dei classificatori TC � tipicamente condotta sperimentalmente piuttosto che analiticamente.

14. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione

15. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Recall indica la probabilit� che se un documento non appartiene alla categoria, questa decisione � corretta.

16. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Precision indica la probabilit� che se un documento � classificato sotto la categoria, questa decisione � corretta, cio� conta il numero di risposte corrette sul numero di risposte totali.

17. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Precision e la Recall si possono considerare come l�aspettativa da parte dell�utente sul comportamento del classificatore ed hanno senso solo se utilizzate insieme. Molti sistemi cercano di trovare un bilancio tra queste due misure: Breakeven Point F-Measures

18. Metadatazione automatica di videogiornali mediante Text Categorization Sperimentazione Inglese Andrew McCallum Department of Computer Science University of Massachusetts Amherst Nel caso della collezione Reuters-21578[10] �ModApt� invece i risultati ottenuti sono: Efficacia sul train-set: 87,9% Efficacia sul test-set: 86,8%Andrew McCallum Department of Computer Science University of Massachusetts Amherst Nel caso della collezione Reuters-21578[10] �ModApt� invece i risultati ottenuti sono: Efficacia sul train-set: 87,9% Efficacia sul test-set: 86,8%

19. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Classificazione di un Videogiornale Il Sistema Speech to Text Definizione del Data-set Demo Sperimentazione

20. Metadatazione automatica di videogiornali mediante Text Categorization Il Sistema Si parte da una serie di scene (video monotematici) da cui viene estratto il parlato che viene sottoposto al modulo di text2speech. Il modulo usato, lo stesso di Virage (una delle pi� avanzate soluzioni MAM), � l�engine ViaVoice proposto dalla IBM e Scansoft aziende leader nella settore della speech recognition. Una volta ricavato il testo associato al parlato si passa alla sua classificazione.Si parte da una serie di scene (video monotematici) da cui viene estratto il parlato che viene sottoposto al modulo di text2speech. Il modulo usato, lo stesso di Virage (una delle pi� avanzate soluzioni MAM), � l�engine ViaVoice proposto dalla IBM e Scansoft aziende leader nella settore della speech recognition. Una volta ricavato il testo associato al parlato si passa alla sua classificazione.

21. Metadatazione automatica di videogiornali mediante Text Categorization Speech2Text Riconosce la voce naturale e il parlato continuo e li converte in testo Addestramento specifico o generale Creazione di un Vocabolario Difficolt� a separare la voce dai rumori di sottofondo

22. Metadatazione automatica di videogiornali mediante Text Categorization Alcune differenze di Vocabolario

23. Metadatazione automatica di videogiornali mediante Text Categorization Struttura di un videogiornale

24. Metadatazione automatica di videogiornali mediante Text Categorization Struttura di un videogiornale Dopo un�analisi preliminare dei TG e delle notizie ANSA la classificazione con minor ambiguit� � risultata la seguente: Cronaca Italiana (Cronaca Nera, Rosa e giudiziaria) Politica Italiana (Politica Interna) Mondo (Cronaca e Politica Estera, Citt� del Vaticano) Finanza & Economia (Borsa, i tassi di cambio, il prezzo del petrolio, scioperi, acquisizioni, cessioni e fallimenti societari) Cultura & Societ� (Moda, Spettacolo, Scoperte Scientifiche) Sport (Eventi e cronache sportive)

25. Metadatazione automatica di videogiornali mediante Text Categorization DATASET ANSA ANCHORMAN SERVIZIO MODULO INFORMATIVO

26. Metadatazione automatica di videogiornali mediante Text Categorization DATASET Riferito a circa un mese di TG annunciati da � Marco Betello TG1 Cesara Buonamici TG5 1600 notizie ANSA 206 notizie ANCHORMAN TG 123 servizi TG 140 servizi completi TG 8 (121) TG trascritti con il vocabolario BASE 8 (121) TG trascritti con il vocabolario AMPLIATO 1600 notizie ANSA 206 notizie ANCHORMAN TG 123 servizi TG 140 servizi completi TG 8 (121) TG trascritti con il vocabolario BASE 8 (121) TG trascritti con il vocabolario AMPLIATO

27. Metadatazione automatica di videogiornali mediante Text Categorization

28. Metadatazione automatica di videogiornali mediante Text Categorization Mediante l�approccio ten-fold-cross-validation si sono ottenuti i seguenti risultati : SPERIMENTAZIONE

29. Metadatazione automatica di videogiornali mediante Text Categorization Dimensione del Data-set

30. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

31. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONECesara Buonamici





36. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE REALE

37. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE REALE

38. Metadatazione automatica di videogiornali mediante Text Categorization Conclusioni La definizione del data-set � la fase pi� importante per l�addestramento di un buon classificatore. Cosa utilizzare per la classificazione? Scena Anchorman o Modulo Informativo? Sviluppi futuri Aumento della dimensione del data-set per poter avere una precisione maggiore e pi� categorie su cui agire. Cercare di effettuare una trascrizione Reale dei servizi.

39. Metadatazione automatica di videogiornali mediante Text Categorization DEMO Nel corso della presentazione si far� riferimento al TG1 condotto nel luglio 2003 da Francesco Giorgino utilizzando un vocabolario ampliato








47. Metadatazione automatica di videogiornali mediante Text Categorization Domande?

Metadatazione automatica di videogiornali mediante Text Categorization

Metadatazione automatica di videogiornali mediante Text Categorization

Presentation Transcript

Text Categorization

Text Categorization and Images

Text Categorization

Text Categorization (TC)

Learning for Text Categorization

Text Categorization

Text Categorization

Text Categorization

Text Categorization

text categorization

Statistical Text Categorization

Text Categorization

Text Categorization

Text Categorization

CLASSIFICAZIONE AUTOMATICA DI TESTI

Text Categorization

A Study of Text Categorization

Text Categorization

Text Categorization

Text Categorization (continued)