1 / 47

Metadatazione automatica di videogiornali mediante Text Categorization

lankston
Download Presentation

Metadatazione automatica di videogiornali mediante Text Categorization

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Metadatazione automatica di videogiornali mediante Text Categorization

    2. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Classificazione di un videogiornale

    3. Metadatazione automatica di videogiornali mediante Text Categorization MAM L’obiettivo è quello di realizzare un modulo che faccia la metadatazione automatica di contenuti multimediali. In altre parole quello che si vuole fare è la classificazione delle notizie contenute in documenti testuali e nel parlato di audio e video. Agiamo nella fase di Indicizzazione per permettere una fase di ricerca migliore. Ad esempio, grazie a questo modulo è possibile ricercare tutti i video che parlano della vita sociale dei Leoni. Il Multimedia Asset Management è l’evoluzione del CMS (Content Management System) e nasce appositamente per la gestione dei digital asset (beni digitali). I Sistemi MAM, a differenza dei CMS, pongono l’asset (il bene) al centro del sistema, ed hanno come concetto principale quello del “riuso”. Il progetto di un tale sistema esige lo sviluppo di sei sottosistemi e delle relazioni che intercorrono fra essi: Ingestion, Indicizzazione, Ricerca, Storage, Sicurezza e Distribuzione. L’obiettivo è quello di realizzare un modulo che faccia la metadatazione automatica di contenuti multimediali. In altre parole quello che si vuole fare è la classificazione delle notizie contenute in documenti testuali e nel parlato di audio e video. Agiamo nella fase di Indicizzazione per permettere una fase di ricerca migliore. Ad esempio, grazie a questo modulo è possibile ricercare tutti i video che parlano della vita sociale dei Leoni. Il Multimedia Asset Management è l’evoluzione del CMS (Content Management System) e nasce appositamente per la gestione dei digital asset (beni digitali). I Sistemi MAM, a differenza dei CMS, pongono l’asset (il bene) al centro del sistema, ed hanno come concetto principale quello del “riuso”. Il progetto di un tale sistema esige lo sviluppo di sei sottosistemi e delle relazioni che intercorrono fra essi: Ingestion, Indicizzazione, Ricerca, Storage, Sicurezza e Distribuzione.

    4. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Definizione Sistema Esperto o Machine Learning? Feature Extraction Il Classificatore Metrica di Valutazione Classificazione di un Videogiornale

    5. Metadatazione automatica di videogiornali mediante Text Categorization Cos’è la Text Categorization? Ha l’obiettivo di assegnare un valore booleano a ogni coppia <di,ci>Î DXC dove D è l’insieme di documenti e C di categorie … in altre parole … il processo attraverso il quale un documento di testo viene classificato in una o più categorie predefinite in base ai suoi contenuti. La TC è il processo attraverso il quale un documento di testo viene classificato in una o più categorie predefinite in base ai suoi contenuti. Automatizzare il processo di TC significa dunque fornire un fondamentale ausilio per ordinare la gran mole di dati disponibile in base agli interessi specifici dell’utente.La TC è il processo attraverso il quale un documento di testo viene classificato in una o più categorie predefinite in base ai suoi contenuti. Automatizzare il processo di TC significa dunque fornire un fondamentale ausilio per ordinare la gran mole di dati disponibile in base agli interessi specifici dell’utente.

    6. Metadatazione automatica di videogiornali mediante Text Categorization Sistema Esperto o Machine Learning? IF <DNF Formula> THEN <ci> ELSE <?ci> (DNF=Forma Normale Disgiuntiva) O costruttore automatico di classificatori Presuppone la disponibilità iniziale di un corpus di documenti preclassificati Negli anni 80 la classificazione veniva effettuata tramite l’utilizzo di sistemi esperti che classificavano i testi in base a delle regole logiche definite manualmente da esperti umani. Quest’approccio limitava il classificatore ad un dominio di applicazione specifico. Negli anni 90 si afferma il ML che a differenza di quello che accade per i sistemi esperti, lo sforzo ingegneristico si concentra non sulla costruzione di un classificatore, bensì sulla realizzazione di un costruttore automatico di classificatori (il learner). Tutto ciò che si deve fare è avviare la costruzione automatica del classificatore a partire da un set di documenti classificati manualmente. L’intervento dell’esperto in questo caso si riduce alla classificazione di documenti appartenenti alla categoria di interesse. Negli anni 80 la classificazione veniva effettuata tramite l’utilizzo di sistemi esperti che classificavano i testi in base a delle regole logiche definite manualmente da esperti umani. Quest’approccio limitava il classificatore ad un dominio di applicazione specifico. Negli anni 90 si afferma il ML che a differenza di quello che accade per i sistemi esperti, lo sforzo ingegneristico si concentra non sulla costruzione di un classificatore, bensì sulla realizzazione di un costruttore automatico di classificatori (il learner). Tutto ciò che si deve fare è avviare la costruzione automatica del classificatore a partire da un set di documenti classificati manualmente. L’intervento dell’esperto in questo caso si riduce alla classificazione di documenti appartenenti alla categoria di interesse.

    7. Metadatazione automatica di videogiornali mediante Text Categorization Prima di procedere… …bisogna trasformare il doc da “machine-readable” a “machine-processable”. Feature Extraction Preprocessing Rimozione dei Tag Rimozione delle Stopword in, un, e, allora, … Stemming walk, walked, walker, walking walk Indicizzazione Vector Space Model Riduzione della Dimensione Term Selection e Term Extraction Stemming : estrazione della radice comune del termine con eliminazione della desinenza (singolare/plurale, maschile/femminile, INFINITO PRESENTE, ecc.). In questo modo la lista di termini che utilizziamo sarà più generale e non sottoposta alle restrizioni di genere e numero. Ma si può anche decidere, sulla base di criteri significativi, di adottare solo il singolare o solo il plurale, e così via, inserendo gli altri termini fra i sinonimi. Funzione standard tfidf (Tern Frequency-Inverse Document Frequency) tfidf (tk ,dj ) = #(tk ,dj ) log[|Tr| / #Tr(tk)] dove: #(tk ,dj ) indica il numero di occorenze di tk in dj #Tr(tk) indica il numero di documenti di Tr nel quale tk occorre Stemming : estrazione della radice comune del termine con eliminazione della desinenza (singolare/plurale, maschile/femminile, INFINITO PRESENTE, ecc.). In questo modo la lista di termini che utilizziamo sarà più generale e non sottoposta alle restrizioni di genere e numero. Ma si può anche decidere, sulla base di criteri significativi, di adottare solo il singolare o solo il plurale, e così via, inserendo gli altri termini fra i sinonimi. Funzione standard tfidf (Tern Frequency-Inverse Document Frequency) tfidf (tk ,dj ) = #(tk ,dj ) log[|Tr| / #Tr(tk)] dove: #(tk ,dj ) indica il numero di occorenze di tk in dj #Tr(tk) indica il numero di documenti di Tr nel quale tk occorre

    8. Metadatazione automatica di videogiornali mediante Text Categorization Il Classificatore Esistono vari tipi di classificatore; quello che fa al caso nostro è di tipo probabilistico: P(ci) è la probabilità che un documento selezionato a caso appartenga a ci, P(dj) la probabilità che un documento selezionato a caso ha come relativa rappresentazione il vettore dj, P(di|cj) la probabilità che un documento selezionato a caso sia rappresentato dal vettore dj quando questo appartiene alla categoria ci. In generale, la valutazione della P(di|cj) presenta delle difficoltà poiché il numero di vettori possibili è molto alto. Esistono due versioni del metodo NB Multivariate Bernoulli (considera solo il termine di occorrenza) and Multinomial Misure (considera solo il termine di frequenza). E’ un metodo che ha come vantaggio la robustezza e un piccolo consumo di risorse, anche se criticato per l’”assunzione della indipendenza della parola“ (gli attributi utilizzati negli esempi sono indipendenti gli uni dagli altri all’interno di un dato contesto della categoria ) P(ci) è la probabilità che un documento selezionato a caso appartenga a ci, P(dj) la probabilità che un documento selezionato a caso ha come relativa rappresentazione il vettore dj, P(di|cj) la probabilità che un documento selezionato a caso sia rappresentato dal vettore dj quando questo appartiene alla categoria ci. In generale, la valutazione della P(di|cj) presenta delle difficoltà poiché il numero di vettori possibili è molto alto. Esistono due versioni del metodo NB Multivariate Bernoulli (considera solo il termine di occorrenza) and Multinomial Misure (considera solo il termine di frequenza). E’ un metodo che ha come vantaggio la robustezza e un piccolo consumo di risorse, anche se criticato per l’”assunzione della indipendenza della parola“ (gli attributi utilizzati negli esempi sono indipendenti gli uni dagli altri all’interno di un dato contesto della categoria )

    9. Metadatazione automatica di videogiornali mediante Text Categorization Naive Bayes La prima ipotesi è che la probabilità di una parola d’essere presente in una determinata posizione del testo è indipendente dalla collocazione delle altre parole nel documento, fissando una determinata classe d’appartenenza; La seconda ipotesi è che le parole siano identicamente distribuite, cioè che ogni parola del vocabolario si possa trovare con uguale probabilità in una prefissata posizione; L’approccio bayesiano per classificare una nuova istanza è quello di assegnare un valore VMAP (Maximum Attribute Probability) sulla base degli attributi dell’istanza, valutati secondo l’esperienza del classificatore. La prima ipotesi è che la probabilità di una parola d’essere presente in una determinata posizione del testo è indipendente dalla collocazione delle altre parole nel documento, fissando una determinata classe d’appartenenza; La seconda ipotesi è che le parole siano identicamente distribuite, cioè che ogni parola del vocabolario si possa trovare con uguale probabilità in una prefissata posizione; L’approccio bayesiano per classificare una nuova istanza è quello di assegnare un valore VMAP (Maximum Attribute Probability) sulla base degli attributi dell’istanza, valutati secondo l’esperienza del classificatore.

    10. Metadatazione automatica di videogiornali mediante Text Categorization Funzione Obiettivo La terza ipotesi è che la classe d’appartenenza di un documento non dipenda dalla sua lunghezza. La terza ipotesi è che la classe d’appartenenza di un documento non dipenda dalla sua lunghezza.

    11. Metadatazione automatica di videogiornali mediante Text Categorization Funzione Obiettivo La terza ipotesi è che la classe d’appartenenza di un documento non dipenda dalla sua lunghezza. Dove |cj| denota il numero di documenti di training e |D| è il numero totale di documenti usati per il training di tutte le classi (approccio frequentista). N è il numero di token presenti in Textj Nk = frequenza della parola wk in Textj.La terza ipotesi è che la classe d’appartenenza di un documento non dipenda dalla sua lunghezza. Dove |cj| denota il numero di documenti di training e |D| è il numero totale di documenti usati per il training di tutte le classi (approccio frequentista). N è il numero di token presenti in Textj Nk = frequenza della parola wk in Textj.

    12. Metadatazione automatica di videogiornali mediante Text Categorization NaiveBayesTrainer Selezionare le parole o token che compaiono in tutti i documenti del train-set, l’elenco ottenuto costituirà il vocabolario. Calcolare P(Cj) e P(wk|Cj) Per ogni categoria o classe Cj ÎC Considerare i documenti della categoria Cj tra tutti quelli del train-set e ricavare: P(Cj) =|Ci| / |Vocabolario| Creare un documento Textj dalla concatenazione di tutti i dj (quindi i documenti d’esempio di una classe). Contare i token presenti in Textj e memorizzarne il valore in N. Per tutte le parole del vocabolario calcolare Nk = frequenza della parola wk in Textj. P(wk|Cj) = (NK+1) / (N+|Vocabolario|) NaiveBayesClassify Riconoscere i token del documento da classificare considerando solo quelle presenti anche nel vocabolario precostituito in fase d’apprendimento. Vbn=argmaxCj ÎC P(Cj)*produttoria(i=1 to |docs|)P(wk|Cj)

    13. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione L’appartenenza di un documento ad una categoria è, per mezzo del suo carattere soggettivo, non formalizzabile la valutazione dei classificatori TC è tipicamente condotta sperimentalmente piuttosto che analiticamente.

    14. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione

    15. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Recall indica la probabilità che se un documento non appartiene alla categoria, questa decisione è corretta.

    16. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Precision indica la probabilità che se un documento è classificato sotto la categoria, questa decisione è corretta, cioè conta il numero di risposte corrette sul numero di risposte totali.

    17. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Precision e la Recall si possono considerare come l’aspettativa da parte dell’utente sul comportamento del classificatore ed hanno senso solo se utilizzate insieme. Molti sistemi cercano di trovare un bilancio tra queste due misure: Breakeven Point F-Measures

    18. Metadatazione automatica di videogiornali mediante Text Categorization Sperimentazione Inglese Andrew McCallum Department of Computer Science University of Massachusetts Amherst Nel caso della collezione Reuters-21578[10] “ModApté” invece i risultati ottenuti sono: Efficacia sul train-set: 87,9% Efficacia sul test-set: 86,8%Andrew McCallum Department of Computer Science University of Massachusetts Amherst Nel caso della collezione Reuters-21578[10] “ModApté” invece i risultati ottenuti sono: Efficacia sul train-set: 87,9% Efficacia sul test-set: 86,8%

    19. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Classificazione di un Videogiornale Il Sistema Speech to Text Definizione del Data-set Demo Sperimentazione

    20. Metadatazione automatica di videogiornali mediante Text Categorization Il Sistema Si parte da una serie di scene (video monotematici) da cui viene estratto il parlato che viene sottoposto al modulo di text2speech. Il modulo usato, lo stesso di Virage (una delle più avanzate soluzioni MAM), è l’engine ViaVoice proposto dalla IBM e Scansoft aziende leader nella settore della speech recognition. Una volta ricavato il testo associato al parlato si passa alla sua classificazione.Si parte da una serie di scene (video monotematici) da cui viene estratto il parlato che viene sottoposto al modulo di text2speech. Il modulo usato, lo stesso di Virage (una delle più avanzate soluzioni MAM), è l’engine ViaVoice proposto dalla IBM e Scansoft aziende leader nella settore della speech recognition. Una volta ricavato il testo associato al parlato si passa alla sua classificazione.

    21. Metadatazione automatica di videogiornali mediante Text Categorization Speech2Text Riconosce la voce naturale e il parlato continuo e li converte in testo Addestramento specifico o generale Creazione di un Vocabolario Difficoltà a separare la voce dai rumori di sottofondo

    22. Metadatazione automatica di videogiornali mediante Text Categorization Alcune differenze di Vocabolario

    23. Metadatazione automatica di videogiornali mediante Text Categorization Struttura di un videogiornale

    24. Metadatazione automatica di videogiornali mediante Text Categorization Struttura di un videogiornale Dopo un’analisi preliminare dei TG e delle notizie ANSA la classificazione con minor ambiguità è risultata la seguente: Cronaca Italiana (Cronaca Nera, Rosa e giudiziaria) Politica Italiana (Politica Interna) Mondo (Cronaca e Politica Estera, Città del Vaticano) Finanza & Economia (Borsa, i tassi di cambio, il prezzo del petrolio, scioperi, acquisizioni, cessioni e fallimenti societari) Cultura & Società (Moda, Spettacolo, Scoperte Scientifiche) Sport (Eventi e cronache sportive)

    25. Metadatazione automatica di videogiornali mediante Text Categorization DATASET ANSA ANCHORMAN SERVIZIO MODULO INFORMATIVO

    26. Metadatazione automatica di videogiornali mediante Text Categorization DATASET Riferito a circa un mese di TG annunciati da … Marco Betello TG1 Cesara Buonamici TG5 1600 notizie ANSA 206 notizie ANCHORMAN TG 123 servizi TG 140 servizi completi TG 8 (121) TG trascritti con il vocabolario BASE 8 (121) TG trascritti con il vocabolario AMPLIATO 1600 notizie ANSA 206 notizie ANCHORMAN TG 123 servizi TG 140 servizi completi TG 8 (121) TG trascritti con il vocabolario BASE 8 (121) TG trascritti con il vocabolario AMPLIATO

    27. Metadatazione automatica di videogiornali mediante Text Categorization

    28. Metadatazione automatica di videogiornali mediante Text Categorization Mediante l’approccio ten-fold-cross-validation si sono ottenuti i seguenti risultati : SPERIMENTAZIONE

    29. Metadatazione automatica di videogiornali mediante Text Categorization Dimensione del Data-set

    30. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    31. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE Cesara Buonamici

    32. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    33. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    34. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    35. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    36. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE REALE

    37. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE REALE

    38. Metadatazione automatica di videogiornali mediante Text Categorization Conclusioni La definizione del data-set è la fase più importante per l’addestramento di un buon classificatore. Cosa utilizzare per la classificazione? Scena Anchorman o Modulo Informativo? Sviluppi futuri Aumento della dimensione del data-set per poter avere una precisione maggiore e più categorie su cui agire. Cercare di effettuare una trascrizione Reale dei servizi.

    39. Metadatazione automatica di videogiornali mediante Text Categorization DEMO Nel corso della presentazione si farà riferimento al TG1 condotto nel luglio 2003 da Francesco Giorgino utilizzando un vocabolario ampliato

    40. Metadatazione automatica di videogiornali mediante Text Categorization

    41. Metadatazione automatica di videogiornali mediante Text Categorization

    42. Metadatazione automatica di videogiornali mediante Text Categorization

    43. Metadatazione automatica di videogiornali mediante Text Categorization

    44. Metadatazione automatica di videogiornali mediante Text Categorization

    45. Metadatazione automatica di videogiornali mediante Text Categorization

    46. Metadatazione automatica di videogiornali mediante Text Categorization

    47. Metadatazione automatica di videogiornali mediante Text Categorization Domande?

More Related