Automatick s umarizace text
This presentation is the property of its rightful owner.
Sponsored Links
1 / 36

Automatická s umarizace text ů PowerPoint PPT Presentation


  • 54 Views
  • Uploaded on
  • Presentation posted in: General

Automatická s umarizace text ů. Motivace. P očet uživatelů Internetu 2, 2 miliardy - prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek 7,51 miliardy (web pages ) - březen 2012 , Počet webových míst 550 milion ů (web sites ) - prosinec 2011. 2.

Download Presentation

Automatická s umarizace text ů

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Automatick s umarizace text

Automatická sumarizace textů


Motivace

Motivace

Počet uživatelů Internetu2,2 miliardy -prosinec2011, nárůst z 360 milionů v r. 2000.

Počet webových stránek 7,51 miliardy(web pages)-březen 2012,

Počet webových míst 550milionů(web sites)-prosinec 2011.

2


Text web mining information retrieval

Text & Web Mining(informationretrieval)

Web contentmining (analýza obsahu)

Vyhledávání textů (dokumentů)

Filtrace textů

Klasifikace textů

Shlukování textů

Sumarizace textů

Web structuremining (analýza topologie, využití

linked data)

Web usagemining(analýza logů, využití údajů o

přístupech)


Obsah

Obsah

  • Úvod

    • Taxonomie sumarizačních metod

    • Klasické a pokročilé sumarizační metody

  • Vlastní výsledky

    • Naše metoda použití LSA pro sumarizaci

    • Vícedokumentová sumarizace

    • Aktualizační sumarizace

    • Další řešené sumarizační úlohy

4


Typy souhrn a sumariza n ch metod

Typy souhrnů a sumarizačních metod

  • Podle formy výsledku:

    • Extrakty

    • Abstrakty

    • Podle úrovně zpracování:

    • Povrchní (používají povrchní vlastnosti, např. termy významné pozičně, frekvenčně, doménově, z dotazu).

    • Hlubší (používají syntaktické či tezaurové relace, rétorickou strukturu apod.)

    • Podle účelu:

    • Indikativní (mají umožnit rozhodnutí, zda dokument stojí za to číst, délka do 10% originálu, součást vyhledávačů).

    • Informativní (20-30% originálu, nahrazují čtení plného textu zběžným seznámením s tématem).

    • Hodnotící (kritiky, recenze, posudky – nejsou automaticky generované).

  • . . .


Klasick sumariza n metody heuristick

Klasické sumarizační metody - Heuristické

Inverse documentfrequency

(důležité termy se ale nesmí vyskytovat ve většině dokumentů)

term frequency

(důležité termy se vyskytují v dokumentu častěji)

Luhn: The Automatic Creation of Literature Abstracts. In IBM Journal of Researchand Development. 1958

významný term t : tf(t) * idf(t) > threshold

  • Najdi významné termy (klíčová slova).

  • Vypočti váhy větna základě v nich obsažených klíčových slov.

  • Požadovaný počet vět s největšími váhami představují výsledek sumarizace.


Klasick sumariza n metody heuristick1

Klasické sumarizační metody - Heuristické

Edmundson : New Methods in Automatic Extraction. In Journal of the ACM, 1969

Důležité informace:

  • Vyskytují se ve specifických pozicích (začátek, konec),

  • Vyskytují se ve specifických odstavcích textu (název, úvod, závěr),

  • Jsou indikovány zdůrazňujícími slovy (hlavní, důležitý, výsledek, cíl, …),

  • Jsou indikovány klíčovými slovy.

    Kombinace vlastností 1-4 určuje důležitost (váhu) věty s.

    Weigh(s) = a*Title(s)+b*Cue(s)+c*Keyword(s)+d*Position(s)


Klasick sumariza n metody statistick

Klasické sumarizační metody - Statistické

Bayesův klasifikátor (?zařadit větu s do souhrnu S: ano/ne)

P(F1,F2,…,Fn|sS) P(sS)

P(sS|F1,F2,…,Fn) = P(F1,…,Fn)

za předpokladu nezávislosti příznaků Fi (Kupiec at all 1995)

j=1…n P(Fj|sS) P(sS )

P(sS|F1,F2,…,Fn)≈

j=1…n P(Fj)

P(sS|F1,F2,…,Fn) pravděpodobnost, že věta s je v souhrnu S při daných příznacích .

P(sS) pravděpodobnost, že věta s je v souhrnu S nepodmíněně

P(Fj|sS)pravděpodobnost hodnoty příznaku Fjve větě souhrnu

P(Fj)pravděpodobnost hodnoty příznaku Fjnepodmíněně


Klasick sumariza n metody statistick p klad

Klasické sumarizační metody – Statistické (příklad)

Máme 1000 trénovacích vět a manuální 20% extrakt. Ze statistik příznaků zjistíme:

Příznak F1výskyt v10%(100 s.)P(F1)=0.1 P(notF1)=0.9

-“-F2-“- 10%(100 s.)P(F2)=0.1 P(notF2)=0.9

-“- F3-“-20%(200 s )P(F3)=0.2 P(notF3)=0.8

P(F1|sS)=0.4 (tj 80 z 200)

P(F2|sS)=0.25 (tj. 50 z 200)

P(F3|sS)=0.5 (tj.100 z 200)

P(F1|sS)=0.025 (tj. 20 z 800)

P(F2|sS)=0.0625 (tj. 50 z 800)

P(F3|sS)=0.125 (tj.100 z 800)

P(notF1|sS)=0.6 (tj. 120 z 200)

P(notF2|sS)=0.75 (tj. 150 z 200)

P(notF3|sS)=0.5 (tj. 100 z 200)

P(notF1|sS)=0.975 (tj. 780 z 800)

P(notF2|sS)=0.9375(tj. 750 z 800)

P(notF3|sS)=0.875(tj.700 z 800)

P(sS) je konstantak, tzn pro 20% extract je0.2, lze ji pominout


Klasick sumariza n metody statistick p klad1

Klasické sumarizační metody – Statistické (příklad)

Mějme 4 věty textu s1,s2,s3,s4. Pro sumarizaci spočteme P(sS|F1,F2,F3)

Bude-li v s1:F1=yes, F2=yes, F3=yes 

P(s1S|F1=yes,F2=yes,F3=yes)=k*.4*.25*.5/.1/.1/.2== k* 25

P(s1S|F1=yes,F2=yes,F3=yes)=(1-k)* .025*.0625*.125/.1/.1/.2 = (1-k)*0.0976562

Bude-li v s2:F1=no, F2=no, F3=no 

P(s2S|F1=no,F2=no,F3=no)= k* .6*.75*.5/.9/.9/.8 =

=k*0.34687

P(s2S|F1=no,F2=no,F3=no) = (1-k)* .975*.9375*.875 /.9/.9/.8 = (1-k)* 1.123


Klasick sumariza n metody statistick p klad2

Klasické sumarizační metody – Statistické (příklad)

Bude-li v s3:F1=yes, F2=no, F3=no 

P(s3S|F1=yes,F2=no,F3=no) = k* .4*.75*.5 /.1/.9/.8= k* 2.08

Bude-li v s4:F1=yes, F2=yes, F3=no 

P(s4S|F1=yes,F2=yes,F3=no) = k* .4*.25*.5 /.1/.1/.8= k* 6.25

Do souhrnu bychom zařazovali věty s největší podmíněnou pravděpodobností . Tzn v pořadí:

s1, pro25% souhrn50% souhrn

s4,75% souhrn

s3,

s2


Pokro il sumariza n metody grafov

Pokročilé sumarizační metody - grafové

  • Vychází z metody hodnocení důležitosti web stránek

  • Důležitástránka- vede k nímnohoodkazů,

  • - odkazujínanívysoceohodnocenéstránky

Nechť

PR(u) je hodnocení (rank)webovéstránky u,

Fu je množinastránek, na kteréstránkauodkazuje a

Bu je množinastránek, kteréodkazují na u,

Nu = Fu je početodkazů z u

c je konstantapoužívaná pro normalizaci, zajištujícíkonstantnísoučetohodnocenívšechstránek


Pokro il sumariza n metody grafov1

Pokročilé sumarizační metody - grafové

PageRank

G = (V, E) je orientovaný graf

V je množina vrcholů Vi , i = 1..N

E je podmnožinouVxV

Počítá PageRank skóre (významnost) uzlů:

d je faktor tlumení

In(Vi) je množinou vrcholů, ze kterých vede větev do Vi

Out(Vi) je množina vrcholů do nichž vede větev z Vi


Pokro il sumariza n metody grafov2

Pokročilé sumarizační metody - grafové

  • Vrcholy grafu reprezentují věty textu,

  • Větve reprezentují vazby mezi větami

    • Jsou neorientované

    • Jsou ohodnocené mírou svázanosti vět wij

  • Spočítá se PR skóre vět:

  • Věty s nejvyšším PR jsou vybrány do souhrnu.


Pokro il sumariza n metody grafov3

Pokročilé sumarizační metody - grafové

K ohodnocení větví mírou podobnosti vět používají:

buď

  • Počet společných (příbuzných) slov ve větách,

    nebo

  • Kosinové podobnosti vět X a Y v prostoru slov

    V prostoru slov lze každou větu (nebo i celý dokument) reprezentovat vektorem a jejich podobnost měřit cosinem.


Automatick s umarizace text

věta1věta2věta3dfiidfi=log(počet_vět/dfi)

termtf1.větatf2.větatf3.věta

cosmonaut0 0 1 1 0,47

Armstrong 0 1 1 2 0,17

voyage 1 1 0 2 0,17

cosmonaut

0,47

věta3

Armstrong

0,17

0,17

věta2

věta1

voyage


Latentn s mantick anal za

Latentní sémantická analýza

  • LSA

    • dovoluje analyzovat vztahy mezi termy a částmi textů pomocí algebraické metody singulární dekompozice (SVD),

    • na základě kontextunalezne skryté dimenze sémantické reprezentace termů, vět a dokumentů,

    • umožňuje redukovat data jejich zobrazením v prostoru vhodnějších dimenzí,

    • LSA je použitelné pro vyhledávání, klasifikaci, shlukování i sumarizaci dokumentů.

      Princip SVD rozkladu probereme nejprve pro sumarizaci jednoho dokumentu.


Latentn s mantick anal za1

Latentní sémantická analýza

  • Vytvoříme matici A termů proti větám A = [A1, A2, …, An], sloupcové vektory A1, A2, …, An reprezentují váhy termů v jednotlivých větách,

  • SVD rozkládá matici A na tři matice


Latentn s mantick anal za2

Latentní sémantická analýza

  • LSA najde nejlepší k-rozměrnou aproximaci matice A, kde k<n

    Slovo1Slovo2Slovo3 . . .Slovo n

    koncept1 koncept2. . .koncept k

  • Vytvoří nové dimenze reprezentující témata (koncepty) dokumentu kombinací původních dimenzí.

  • Redukovaná matice U mapuje termy do k nejvýznamnějších témat.

  • Redukovaná matice VT mapuje věty do k nejvýznamnějších témat. Udává významnost vět v tématech.

  • Důležitost tématu je určena odpovídající singulární hodnotou, platí: σ1>σ2>…>σn >0a klesá s jejím kvadrátem.

  • Lze inkrementálně spočítat jen k nejdůležitějších dimenzí.


Latentn s mantick anal za a sumarizace

Latentní sémantická analýza a sumarizace

  • Gong&Liu postup: Pro j=1,2,…, délka souhrnu provádí

    • Přihledání j-té věty souhrnu vybere j-tý pravý singulární vektor z VT , tj. [vj1, vj2, …, vjk]T.

    • Do souhrnu dá větu i s největší indexovou hodnotou vji .

  • Nevýhodou je považování všech témat za stejně důležitá

    Náš nápad:

  • Rozdílnost důležitosti témat indikuje matice Σ.

  • Vylepšit souhrn zařazením vět, jejichž vektorová reprezentace v maticisoučinu Σ a VT má největší délku vektoru dr .

    Důležité téma pak může být

    zastoupeno více větami


Latentn s mantick anal za3

Latentní sémantická analýza

Hlavní publikace:

  • TwoUsesofAnaphoraResolution in Summarization. InformationProcessing & Management , Elsevier Ltd, Vol.43, Issue 6, November 2007, pp. 1669-1680, ISSN 0306-4573 (13 citací).

  • Text Summarization and SingularValueDecomposition. ADVIS 2005, Lecture Notes in Comp.Sc.2457 pp.245-254, Springer-Verlag 2004, ISSN 0302-9743 (7 citací)

  • UsingLatentSemanticAnalysis in Text Summarization and Summaryevaluation, Proc. of 7th International Conference ISIM 04, pp. 93-100, ISBN 80-85988-99-2 (13 citací).

    Použití LSA pro hodnocení kvality souhrnů publikováno v:

  • EvaluationMeasuresfor Text Summarization. In Computing and Informatics, volume 28, number 2, pages 251-275, SlovakAcademyofSciences, ISSN 1335-9150, 2009.

  • Text Summarization: AnOldChallenge and New Approaches. In FoundationsofComputationalIntelligence Vol.6, pages 127- 149, Data MiningBookSeries, Springer, ISSN 1860-949X, 2009


V cedokumentov sumarizace

Vícedokumentová sumarizace

  • Vytváří souhrn z kolekce dokumentů C = {D1, D2, … , Dd}, obvykle pojednávajících o stejném tématu.

  • Pracujeme se všemi větami i termy dokumentů.

    Nový problém:

  • Dokumenty obsahují velmi podobné věty s redundantní informací.

    Postup řešení:

  • Ohodnotíme věty LSA skórem vhodnosti (lze i jinou metodou),

  • Před jejím zařazením do souhrnu ověříme, zda již neobsahuje podobnou větu. Např. nepřesahuje práh kosinové podobnosti v prostoru témat

    Publikace:

    Web TopicSummarization, Proceedingsofthe 12th International Conference on ElectronicPublishing, ISBN 978-0-7727-6315-0, pp 322-334, Toronto, Canada2008.


Aktualiza n sumarizace

Aktualizační sumarizace

  • Uživatel má předchozí znalosti z kolekce dokumentů Cold

  • Uživatel chce být seznámen s dokumenty z kolekce Cnew.

  • Nechce informace z Cnew, které již byly obsaženy v Cold .

    Náš postup:

  • Z Colda Cnew vytvoříme matice Anew a Aold , na kterých provedeme separátně SVD .

  • Získáme redukované matice Unew a Uold . Jejich sloupce představují k témat množin dokumentů vyjádřené v lineárních kombinacích termů.

  • Pro každé „nové“ téma t, (t je index sloupce matice Unew), vyhledáme nejpodobnější staré téma (sloupec matice Uold).


Aktualiza n sumarizace1

Aktualizační sumarizace

  • Kosinová podobnost těchto vektorů udává míru redundance red(t)nového tématut.

    Kde k je počet témat v redukovaném prostorusloupců Uold

  • Novost tématu t počítáme vztahem 1 – red(t) ,

  • Zohledníme důležitost jednotlivých témat t v aktualizačním skóre:

    us(t)= σ(t)*(1- red(t))

  • Z vypočtených skóre sestavíme diagonální matici US,

  • Vynásobením US .VnewTdostaneme matici F, která v sobě agreguje novost i důležitost nových témat ve větách.


Aktualiza n sumarizace2

Aktualizační sumarizace

  • První dáme do souhrnu větu, která má nejdelší vektor fbest v matici F,

  • Odečteme informaci z fbest od ostatních sloupců matice F, tj. přepočteme F dle vzorce:

  • Proces zařazování do souhrnu probíhá iteračně, až do získání potřebné délky souhrnu.

    Výsledky:

    náš LSAsumarizátorv TAC soutěži:r.2008 9.místo z 58, r.2009 2.místo z 52

    Update SummarizationBased on Novel TopicDistribution. Proceedingsofthe ACM Symposium on DocumentEngineering, Munich, Germany, 2009.

    Update SummarizationBased on LatentSemanticAnalysis.Proceedingsof 12th International Conference, TSD 2009, LNAI 5729, Springer-VerlagBerlin Heidelberg New York, ISSN 0302-9743, 2009.


Dal aktu ln sumariza n lohy

Další aktuální sumarizační úlohy

  • Multijazyková sumarizace

    Účast na přípravě a vyhodnocení TAC 2011

    10 témat po 10 článcích v 7 jazycích.

  • Komparativní sumarizace – cílem je souhrnně informovat o rozdílech v jednotlivých dokumentech,

    (odlišnosti hlavních témat – probíhá výzkum formou PhD).

  • Cílená sumarizace – ke vstupním datům je přidána informace o uživatelově zájmu (dotazem/tématem). Do výsledku přednostně zařazuje věty, jejichž téma odpovídá přidávané informaci.

  • Sumarizace mínění – zpracovává dokumenty obsahující mínění o entitě a vytváří průměrný názor.


Automatick s umarizace text

Další probíhající a přípravované úlohy z oblasti extrakce informací z textů

  • Získávání znalostí pro personalisty integrováním informací z webových zdrojů (F solutions, s.r.o. Praha a TextKernel NL).  

  • Porovnávání náplně výukových kurzů na amerických univerzitách a jejich řazení na základě požadavku klienta (Owen Software USA ).

  • Pre-seed projekt: Získávání informací z textů.

    Stránky výzkumné skupiny:

    http://www.textmining.zcu.cz/


Automatick s umarizace text

Děkuji za pozornost


Hodnocen kvality sumariz tor

Hodnocení kvality sumarizátorů

  • Přímé metody

    • Porovnání lingvistické kvality (ručně)

      • Gramatická správnost

      • Neredundantnost

      • Struktura, souvislost, srozumitelnost

    • Porovnání obsahu textu s ideálním souhrnem

      • Ko-selekční přístupy

      • Podobnostní míry

  • Nepřímé metody

    • Kategorizace dokumentů

    • Vyhledávání informací

    • Zodpovídání dotazů


Hodnocen kvality sumariz tor p m metody

Hodnocení kvality sumarizátorů – přímé metody


Hodnocen kvality sumariz tor p m metody1

Hodnocení kvality sumarizátorů – přímé metody

Podobnostní míry - Také základ v IR ale použitelné k porovnání jak s ideálním standardem tak s originálem

  • Kosinová podobnost v prostoru slov s využitím tf-idf vah.

  • Kosinová podobnost v latentním prostoru témat. Po SVD hledá

    • Podobnost hlavního tématu = kosinus uhlu mezi jejich prvými levými singulárními vektory souhrnu

      i originálu jsou normalizované

    • Podobnost n hlavních témat. Pro souhrn i originál po SVD spočteme a

      Pro každý řádkový vektor matice BS (resp BO) spočteme jeho délku dkS (dkO). Ta odpovídá důležitosti k-ho termuv latentním

      prostoru.

      Z délek dkS, dkO vytvoříme vektory dSdO.

      Kosinus jejich úhlu je mírou kvality souhrnu.


Hodnocen kvality sumariz tor p m metody2

Hodnocení kvality sumarizátorů – přímé metody

  • ROUGE (Recall-OrientedUnderstudyforGistingEvaluation)

    automatická, založena na podobnosti n-gramů

    výpočet skóre

    RSS - referenční souhrny od anotátorů

    je počet n-gramů v referenčnímsouhrnu

    je maximálnípočet n-gramů, které sespolečněvyskytujíjak v hodnoceném, taki v referenčnímsouhrnu

  • Pyramids

    Semi-automatická metoda založená na tzv. sumarizačních jednotkách SCU.

    SCU (věty nebo fráze) to jsou části souhrnů tvořených anotátory

    SCU které jsou v více souhrnech se přiřadí vyšší váha, vzniká SCU pyramida

    V hodnoceném souhrnu se hledají shody s SCU a sčítají se jejich váhy.


Hodnocen kvality sumariz tor nep m metody

Hodnocení kvality sumarizátorů – nepřímé metody

Kriteriem je uplatnění souhrnu ve zvolené úloze

  • Kvalita vyhledávání na souhrnech versus na plných textech

    • Vyhledávači se zadá stejný dotaz jak nad kolekcí souhrnů S tak kolekcí plnotextovou D. Pak seřadí výsledky podle jejich relevance.

    • K porovnání pořadí lze použít např. Kendall’s tau nebo Spearman’s rank correlation. Také lze využít údaj o relevanci z vyhledávače

      a spočítat korelaci relevance

      Kde xi je relevance dokumentu Diϵ D k dotazu Q,

      yi je relevance souhrnného dokumentu Siϵ S k dotazu Q.

      a je průměrná relevance dokumentů z D (resp. z S) k dotazu Q.

  • Kvalita kategorizace podle souhrnů namísto plných textů

    Mírou kvality je přesnost a úplnost či F-skóre zatřídění souhrnů do tříd proti známému správnému zatřídění původních textů


Latentn s mantick anal za pozn mky

Latentní sémantická analýza - poznámky

Pokud dokument obsahuje m termů a n vět je matice A o rozměrum × n

U = [uij] je m × n sloupcově ortonormální matice, jejíž sloupce se nazývají levé singulární vektory

Σ = diag(σ1, σ2, …,σn) je n × n diagonální matice, jejíž diagonální prvky jsou nezáporné singulární hodnoty seřazené sestupně

V = [vij] je n × n ortonormální matice, jejíž sloupce se nazývají pravé singulární vektory

Rozměr matic je redukován na k dimenzí, kde k < n, takže U je redukována na m×k,Σ na k×k a VT k×n

Pozn.

  • ortonormální matice má všechny sloupcové vektory délky 1 a navzájem kolmé.

  • Σ 2 je matice vlastních hodnot matice AA T a také A TA. Sloupce U jsou vlastními vektory AA T a sloupce V jsou vlastními vektory A TA .


Latentn s mantick anal za4

Latentní sémantická analýza

Matice A:

termv1v2v3v4v5v6

cosmonaut101000

Armstrong011000

voyage110010

moon100110

track000111

track

v4

v6

Latentníprostorredukovaný na 2 dimenze:

dim2

moon

v5

dim1

v3

v1

cosmonaut

Armstrong

voyage

v2


Latentn s mantick anal za a sumarizace1

Latentní sémantická analýza a sumarizace

Další možnosti modifikacevýběru vět do souhrnu s použitím LSA:

  • Pracovat jen se singul. čísly, která jsou větší než zvolený zlomek σ1

  • Zařadit počty vět na základě procentního podílu singulárního čísla k součtu singulárních čísel.

  • Kombinacegrafové a LSA sumarizační metody:

    • Zkonstruuj matici A (slova proti větám)

    • Proveď SVD faktorizaci matice A

    • Redukuj rozměr matic U,Σ,V na U’Σ’V’

    • Rekonstruuj odpovídající matici A’=U’Σ’V’T. Její sloupce představují sémanticky reprezentované věty

    • Z takto reprezentovaných vět vytvoř graf, který zachycuje strukturu textu obdobně jako graf vytvořený z vět vyjádřených na bázi frekvence termů.

    • Na graf aplikujranking algoritmus

    • Do výsledku zařaď věty odpovídající nejvýše ohodnoceným uzlům


  • Login