automatizirana kategorizacija teksta n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Automatizirana kategorizacija teksta PowerPoint Presentation
Download Presentation
Automatizirana kategorizacija teksta

Loading in 2 Seconds...

play fullscreen
1 / 30

Automatizirana kategorizacija teksta - PowerPoint PPT Presentation


  • 126 Views
  • Uploaded on

Automatizirana kategorizacija teksta. Franjo Skočec Stjepan Buljat. FER 26.11.2003. Povijest TC-a. Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja se ranih ’60. Sve do kasnih ’80. najpopularniji pristup bio je knowledge engineering – KE

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Automatizirana kategorizacija teksta' - clove


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
automatizirana kategorizacija teksta

Automatizirana kategorizacija teksta

Franjo Skočec

Stjepan Buljat

FER

26.11.2003.

povijest tc a
Povijest TC-a
  • Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja se ranih ’60.
  • Sve do kasnih ’80. najpopularniji pristup bio je knowledge engineering – KE
  • U ’90. javlja se pojačano zanimanje za klasifikaciju teksta, kao i nov pristup baziran na paradigmi strojnog učenja
definicija kategorizacije teksta
Definicija kategorizacije teksta
  • Kategorizacija teksta je proces dodjeljivanja Boolean vrijednosti svakom paru {dj,ci}D x C, gdje je D domena dokumenata, a C je skup preddefiniranih kategorija
  • Formalno TC je proces aproksimacije nepoznate ciljne funkcije, koja opisuje kako bi dokumenti trebali biti klasificirani, pomoću funkcije Φ : D x C  {T, F} (klasifikator, pravilo, hipoteza, model)
definicija kategorizacije teksta2
Definicija kategorizacije teksta
  • Kategorije su simboličke labele (nikakvo znanje o njihovom značenju nije dosupno)
  • Klasifikacija se ostvaruje samo uz pomoć znanja izvađenog iz samih dokumenata (endogenous knowledge vs exogenous knowledge)
  • Oslanjajući se samo na unutarnje znanje znači klasificirati dokument samo na osnovu njegove semantike
  • Pripadnost dokumenta nekoj kategoriji ne može se odrediti deterministički (fenomen međuindeksne nekonzinstencije – inter-indexer inconsistency)
definicija kategorizacije teksta3
Definicija kategorizacije teksta
  • single-label TC – točno jedna kategorija mora biti dodijeljena svakom dokumentu iz domene dokumenata (nonoverlaping categories)
  • multilabel TC – bilo koji broj kategorija može biti dodijeljen istom dokumentu (overlaping categories)
  • binarni TC – svaki dokument mora biti dodijeljen kategoriji ci ili njenom komplementu
definicija kategorizacije teksta4
Definicija kategorizacije teksta
  • Dokumentno orijentirana klasifikacija teksta – za odabrani dokument dj D, žele se pronaći sve kategorije ci  C gdje bi se on trebao svrstati (document-pivoted categorization -DPC)
  • Kategorijski orijentirana klasifikacija teksta – za odabranu kategoriju ci  C želi se pronaći sve dokumente dj D koji joj pripadaju (category-pivoted categorization – CPC)
  • DPC je pogodniji kada dokumenti postaju dostupni u različitim trenutcima (filtriranje e-maila), dok je CPC pogodniji u slučaju dodavanja nove kategorije u već postojeći skup kategorija nakon što je već dio dokumenata već bio klasificiran (klasificiranje Web stranica)
definicija kategorizacije teksta5
Definicija kategorizacije teksta
  • “Čvrsta” kategorizacija vs. rangirana kategorizacija:
      • umjesto donošenja odluke o pripadnosti dokumenta nekoj kategoriji (“hard TC”), može se ocjenjivati prikladnost neke kategorije dokumentu (“ranking TC”)
      • konačnu odluku donosi ljudski stručnjak
      • koristi se kada učinkovitost automatskog klasifikatora nije zadovoljavajuća (slučaj kada kvaliteta skupa za učenje je niska ili kada dokumenti iz skupa za učenje nisu reprezentativni primjerci)
aplikacije za tc
Aplikacije za TC
  • Automatic Indexing for Boolean Information Retrieval System
      • početkom ’60. najviše istraživana
      • svakom dokumentu je pridružena barem jedna ključna riječ ili fraza koje opisuju njegov sadržaj
      • Ključne riječi i fraze pripadaju konačnom skupu koji se zove kontrolirani riječnik (controlled dictionary)
aplikacije za tc1
Aplikacije za TC
  • Text Filtering
      • aktivnost klasificiranja toka ulaznih dokumenata poslanih asinkronim načinom od strane proizvođača prema potrošaču
      • pojavio se početkom ’60., danas vrlo korišteni (antispam, newsgroups, ...)
  • Word Sense Disambiguation
      • proces pronalaženja značenja riječi u ovisnosti o kontekstu u kojem se ta riječ koristi
      • koristi se u procesiranju prirodnog jezika i u indeksiranju dokumenata po značenju riječi, umjesto po samoj riječi, za IR ciljeve
aplikacije za tc2
Aplikacije za TC
  • Hijerarhijska kategorizacija Web stranica
      • Zbog sve većeg broja Web stranica sve je teže pronaći baš onu koja nam treba
      • Općeniti pretraživači zbog broja Web stranica su sve manje učinkoviti
      • Zbog svega toga povećano je zanimanje za automatsku klasifikaciju i stvaranje hijerarhijskih kataloga na Internet portalima
ml pristup kategorizaciji dokumenata
ML pristup kategorizaciji dokumenata
  • U ’80. glavni pristup kategorizaciji teksta bio je baziran na KE
  • Ručno se gradio ekspertni sustav koji se sastojao od skupa definiranih pravila tipa:

if (DNF Boolean formula) then (category)

  • ML pristup bazira se na stvaranju automatskog graditelja klasifikatora
  • Klasifikator se gradi promatrajući karakteristike skupa dokumenata ručno klasificiranih pod ci ili ~ciod strane eksperta domene
  • Taj proces naziva se učenje sa nadgledanjem (učenje bez nadgledanja – document clustering)
slide13

Automatska kategorizacija teksta

Part 2

Stjepan Buljat

Fakultet elektrotehnike i računarstva

ZEMRIS - Inteligentni sustavi

26.11.2003.

gradnja klasifikatora teksta
Gradnja klasifikatora teksta

Induktivna gradnja klasifikatora za kategoriju ci C se sastoji od dvije faze :

  • definiranje funkcije CSVi : D  [0,1]
  • definiranjefaktora ograničenjaitako da vrijedi CSVi(d) >= i

Specijalan slučaj je klasifikator s binarnim odlučivanjem gdje vrijedi CSVi : D  {0,1}

gradnja klasifikatora teksta1
Gradnja klasifikatora teksta
  • Postoje 2 osnovna načina gradnje klasifikatora:
  • PARAMETARSKI, podaci za učenje se koriste za određivanje parametara vjerojatnosne distribucije.
  • NE-PARAMETARSKI, dijeli se na dvije pod-kategorije :
    • Profile-based
    • Example-based
parametarski klasifikator
Parametarski klasifikator
  • Najbolji primjer je naivni Bayesov klasifikator koji se temelji na računanju izraza:
  • Četiri vjerojatnosti koje se koriste u formuli se određuju na skupu podataka za učenje
  • Zašto izraz ”naivni”?
  • Hipoteza binarne nezavisnosti
profile based klasifikator
Profile-based klasifikator
  • Profile-based (ili linearni) klasifikator je jednostavno rečeno klasifikator koji eksplicitnosadrži opisne informacije pojedine kategorije na temelju kojih donosi odluke
  • Linearni klasifikatori se često dijele na dvije klase,
    • Incremental klasifikatori grade profil prije analiziranja cijelog skupa za učenje i dodatno dograđuju profil kako pregledavaju nove podatke za učenje.
    • Batch klasifikatori pak počivaju na obrnutom principu, grade profil analizom cijelog skupa podataka.
rocchio klasifikator
Rocchio klasifikator
  • Ovaj klasifikator se temelji na adaptaciji Rocchio-ve formule na kategorizaciju teksta,
  • skup near-positives (definirani kao najpozitivniji među članovima negativnog skupa za učenje)
  • Prednost:generiranje «razumljivih» klasifikatora
  • Mana: dijeli skup dokumenata na dva dijela
example based klasifikator
Example-based klasifikator
  • Ne grade eksplicitni profil pojedine kategorije, nego ovise o podacima koje im daju stručnjaci na temelju skupa dokumenata za učenje slični onima koji se trebaju kategorizirati
  • Tzv. lijeni klasifikatori
  • Primjer: k-NN klasifikator:
    • gleda da li k dokumenata za učenje najsličnijih dokumentu dj spada pod kategoriju ci; ako je odgovor pozitivan onda se dokument dj kategorizira pod ci, inače ne
    • Konstrukcija k-NN klasifikatora zahtijeva određivanje konstante k
kombiniranje example i profile based klasifikatora
Kombiniranje example- i profile-based klasifikatora
  • k-NN sustav se «hrani», umjesto skupa dokumenata za učenje, s generaliziranim instancama (GI).
  • Ova metoda iskorištava superiornu efektivnost k-NN sustava nad linearnim dok istovremeno se izbjegava osjetljivost k-NN algoritma na šum u skupu dokumenata za učenje
  • Klasifikacijsko ponašanje linearnih i ne-linearnih sustava
sustav klasifikatora
Sustav klasifikatora
  • Metoda classifier committees
  • Primjenak različitih klasifikatora {1,…, k} za isti zadatak, da li će se dokument djsvrstati pod kategoriju ci ili ne
  • Karakteristike:

i) odluka k klasifikatora

ii) izbor kombinacijske funkcije.

  • Kombinacijske funkcije,
    • majority voting (MV)
    • adaptive classifier combination(ACC)
    • dynamic classifier selection (DCS)
odre ivanje faktora ograni enja
Određivanje faktora ograničenja
  • Neke od metoda:

- CSV tresholding (ili probability tresholding),

ovdje je faktor ograničenja i vrijednost CSVi funkcije. Koriste se različiti faktori ograničenja za različite kategorije ci

- Proportional tresholding,

cilj ove metode jest postavljanje takvog faktora i tako da je gTe(ci) kategorije ci što bliži vrijednosti gTr(ci)

- Fixed tresholding,

najjednostavniji

ocjena rada klasifikatora teksta
Ocjena rada klasifikatora teksta

Mjere kategorizacijske efektivnosti.

Preciznost i odaziv.

  • Preciznost (Pri) se definira kao vjerojatnost da se slučajno odabrani dokument dx točno klasificira pod kategoriju ci
  • Odaziv (Rei) definira kao vjerojatnost da li da se slučajno odabrani dokument dx klasificira pod kategoriju ci
preciznost i odaziv
Preciznost i odaziv
  • Za procjenu vrijednosti faktora preciznosti i odaziva koriste se dvije različite metode:
    • microaveraging: preciznost i odaziv se određuju globalnim sumiranjem po svim individualnim odlukama
    • macroaveraging: preciznost i odaziv se ocjenjuju lokalno za svaku kategoriju s traženjem srednje vrijednosti po svim rezultatima za različite kategorije
kombinirane mjere
Kombinirane mjere
  • (interpolated) 11-point average precision,svaki treshold ti se postavlja na vrijednosti na kojima odaziv poprima vrijednosti 0.0,0.1,… 0.9,1.0. Za ovih 11 različitih tresholda računa se preciznost.

-breakeven point,

vrijednost pri kojoj je Pr = Re

-F funkcija, 0<=<=1

skup dokumenata za testiranje
Skup dokumenata za testiranje
  • standardni skupovi podataka za testiranje rada klasifikatora:
    • REUTERS-21578,skup novinskih članaka koji pokrivaju vremenski period od 1987. do 1991.

-OHSUMED, skup naslova ili naslova sa sažetkom iz medicinskih časopisa

-Metoda usporedbe rada dvaju različitih klasifikatora

-koristiti istu kolekciju dokumenata za testiranje (iste dokumente i iste kategorije)

-isti odabir skupa podataka za učenje i skupa podataka za testiranje

-ista mjera efektivnosti se treba koristiti za oba klasifikatora

koji je klasifikator bolji
Koji je klasifikator bolji?
  • Metoda usporedbe se sastoji od:

-direktna usporedba, klasifikatori C' i C'' su testirani na istom skupu podataka (TC) koristeći zajedničku evaluacijsku mjeru radu.

-indirektna usporedba:

1.klasifikator C' je testiran na skupu TC', a klasifikator na skupu TC''

2. jedan ili više «baseline» klasifikatora C1,…Cm su testirani na TC' i TC''

-Test 2 može pokazati relativnu «krutost» dvaju skupa podataka, TC' i TC''

-Dolazi se do relativnog faktora koji određuje svojstva dvaju klasifikatora

-Rezultati gđe.Yang

slika 2
Slika 2

Komparativan prikaz rezultata različitih klasifikatora, podebljani rezultati su najbolji rezultati za pojedini skup podataka

literatura
Literatura:
  • [A] Sebastiani, Fabrizio, «Istituto di Elaborazione dell' Informazione, Consiglio Nazionale delle Ricerche,» A Tutorial On Automated Text Categorization, pp. 11-22, 08.03.2000