1 / 17

Dokumentu klasificēšanas implementācija

Dokumentu klasificēšanas implementācija. Pāvels Koliškins ( I RDMD0 – 2 ) Edgars Matisāns ( I RDMD0 – 3 ). Prezentācijas saturs. Ievads Teorētiskais pamatojums Programmatūras apraksts Kategorizēšanas piemērs Secinājumi. Ievads.

nitara
Download Presentation

Dokumentu klasificēšanas implementācija

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dokumentu klasificēšanas implementācija Pāvels Koliškins (I RDMD0 – 2 ) Edgars Matisāns (I RDMD0 – 3)

  2. Prezentācijas saturs • Ievads • Teorētiskais pamatojums • Programmatūras apraksts • Kategorizēšanas piemērs • Secinājumi

  3. Ievads • Dokumenti, balstoties uz to saturu, tiek sagrupēti vienā vai vairākās iepriekš definētās kategorijās • Statistiskās klasifikācijas un mašīnapmācības metodes: regresijas modeļi, tuvāko kaimiņu klasifikators, neironu tīkli, u.c. • Teksta dokumenti parasti izteikti simbolu virknes veidā • Piemērota attēlošanas forma ir vektora telpas modelis • Dokuments tiek attēlots kā vārdu vektors

  4. Vārdu svaru noskaidrošana (1) • Dokumentu vārdu matrica A sastāv no elementiem aij, kur aij ir i - tā vārda svars j – tajā dokumentā.

  5. Vārdu svaru noskaidrošana (2) • Būla svēršana (1 – vārds sastopams dokumentā, 0 – pretējā gadījumā) • Vārda biežums (term frequency). Vārda svars ir vienāds ar tā izmantošanas biežumu • Vārdu biežums – apgriezts dokumentu biežumam (term frequency – inverse document frequency, tf-idf)

  6. Vārdu svaru noskaidrošana (3) • Dēļ logaritmiskās komponentes mazāk nozīmīgie vārdi netiek ņemti vērā dokumentu līdzības noteikšanā

  7. Piedēkļu nogriešana • Portera algoritms balstās uz ideju, ka piedēkļi angļu valodā tiek veidoti kombinējot mazākus un vienkāršākus piedēkļus

  8. k tuvāko kaimiņu metode (1) • Algoritma ideja - izmantot k visvairāk līdzīgos kaimiņus, lai noteiktu jaunā dokumenta kategoriju

  9. k tuvāko kaimiņu metode (2) • Algoritma ideja - izmantot k visvairāk līdzīgos kaimiņus, lai noteiktu jaunā dokumenta kategoriju • Eiklīda attālums starp divu dokumentu vektoriem • Kosinusa vērtība starp divu dokumentu vektoriem

  10. Parametra k izvēle • 20 testa dokumenti • k parametrs mainījās no 1 līdz 200 ar soli 3 • k parametrs neietekmē veiksmīgi klasificēto dokumentu skaitu • k parametrs ietekmē piederības pārliecību (%)

  11. Kategorizēšanas kļūda • 20 testa dokumenti • k parametrs mainījās no 1 līdz 50 • Kopā 1000 testa rezultātu • Vidējā kļūda – 0,054 (5,4 %)

  12. Dokumenta kategorizēšana

  13. Programmatūras apraksts (1) • Darbs ar apmācības kopu

  14. Programmatūras apraksts (2) • Veiksmīgas kategorizēšanas piemērs

  15. Programmatūras apraksts (3) • Neveiksmīgas kategorizēšanas piemērs

  16. Secinājumi • Veiksmīgi izstrādāts teksta dokumentu kategorizēšana lietojums, kur klasificēšanas pamatā ir k tuvāko kaimiņu algoritms • k tuvāko kaimiņu algoritms var būt salīdzinoši ātrdarbīgs, ja dati, kuriem nepieciešamas augstas skaitļošanas izmaksas tiek glabāti atmiņā • Efektīvākā k parametra vērtība ir starp dokumentu kategoriju skaitu un minimālo dokumentu skaitu apmācības kopas kategorijās

  17. Paldies par uzmanību

More Related