algoritmy predspracovania textu pre lohy klasifik cie a zhlukovania v syst me elektronickej v u by n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby PowerPoint Presentation
Download Presentation
Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby

Loading in 2 Seconds...

play fullscreen
1 / 14

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby - PowerPoint PPT Presentation


  • 200 Views
  • Uploaded on

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby. Karol Furdík. Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby' - eldon


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
algoritmy predspracovania textu pre lohy klasifik cie a zhlukovania v syst me elektronickej v u by

Algoritmy predspracovania textu pre úlohy klasifikácie a zhlukovania v systéme elektronickej výučby

Karol Furdík

Centrum pre informačné technológie

Fakulta elektrotechniky a informatiky

Technická univerzita v Košiciach, Letná 9, 042 00 Košice

http://www.tuke.sk/fei-cit/

obsah prezent cie
Obsah prezentácie

Kontext

  • Projekt KP-Lab: klasifikácia a zhlukovanie pre eLearning
  • Projekt PoZnaŤ: adaptácia na podmienky slovenského školstva

Architektúra, implementačná platforma

Predspracovanie textu

  • Extrakcia termov, príklad vstupu a výstupu
  • Fázy predspracovania podľa jazykových rovín (1 - 6)

Očakávané výstupy a výsledky

projekt kp lab
Projekt KP-Lab

Plný názov: Knowledge Practices Laboratory

Web: www.kp-lab.org

Začiatok: 1. február 2006

Trvanie: 5 rokov

  • Integrovaný EÚ - FP6 IST projekt č. 27490
  • 22 partnerov zo 14 krajín
  • Koordinátor: Univerzita Helsinki

Hlavný cieľ: tvorba výučbového systému na podporu inovatívnych činností pri získavaní, zdieľaní a práci so znalosťami vo vyučovacom procese.

eLearning systém založený na Teórii aktivít a tzv. Trialogickom učení.

kp lab shared space
KP-Lab Shared Space

Znalostné artefakty

v zdieľanom priestore

Sémantická anotácia znalostného artefaktu

klasifik cia a zhlukovanie v projekte kp lab
Klasifikácia a zhlukovanie v projekte KP-Lab

Služby klasifikácie a zhlukovania, využívané pri anotácii artefaktov

Služby predspracovania textu

pre klasifikáciu a zhlukovanie

Konzola

(web aplikácia)

na nastavenie

text mining

služieb

Zdieľaný

priestor

systému

KP-Lab

projekt pozna
Projekt PoZnaŤ

Plný názov: Podpora procesov tvorby nových znalostí

Trvanie: 30 mesiacov (február 2007 - júl 2009)

Web: www.tuke.sk/fei-cit/poznat/

Projekt je podporovaný slovenskou Agentúrou pre podporu výskumu a vývoja, zmluva č. RPEU-0011-06

Nadväzuje na integrovaný EU projekt KP-Lab

Zameranie: eLearning, manažment znalostí.

Hlavný cieľ: adaptácia výučbových nástrojov trialogického učenia na podmienky slovenského vysokého školstva.

ciele projektu pozna
Ciele projektu PoZnaŤ
  • Vytvorenie integrovaných nástrojov pre NLP (slovenčina)
  • Tvorba údajovej základne pre reprezentáciu znalostí a pre NLP:
    • korpus trénovacích textov
    • slovníky / údajové štruktúry pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín
  • Analýza výstupov pomocou metód umelej inteligencie:
    • data mining, text mining, zhlukovanie, klasifikácia
    • reprezentácia a manažment znalostí
  • Overenie výsledkov na pilotnej aplikácii v rámci predmetu Manažment znalostí (FEI a EkF TU Košice)
implementa n platforma
Implementačná platforma

Programovací jazyk Java

Knižnica JBowl: http://sourceforge.net/projects/jbowl/

  • klasifikačné a zhlukovacie algoritmy, indexácia textov
  • anotačné vrstvy pre ohodnocovanie textov na úrovniach jazykových rovín (morfologická, slovotvorná, syntaktická, sémantická anotácia)

Platforma GATE: http://www.gate.ac.uk

  • algoritmy pre tokenizáciu, členenie na vety, POS tagging, sémantickú anotáciu, atď.
  • nástroje na budovanie korpusu textov
  • podpora prepojenia s ontológiami
predspracovanie textu
Predspracovanie textu

Príklad - fragment textu:

PARALIČ, Ján: Objavovanie znalostí v databázach. Habilitačná práca, Technická univerzita v Košiciach, 2003, s. 4.

Výstup - extrakcia termov ohodnotených váhami:

vzor (0,5)

množina vzorov (0,6)

výber z množiny vzorov (0,8)

analýza (0,5)

analýza vzorov (0,8)

znalosť (0,3)

nová znalosť (0,4)

užitočná znalosť (0,4)

potenciálne užitočná znalosť (0,5)

Data Mining (DM) (0,6)

algoritmus DM (0,5)

aplikácia algoritmu DM (0,4)

výsledok aplikácie algoritmu DM (0,4)

vybraný algoritmus DM (0,4)

úloha (0,2)

úloha DM (0,3)

zvolená úloha DM (0,4)

typ zvolenej úlohy (0,4)

cieľová úloha (0,3)

riešenie cieľovej úlohy (0,4)

f zy anal zy textu 1
Fázy analýzy textu (1)

1. Konverzia textov na jednotný normalizovaný formát

  • vstup: PDF, MS Word, HTML, XML, plain-text
  • výstup: XML - plain-text + metainformácie

2. Segmentácia, značkovanie (tokenizácia)

  • členenie na elementárne textové jednotky:

3. Lematizácia, POS tagging, morfologická anotácia, dezambiguácia

  • eliminácia stop-words: NIE, lebo by to znemožnilo syntaktickú analýzu
  • algoritmy: Brillov tagger, GATE: ANNIE, model tvarovej podobnosti (Furdík, 2003), morfologické slovníky,morfologicky anotovaný korpus (značkovanie FI MU Brno)

| Výsledkom | aplikácie | algoritmov | DM | je | množina | vzorov | ( | ich | forma | závisí | na | type | zvolenej | úlohy | DM | , | ako | aj | na | vybranom | algoritme | DM | ) | , | ktoré |

výsledkom <l>výsledok <c>k1gInSc7 <c>k1gInPc3

aplikácie <l>aplikácia <c>k1gFnSc2 <c>k1gFnPc1 <c>k1gFnPc4

algoritmov <l>algoritmus <c>k1gInPc2

DM <l>DM <c>kA

je <l>byť <c>k5p3tPmI

f zy anal zy textu 2
Fázy analýzy textu (2)

4. Slovotvorná analýza:

  • slovnodruhové, slovotvorne motivované transformácie, slovotvorné hniezda
  • algoritmy: slovotv. slovník, typy onomaz. kategórií

5. Syntaktická analýza

  • určenie kolokácií, syntagmatických vzťahov
  • metódy: valencia, vetné vzorce, ATN siete
  • algoritmy: Charniakov synt. analyzátor,JBowl: ATN parser, štatistické metódy (n-gramy)

6. Sémantická analýza

  • identifikácia termov, ich atribútov a vzáj. relácií
  • algoritmy: sémantické slovníky (typu WordNET),ontológie, štruktúrálna analýza

aplikovať  aplikácia

 aplikovanie

 aplikovaný  neaplikovaný

výsledok  výsledný

 výsledkový

(#AuxS (Pred je (Sb množina (Atr vzorov)) (Obj Výsledkom (Atr aplikácie (Atr algoritmov (Atr DM))))))

Data Mining (DM) (0,6)

algoritmus DM (0,5)

aplikácia algoritmu DM (0,4)

výsledok aplikácie algoritmu DM (0,4)

vybraný algoritmus DM (0,4)

v stupy projektu pozna
Výstupy projektu PoZnaŤ

Hlavný výstup: SW nástroje pre podporu trialogického typu učenia v podmienkach slovenského vysokého školstva

Výstupy pre počítačové spracovanie slovenčiny:

  • integrované nástroje pre NLP (free, open source)
  • anotovaný korpus trénovacích textov
  • slovníky / údajové štruktúry + algoritmy pre jednotlivé fázy spracovania jazyka (slovenčiny) podľa jazykových rovín

Doteraz realizovaný výstup: Prototyp obslužnej konzoly pre text mining - klasifikačné služby:

  • web aplikácia na JSP a mySql platforme;
  • testy na troch skupinách reálnych výučbových dokumentov.
slide14

Ďakujem Vámza pozornosť.

PoZnaŤ - Podpora procesov tvorby nových znalostí

Web: www.tuke.sk/fei-cit/poznat/

KP-Lab - Knowledge Practices Laboratory

Web: www.kp-lab.org