130 likes | 341 Views
Pēteris Paikens. Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs. Par mani. Nupat sāku studēt doktorantūrā LU datorzinātņu bakalaurs + RTU MBA grāds 12 gadi darba IT jomā – programmēšana, procesu automatizācija un projektu vadība
E N D
Pēteris Paikens Datorzinātne un tās starpdisciplinārie lietojumi dabaszinātnēs un sociālajās zinātnēs
Par mani • Nupat sāku studēt doktorantūrā • LU datorzinātņu bakalaurs + RTU MBA grāds • 12 gadi darba IT jomā – programmēšana, procesu automatizācija un projektu vadība • Kopš 2006. gada LU MII
Tēma Semantiskās informācijas ieguve no dabiskās valodas avotiem • Datorlingvistikas metodes valodas apstrādei • Nepārraudzītas mašīnmācīšanās metodes • Semantikas reprezentācija • Praktiskie pielietojumi
Datorlingvistika • Metodes dabiskās valodes apstrādei • Analīze, ģenerēšana, dialogs • Formālu valodas modeļu izveide • ‘Daudzslāņu torte’ • Fonētika • Morfoloģija • Sintakse • Semantika • Diskurss
Mašīnmācīšanās • Populārākie un efektīvākie risinājumi • Mašīntulkošana (google translate un citi) • Runas atpazīšana • Gramatiku un sintakses analizatoru veidošana • Vajag lielu apjomu marķētu datu • ‘Bootstrapping’iespējas • ‘90%’ rīks > pusmanuāla marķēšana > ‘99%’ rīks
Problēmu vienkāršošana • Kontrolētās valodas • Formāli kontrolētas valodas • Vieglā valoda • Nozares (‘domain’) ierobežojums • Ierobežots, uzskaitāms leksikons • Mazāk daudznozīmību • Cilvēka pārraudzība • Iespēja izvēlēties no vairākiem variantiem • Pārjautāšana un iespēja koriģēt
Semantiskā analīze • Problēmai piemērota modeļa izveide • Klasiskās DAS, RDBS, u.c • RDF • Teksta analīzes pielāgošana modelim • Vārda ‘piemeklēšana’ – statistika vai pattern matching • Sintakses analīzes koku izmantošana • Ietvara semantika (‘frame semantics’)
Ietvara semantika • Vārdi jēgu iegūst tikai konkrētā ietvarā • Uzskaitam ietvarus un vārdu jomas tajos Gulēšana: gulēt≈ snaust ≈ šņākt ≈ parubīties≈ nakšņot utml. Elementi: gulētājs, ilgums, vieta, veids, laiks, pakāpe • Var šīs vārdu lomas automātiski atrast «Tas nozīmē, ka priekšlaikus dzimušie zīdaiņi atrodas ne tikai inkubatorā, bet arī no dažām minūtēm līdz vairākām stundāmdienā <guļ> uz māmiņas vēdera.» • Var pārveidot atbilstoši lietojuma specifikai, uz predikātu loģiku, utml
Praktiskie pielietojumi • Klasiskie valodas pielietojumi • Pareizrakstība un mašīntulkošana • Runas atpazīšana un sintēze • Ceļš uz vispārīgu MI (‘general AI’) • IBM Watson risinājums • Zināšanu bāzes iegūšana ‘iemācoties vikipēdiju’ • Strukturētu datu iegūšana no interneta haosa • Preču informācijas iegūšana no teksta aprakstiem • Lietotāju komentāru analīze
Starpdisciplinārie pielietojumi • Valodas resursu izveide un automatizēta analīze valodniecības pētījumiem • Publiskās elektroniskās komunikācijas analīze politoloģijas un socioloģijas pētījumiem • Tirgus rādītāju (akcijas, commodities) saistība ar ziņu un komentāru teksta saturu • Dabiskās valodas saskarņu iespējas programminženierijas risinājumos
Publikācijas • An implementation of a Latvian resource grammar in Grammatical Framework – iesniegts Language Resources and Evaluation 2012 konferencei • Lexicon-Based Morphological Analysis of Latvian Language – publicēts Proceedings of the 3rd Baltic Conference on Human Language Technologies 2007.
Paldies par uzmanību! Jautājumi?