Avtomatsko indeksiranje 1
This presentation is the property of its rightful owner.
Sponsored Links
1 / 32

Avtomatsko indeksiranje 1 PowerPoint PPT Presentation


  • 55 Views
  • Uploaded on
  • Presentation posted in: General

Avtomatsko indeksiranje 1. Poizvedovanje po dokumentih, ročno vs. avtomatsko indeksiranje, uvod v statistične metode avtom. indeksiranja, krnjenje - uvod. Reference vs. dokumenti. V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije.

Download Presentation

Avtomatsko indeksiranje 1

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Avtomatsko indeksiranje 1

Avtomatsko indeksiranje 1

Poizvedovanje po dokumentih,

ročno vs. avtomatsko indeksiranje,

uvod v statistične metode avtom. indeksiranja,

krnjenje - uvod.


Reference vs dokumenti

Reference vs. dokumenti

  • V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije.

  • Za izpolnitev informacijske potrebe potrebujemo dokument in ne referenco nanj.

  • Bibliografska podatkovna zbirka je oddaljen približek informacijskega orodja, ki ga potrebujemo.


Razlogi za prevlado referen nih zbirk

Razlogi za prevlado referenčnih zbirk

  • Majhna zmogljivost računalnikov v času razvoja prvih bibliografskih zbirk.

  • Pobudniki razvoja zbirk sami raziskovalci in ne informatiki.

  • Raziskovalci poznali od informacijskih orodij le kartične kataloge.

  • Bibliografska zbirka je v osnovi kartični katalog na elektronskem mediju.


Kritika deskriptorskih sistemov 1 4

Kritika deskriptorskih sistemov (1/4)

  • Bibliografska zbirka kot moderniziran kartični katalog je dokončno uveljavila deskriptorski način opisovanja vsebine.

  • Kritike so se osredotočale na:

    • ceno intelektualnega dela,

    • zamudnost indeksiranja.

  • Kritike deskriptorskih sistemov so redko podvomile v ustreznost pristopa nasploh. Izjema Cleverdon (1984).


Kritika deskriptorskih sistemov 2 4

Kritika deskriptorskih sistemov (2/4)

Cyril W. Cleverdon (1984):

  • Če dve skupini strokovnjakov gradita tezaver za neko strokovno področje, se ujema samo 60% deskriptorjev,

  • če dva izkušena indekserja indeksirata isti dokument in uporabljata isti tezaver, določita samo 30% istih deskriptorjev,

  • če naredita dva informacijska posrednika poizvedbo na isto temo v isti podatkovni zbirki, je med zadetki samo 40% istih bibliografskih zapisov in

  • če dva raziskovalca ocenjujeta rezultate iste poizvedbe z njunega strokovnega področja, se pri oceni relevantnosti zadetkov ujemata samo v 60%.


Kritika deskriptorskih sistemov 3 4

Kritika deskriptorskih sistemov (3/4)

  • Ves postopek od priprave tezavra do iskanja po zbirki vsebuje vse omenjene faze.

  • Nenatančnosti v postopkih se deloma seštevajo,

  • tako da sta običajen 60% priklic in 50% natančnost najboljših bibliografskih zbirk zelo dober rezultat.


Kritika deskriptorskih sistemov 4 4

Kritika deskriptorskih sistemov (4/4)

Cleverdonova kritika je le delno utemeljena za dobro organizirana informacijska okolja s

  • strogo kontrolo gradnje in vzdrževanja tezavra,

  • standardizacijo vseh postopkov,

  • izobraževanjem informacijskih posrednikov in uporabnikov,

  • dodatnimi orodji za pomoč pri indeksiranju in iskanju.


Pomanjkljivosti klasi nega indeksiranja

Pomanjkljivosti klasičnega indeksiranja

  • Toga pravila indeksiranja,

  • počasnost pri uvajanju novih deskriptorjev,

  • velik vložek intelektualnega dela ljudi, šolanih v stroki in s prakso v indeksiranju,

  • presenetljiva ohlapnost postopkov in rezultatov pri uporabi kontroliranih tezavrov(Cleverdon, 1984).


Prednosti klasi nega indeksiranja

Prednosti klasičnega indeksiranja

  • Predvidljivost,

  • neodvisnost od jezika dokumenta in posebnosti avtorjevega izrazja,

  • enostavno avtomatiziranje širjenja in oženja poizvedbe z hierarhičnimi tezavri.


Prednosti avtomatskega indeksiranja

Prednosti avtomatskega indeksiranja

  • Manj intelektualnega dela,

  • (vsaj teoretično) reprezentirana natančno in samo vsebina dokumenta,

  • (vsaj teoretično) reprezentirani vsi eksplicitno opisani aspekti vsebine dokumenta.


Pomanjkljivosti avtomatskega indeksiranja

Pomanjkljivosti avtomatskega indeksiranja

  • Ni semantičnih povezav med elementi opisa, kot jih sicer uvaja tezaver,

  • velik obseg elementov vsebinskega opisa,

  • jezikovna in stilistična odvisnost postopkov indeksiranja in iskanja.


Avtomatsko indeksiranje uvod

Avtomatsko indeksiranje (uvod)

Avtomatsko indeksiranje ima prednost pri zbirkah polnih dokumentov (full-text databases), med njimi še posebej pri

  • zelo velikih zbirkah,

  • zelo dinamičnih zbirkah.

    Teoretično bi lahko iskalni algoritmi iskali neposredno po besedilu dokumentov, iz praktičnih razlogov pa tudi avtomatsko indeksiranje zahteva predhodno procesiranje dokumenta.


Avtomatsko indeksiranje uvod1

Avtomatsko indeksiranje (uvod)

  • Avtomatsko indeksiranje poskuša v dokumentu najti besede (ali besedne zveze), ki predstavljajo najpomembnejše vsebine.

  • Take besede nosijo največjo količino informacije (povedno moč).

  • Te besede (ali besedne zveze) postanejo indeksni termini.

  • Pri teh postopkih ni potrebno sodelovanje informacijskega strokovnjaka.


Avtomatsko indeksiranje uvod2

Avtomatsko indeksiranje (uvod)

Osnovna pristopa k procesiranju besedil pri avtomatskem indeksiranju sta

  • lingvistično procesiranje in

  • statistično procesiranje.


Lingvisti ne metode avtom indeksiranja

Lingvistične metode avtom. indeksiranja

Metode poskušajo razumeti vsebino in s pomočjo razumevanja izbrati najustreznejše vsebinske predstavnike. Pri tem

  • uporabljajo sintaktično in semantično znanje o jeziku,

  • prepoznavajo jezikovne strukture.

    Zaenkrat metode še niso zelo učinkovite,

  • ker so računalniško potratne, in

  • obstajajo le parcialne teorije jezika, ki se jih ne da formalizirati v učinkovite algoritme, ki bi veljali vsaj za večino jezikovnih struktur.


Statisti ne metode avtom indeksiranja uvod

Statistične metode avtom. indeksiranja - uvod

Temeljijo na enostavnih metodah frekvenčne analize besedil.

Osnovne predpostavke:

  • besede niso slučajno porazdeljene po besedilih,

  • frekvenca pojavljanja neke besede je pozitivno povezana s pomembnostjo vsebine, ki jo ta beseda zastopa,

  • besede, ki se v besedilu pojavljajo večkrat, v splošnem več prispevajo k njegovi vsebini.


Statisti ne metode avtom indeksiranja uvod1

Statistične metode avtom. indeksiranja - uvod

Besede iz dokumenta je treba preoblikovati tako, da so primerne za vlogo vsebinskih predstavnikov – indeksnih terminov.

Običajno zaporedje postopkov je:

  • blokiranje,

  • krnjenje,

  • računanje povednih moči.


Blokiranje

Blokiranje

  • Izvor ideje v delu Luhna in Zipfa.

  • Besede iz korpusa angl. jezika sta preštela in razvrstila po rangih frekvenc.

  • Odvisnost med frekvenco besede in njeno pozicijo v rangu je hiperbolična funkcija.


Blokiranje1

Blokiranje

Besede v korpusu lahko navidezno razdelimo na tri skupine:

  • zelo pogoste, ki ne “nosijo” vsebine dokumenta,

  • zelo redke, ki niso primerne za vsebinske predstavnike, in

  • tiste “vmes”, ki “nosijo” vsebino.


Blokiranje2

Blokiranje

  • V skupini zelo pogostih besed je malo različnih besed.Te besede se pojavljajo v vseh besedilih v nekem jeziku.

  • Ker nosijo malo informacije, jih lahko zavržemo.

  • Te besede sestavljajo t.i. seznam blokiranih besed (stop-words list).

  • Blokirane besede sodijo v nekatere besedne vrste: števniki, predlogi, prislovi, zaimki...


Blokiranje3

Blokiranje

  • V angleških besedilih je število zelo pogostih različnih besed manjše kot pri slovenščini, ker za eno angleško besedo obstaja veliko besednih oblik slovenskega prevoda

  • Seznami blokiranih besed za slovenščino so zato precej večji od angleških.


Blokiranje4

Blokiranje

Različne velikosti seznamov blokiranih besed za slovenščino in angleščino


Pogojno blokiranje

Pogojno blokiranje

  • Zbirke dokumentov, ki jih avtomatsko indeksiramo, so običajno tematsko omejene.

  • Različna strokovna področja uporabljajo različne podjezike: “bibliotekarščina, medicinščina…”


Pogojno blokiranje1

Pogojno blokiranje

  • V podjeziku nekatere besede nosijo veliko manj informacije, kot v splošnem jeziku. Primer: “knjižnica” v bibliotekarščini.

  • Pri pogojnem blokiranju besedil v podjeziku zavržemo take besede.

  • Seznam pogojno blokiranih besed ni sestavljen iz besed določenih besednih vrst, ampak iz besed, ki se pojavljajo v največjem številu dokumentov.

  • Pogojno blokiranje je danes redko.


Krnjenje

Krnjenje

  • Postopek, s katerim nevtraliziramo morfološko bogastvo jezika.

  • Besede v dokumentih nastopajo v različnih pojavnih oblikah (zaradi sklanjanja, spreganja, števila, spola…).

  • Pri krnjenju (stemming) iščemo zaporedje znakov, ki lahko zastopa vse oblike neke besede in samo oblike te besede.


Krnjenje1

Krnjenje

  • Krnjenje ne določa pravega korena besede, zato raje govorimo o krnih.

  • Koren in krn sta pogosto enaka.

  • Krn ni nujno vsebovan v vseh oblikah neke besede

  • S krnjenjem dosežemo isto kot z “ročnim krajšanjem” pri oblikovanju iskalne zahteve, le da ga opravimo že pri vključevanju dokumenta v zbirko.


Krnjenje2

Krnjenje

Osnova so predpostavke:

  • besede z dovolj dolgim enakim zaporedjem začetnih znakov so tudi vsebinsko sorodne (dokaz: etimologija besed),

  • pojavljanje različnih končnih delov besed s skupnim začetnim zaporedjem se ravna po nekih pravilih (dokaz: morfološka pravila),

  • ta pravila so dovolj enostavna, da jih je mogoče formalizirati v ekonomičen algoritem.


Krnjenje3

Krnjenje

Obstajata dve široki skupini algoritmov:

  • algoritmi brez seznama kočniciščejo skupne krne z upoštevanjem nekaterih statističnih posebnosti besed,

  • algoritmi s seznamom končnicoblikujejo krne tako, da od besed režejo njihove končnice.


Algoritmi brez seznama kon nic

Algoritmi brez seznama končnic

Pestrost nadaljevanj (successor variety), Hafer, Weiss, 1974

  • Črke v besedi niso naključno postavljene.

  • Verjetnost pojavljanja neke črke je odvisna od prejšnjih in ta odvisnost z dolžino besede narašča.

  • Odvisnost se poruši na meji med krnom in končnico.


Pestrost nadaljevanj

Pestrost nadaljevanj

Primer:

Besede v zbirki: CABLE, APE, BEATABLE, FIXABLE, READ, READABLE, READING, READS, RED, ROPE, RIPE.

Krnjenje besede READABLE, krn READ


Algoritmi brez seznama kon nic1

Algoritmi brez seznama končnic

Metoda skupnih digramov, Adamson, Boreham, 1974

Metoda odkriva gruče besed in besednih oblik.

Predpostavke:

  • Besede in njihove oblike, ki so dovolj sorodne, da sodijo v isto gručo, predstavljajo isto vsebino.

  • Katerakoli beseda iz gruče lahko zastopa vse besede v gruči.


Metoda skupnih digramov

Metoda skupnih digramov

Računanje sorodnosti besed statistics in statistical.

2CSorodnost S = ------------ = (2*6) / (7 + 8) = 0,8 A + B


  • Login