avtomatsko indeksiranje 1
Download
Skip this Video
Download Presentation
Avtomatsko indeksiranje 1

Loading in 2 Seconds...

play fullscreen
1 / 32

Avtomatsko indeksiranje 1 - PowerPoint PPT Presentation


  • 88 Views
  • Uploaded on

Avtomatsko indeksiranje 1. Poizvedovanje po dokumentih, ročno vs. avtomatsko indeksiranje, uvod v statistične metode avtom. indeksiranja, krnjenje - uvod. Reference vs. dokumenti. V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Avtomatsko indeksiranje 1' - sienna


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
avtomatsko indeksiranje 1

Avtomatsko indeksiranje 1

Poizvedovanje po dokumentih,

ročno vs. avtomatsko indeksiranje,

uvod v statistične metode avtom. indeksiranja,

krnjenje - uvod.

reference vs dokumenti
Reference vs. dokumenti
  • V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije.
  • Za izpolnitev informacijske potrebe potrebujemo dokument in ne referenco nanj.
  • Bibliografska podatkovna zbirka je oddaljen približek informacijskega orodja, ki ga potrebujemo.
razlogi za prevlado referen nih zbirk
Razlogi za prevlado referenčnih zbirk
  • Majhna zmogljivost računalnikov v času razvoja prvih bibliografskih zbirk.
  • Pobudniki razvoja zbirk sami raziskovalci in ne informatiki.
  • Raziskovalci poznali od informacijskih orodij le kartične kataloge.
  • Bibliografska zbirka je v osnovi kartični katalog na elektronskem mediju.
kritika deskriptorskih sistemov 1 4
Kritika deskriptorskih sistemov (1/4)
  • Bibliografska zbirka kot moderniziran kartični katalog je dokončno uveljavila deskriptorski način opisovanja vsebine.
  • Kritike so se osredotočale na:
    • ceno intelektualnega dela,
    • zamudnost indeksiranja.
  • Kritike deskriptorskih sistemov so redko podvomile v ustreznost pristopa nasploh. Izjema Cleverdon (1984).
kritika deskriptorskih sistemov 2 4
Kritika deskriptorskih sistemov (2/4)

Cyril W. Cleverdon (1984):

  • Če dve skupini strokovnjakov gradita tezaver za neko strokovno področje, se ujema samo 60% deskriptorjev,
  • če dva izkušena indekserja indeksirata isti dokument in uporabljata isti tezaver, določita samo 30% istih deskriptorjev,
  • če naredita dva informacijska posrednika poizvedbo na isto temo v isti podatkovni zbirki, je med zadetki samo 40% istih bibliografskih zapisov in
  • če dva raziskovalca ocenjujeta rezultate iste poizvedbe z njunega strokovnega področja, se pri oceni relevantnosti zadetkov ujemata samo v 60%.
kritika deskriptorskih sistemov 3 4
Kritika deskriptorskih sistemov (3/4)
  • Ves postopek od priprave tezavra do iskanja po zbirki vsebuje vse omenjene faze.
  • Nenatančnosti v postopkih se deloma seštevajo,
  • tako da sta običajen 60% priklic in 50% natančnost najboljših bibliografskih zbirk zelo dober rezultat.
kritika deskriptorskih sistemov 4 4
Kritika deskriptorskih sistemov (4/4)

Cleverdonova kritika je le delno utemeljena za dobro organizirana informacijska okolja s

  • strogo kontrolo gradnje in vzdrževanja tezavra,
  • standardizacijo vseh postopkov,
  • izobraževanjem informacijskih posrednikov in uporabnikov,
  • dodatnimi orodji za pomoč pri indeksiranju in iskanju.
pomanjkljivosti klasi nega indeksiranja
Pomanjkljivosti klasičnega indeksiranja
  • Toga pravila indeksiranja,
  • počasnost pri uvajanju novih deskriptorjev,
  • velik vložek intelektualnega dela ljudi, šolanih v stroki in s prakso v indeksiranju,
  • presenetljiva ohlapnost postopkov in rezultatov pri uporabi kontroliranih tezavrov(Cleverdon, 1984).
prednosti klasi nega indeksiranja
Prednosti klasičnega indeksiranja
  • Predvidljivost,
  • neodvisnost od jezika dokumenta in posebnosti avtorjevega izrazja,
  • enostavno avtomatiziranje širjenja in oženja poizvedbe z hierarhičnimi tezavri.
prednosti avtomatskega indeksiranja
Prednosti avtomatskega indeksiranja
  • Manj intelektualnega dela,
  • (vsaj teoretično) reprezentirana natančno in samo vsebina dokumenta,
  • (vsaj teoretično) reprezentirani vsi eksplicitno opisani aspekti vsebine dokumenta.
pomanjkljivosti avtomatskega indeksiranja
Pomanjkljivosti avtomatskega indeksiranja
  • Ni semantičnih povezav med elementi opisa, kot jih sicer uvaja tezaver,
  • velik obseg elementov vsebinskega opisa,
  • jezikovna in stilistična odvisnost postopkov indeksiranja in iskanja.
avtomatsko indeksiranje uvod
Avtomatsko indeksiranje (uvod)

Avtomatsko indeksiranje ima prednost pri zbirkah polnih dokumentov (full-text databases), med njimi še posebej pri

  • zelo velikih zbirkah,
  • zelo dinamičnih zbirkah.

Teoretično bi lahko iskalni algoritmi iskali neposredno po besedilu dokumentov, iz praktičnih razlogov pa tudi avtomatsko indeksiranje zahteva predhodno procesiranje dokumenta.

avtomatsko indeksiranje uvod1
Avtomatsko indeksiranje (uvod)
  • Avtomatsko indeksiranje poskuša v dokumentu najti besede (ali besedne zveze), ki predstavljajo najpomembnejše vsebine.
  • Take besede nosijo največjo količino informacije (povedno moč).
  • Te besede (ali besedne zveze) postanejo indeksni termini.
  • Pri teh postopkih ni potrebno sodelovanje informacijskega strokovnjaka.
avtomatsko indeksiranje uvod2
Avtomatsko indeksiranje (uvod)

Osnovna pristopa k procesiranju besedil pri avtomatskem indeksiranju sta

  • lingvistično procesiranje in
  • statistično procesiranje.
lingvisti ne metode avtom indeksiranja
Lingvistične metode avtom. indeksiranja

Metode poskušajo razumeti vsebino in s pomočjo razumevanja izbrati najustreznejše vsebinske predstavnike. Pri tem

  • uporabljajo sintaktično in semantično znanje o jeziku,
  • prepoznavajo jezikovne strukture.

Zaenkrat metode še niso zelo učinkovite,

  • ker so računalniško potratne, in
  • obstajajo le parcialne teorije jezika, ki se jih ne da formalizirati v učinkovite algoritme, ki bi veljali vsaj za večino jezikovnih struktur.
statisti ne metode avtom indeksiranja uvod
Statistične metode avtom. indeksiranja - uvod

Temeljijo na enostavnih metodah frekvenčne analize besedil.

Osnovne predpostavke:

  • besede niso slučajno porazdeljene po besedilih,
  • frekvenca pojavljanja neke besede je pozitivno povezana s pomembnostjo vsebine, ki jo ta beseda zastopa,
  • besede, ki se v besedilu pojavljajo večkrat, v splošnem več prispevajo k njegovi vsebini.
statisti ne metode avtom indeksiranja uvod1
Statistične metode avtom. indeksiranja - uvod

Besede iz dokumenta je treba preoblikovati tako, da so primerne za vlogo vsebinskih predstavnikov – indeksnih terminov.

Običajno zaporedje postopkov je:

  • blokiranje,
  • krnjenje,
  • računanje povednih moči.
blokiranje
Blokiranje
  • Izvor ideje v delu Luhna in Zipfa.
  • Besede iz korpusa angl. jezika sta preštela in razvrstila po rangih frekvenc.
  • Odvisnost med frekvenco besede in njeno pozicijo v rangu je hiperbolična funkcija.
blokiranje1
Blokiranje

Besede v korpusu lahko navidezno razdelimo na tri skupine:

  • zelo pogoste, ki ne “nosijo” vsebine dokumenta,
  • zelo redke, ki niso primerne za vsebinske predstavnike, in
  • tiste “vmes”, ki “nosijo” vsebino.
blokiranje2
Blokiranje
  • V skupini zelo pogostih besed je malo različnih besed.Te besede se pojavljajo v vseh besedilih v nekem jeziku.
  • Ker nosijo malo informacije, jih lahko zavržemo.
  • Te besede sestavljajo t.i. seznam blokiranih besed (stop-words list).
  • Blokirane besede sodijo v nekatere besedne vrste: števniki, predlogi, prislovi, zaimki...
blokiranje3
Blokiranje
  • V angleških besedilih je število zelo pogostih različnih besed manjše kot pri slovenščini, ker za eno angleško besedo obstaja veliko besednih oblik slovenskega prevoda
  • Seznami blokiranih besed za slovenščino so zato precej večji od angleških.
blokiranje4
Blokiranje

Različne velikosti seznamov blokiranih besed za slovenščino in angleščino

pogojno blokiranje
Pogojno blokiranje
  • Zbirke dokumentov, ki jih avtomatsko indeksiramo, so običajno tematsko omejene.
  • Različna strokovna področja uporabljajo različne podjezike: “bibliotekarščina, medicinščina…”
pogojno blokiranje1
Pogojno blokiranje
  • V podjeziku nekatere besede nosijo veliko manj informacije, kot v splošnem jeziku. Primer: “knjižnica” v bibliotekarščini.
  • Pri pogojnem blokiranju besedil v podjeziku zavržemo take besede.
  • Seznam pogojno blokiranih besed ni sestavljen iz besed določenih besednih vrst, ampak iz besed, ki se pojavljajo v največjem številu dokumentov.
  • Pogojno blokiranje je danes redko.
krnjenje
Krnjenje
  • Postopek, s katerim nevtraliziramo morfološko bogastvo jezika.
  • Besede v dokumentih nastopajo v različnih pojavnih oblikah (zaradi sklanjanja, spreganja, števila, spola…).
  • Pri krnjenju (stemming) iščemo zaporedje znakov, ki lahko zastopa vse oblike neke besede in samo oblike te besede.
krnjenje1
Krnjenje
  • Krnjenje ne določa pravega korena besede, zato raje govorimo o krnih.
  • Koren in krn sta pogosto enaka.
  • Krn ni nujno vsebovan v vseh oblikah neke besede
  • S krnjenjem dosežemo isto kot z “ročnim krajšanjem” pri oblikovanju iskalne zahteve, le da ga opravimo že pri vključevanju dokumenta v zbirko.
krnjenje2
Krnjenje

Osnova so predpostavke:

  • besede z dovolj dolgim enakim zaporedjem začetnih znakov so tudi vsebinsko sorodne (dokaz: etimologija besed),
  • pojavljanje različnih končnih delov besed s skupnim začetnim zaporedjem se ravna po nekih pravilih (dokaz: morfološka pravila),
  • ta pravila so dovolj enostavna, da jih je mogoče formalizirati v ekonomičen algoritem.
krnjenje3
Krnjenje

Obstajata dve široki skupini algoritmov:

  • algoritmi brez seznama kočniciščejo skupne krne z upoštevanjem nekaterih statističnih posebnosti besed,
  • algoritmi s seznamom končnicoblikujejo krne tako, da od besed režejo njihove končnice.
algoritmi brez seznama kon nic
Algoritmi brez seznama končnic

Pestrost nadaljevanj (successor variety), Hafer, Weiss, 1974

  • Črke v besedi niso naključno postavljene.
  • Verjetnost pojavljanja neke črke je odvisna od prejšnjih in ta odvisnost z dolžino besede narašča.
  • Odvisnost se poruši na meji med krnom in končnico.
pestrost nadaljevanj
Pestrost nadaljevanj

Primer:

Besede v zbirki: CABLE, APE, BEATABLE, FIXABLE, READ, READABLE, READING, READS, RED, ROPE, RIPE.

Krnjenje besede READABLE, krn READ

algoritmi brez seznama kon nic1
Algoritmi brez seznama končnic

Metoda skupnih digramov, Adamson, Boreham, 1974

Metoda odkriva gruče besed in besednih oblik.

Predpostavke:

  • Besede in njihove oblike, ki so dovolj sorodne, da sodijo v isto gručo, predstavljajo isto vsebino.
  • Katerakoli beseda iz gruče lahko zastopa vse besede v gruči.
metoda skupnih digramov
Metoda skupnih digramov

Računanje sorodnosti besed statistics in statistical.

2CSorodnost S = ------------ = (2*6) / (7 + 8) = 0,8 A + B