1 / 41

Digi talna knjižnica 1

Digi talna knjižnica 1. Osnovni t ehnični pogoji za delovanje d-knjižnice , načini organizacije dokumentov na spletu. D-knjižnica. Zbirka ( lokalnih (?)) e-dokumentov, kazalcev na e -dokumente in institucija, ki jih ureja. Dokumenti so namenjeni rabi preko omrežja.

siusan
Download Presentation

Digi talna knjižnica 1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Digitalna knjižnica 1 Osnovni tehnični pogoji za delovanje d-knjižnice,načini organizacije dokumentov na spletu.

  2. D-knjižnica • Zbirka (lokalnih (?)) e-dokumentov, kazalcev na e-dokumente in institucija, ki jih ureja. • Dokumenti so namenjeni rabi preko omrežja. • Deluje po načelu virtualnosti: dokumenti dostopni brez prostorskih in časovnih omejitev. • Internet ni d-knjižnica.

  3. D-knjižnica Običajno • je vsebinsko omejena (podobne funkcije, kot specialna ali deloma visokošolska knjižnica), • ni omejena glede tipov dokumentov in tipov podatkov v dokumentih, • vključuje le zaupanja vredne in stabilne dokumente, • uporablja dobra iskalna in prikazovalna orodja.

  4. D-knjižnica • Prednost organiziranja dokumentov v d-knjižnici je tudi možnost storitev z dodano vrednostjo: • lažje iskanje dokumentov in konkretnih mest v dokumentih, ki opisujejo želeno tematiko, • personalizacija – poznavanje uporabnikovih zahtev (t.i. uporabniški profil) omogoča avtomatsko oblikovanje podmnožice dokumentov v d-knjižnici, • možnost avtomatskega obveščanja o novih dokumentih, ki ustrezajo uporabniškemu profilu...

  5. Tehnični pogoji za gradnjo d-knjižnice • Internet logična infrastruktura za uporabo funkcij d-knjižnice. • Od javnih aplikacij na Internetu najbolj ustreza Svetovni splet (WWW). • Z odločitvijo za splet vnaprej razrešeni nekateri najpomembnejši tehnični pogoji.

  6. Tehnični pogoji za gradnjo d-knjižnice Zaradi odločitve za splet • Ni potreben razvoj specializirane programske opreme za delovanje strežnikov dokumentov in pregledovalnikov dokumentov v d-knjižnici. • Ni potreben razvoj protokolov za komunikacijo med strežniki in odjemalci ter transport ukazov in dokumentov med njimi. • Storitve d-knjižnice so globalno dostopne neglede na uporabnikovo strojno opremo in operacijski sistem.

  7. Tehnični pogoji za gradnjo d-knjižnice • Vse te naloge so že razrešene v spletu. • Osnovna spletna programska oprema in aplikacije so stabilne, za razvoj pa skrbi večji del internetne skupnosti. • Programska oprema, nujna za delovanje spleta in spletnih aplikacij je lahko dostopna in poceni.

  8. Tehnični pogoji za gradnjo d-knjižnice • Širjenje in posodobitev omrežne infrastrukture približno sledi rasti količine prenesenih podatkov. • Naslavljanje dokumentov: • prevladujoč standard je URL (Uniform Resource Locator), ki samo deloma ustreza, ker opisuje pozicijo in ne identiteto dokumenta, • URL primeren le za osnovne funkcije rabe stabilnih dokumentov. • Izvorno splet predvideva URI (Uniform Resource Identifier) – identifikator, ki bi bil lastno ime dokumenta in veljal vso njegovo življenjsko dobo. • Primera URI: DOI (Digital Object Identifier) in PURL (Persistent URL).

  9. Tehnični pogoji za gradnjo d-knjižnice Standardni transportni protokol HTTP • ustrezen za dostop do dokumentov in njihov transport na uporabnikov računalnik, • manj ustrezen za delovanje iskalnikov - otežkoča implementacijo iskalne seanse in iskalne strategije. • Sklep: splošni tehnični pogoji na spletu ustrezajo za delovanje osnovnih funkcij d-knjižnice.

  10. Organizacija dokumentov na Internetu • Internet in še posebej WWW omogoča ponudbo in uporabo zelo različnih podatkovnih tipov. • Nosilec informacij, s katerim se ukvarja d-knjižnica je dokument in ne njegov bibliografski nadomestek.

  11. Organizacija dokumentov na Internetu • Dokument je vsak samostojno dostopen informacijski objekt: • članek, • monografija, • domača stran osebe ali inštitucije, • seznam kazalcev na dokumente, • rezultati poizvedbe…

  12. Organizacija dokumentov na Internetu • Dokument je najmanj ena samostojna datoteka. • Vsak nebesedilni element multimedijskega dokumenta je samostojna datoteka. • Besedilna osnova multimedijskega dokumenta vsebuje hipertekstne reference na datoteke nebesedilne narave. • Datoteke, ki sestavljajo dokument, so lahko nameščene na medsebojno zelo oddaljenih strežnikih in se sestavijo šele na uporabnikovem računalniku.

  13. Organizacija dokumentov na Internetu • Organiziranje dostopa do dokumentov večinoma ne predvideva zbiranja dokumentov na enem mestu - v zbirki dokumentov. • Organiziranje dostopa do dokumentov večinoma pomeni zbiranje kazalcev na dokumente.

  14. Organizacija dokumentov na Internetu • V omrežnem okolju je kazalec na dokument informacija o imenu dokumenta in njegovi namestitvi v sistemu direktorijev nekega konkretnega strežnika v omrežju. • V interaktivnem omrežnem okolju (WWW) pomeni aktivacija kazalca (klik z miško) priklic dokumenta, na katerega kaže kazalec.

  15. Organizacija dokumentov na Internetu • Dva prevladujoča načina organizacije dokumentov na Internetu: • seznami kazalcev na dokumente, • zbirke kazalcev na dokumente. • Dva izpeljana načina organizacije: • spletni portali in • (kooperativni) spletni katalogi.

  16. Seznami kazalcev na dokumente • Kriteriji urejanja kazalcev: • kronološki, • abecedni, • geografski, • glede na hierarhijo pojmov v stroki...

  17. Seznami kazalcev na dokumente Prednosti seznamov kazalcev: • dokumenti urejeni po nekem kriteriju, npr. vsebinskih kategorijah, kar olajšuje iskanje, • večinoma vsebujejo netrivialne dokumente, • manjša možnost multiplikatov… Pomanjkljivosti seznamov kazalcev: • velik vložek intelektualnega dela, • neažurnost... • skratka, podobne pomanjkljivosti, kot jih ima intelektualno indeksiranje.

  18. Seznami kazalcev na dokumente Nekateri seznami: • DMOZhttp://dmoz.org • Yahoo http://www.yahoo.com • Google Directoryhttp://directory.google.com/ • Best of the Webhttp://botw.org/

  19. Struktura direktorijev je podobna pri vseh seznamih kazalcev. Večina seznamov je usmerjenih v zabavo.

  20. Zanimiv primer je DMOZ, http://dmoz.org s kolektivnim in prostovoljnim urejanjem.

  21. Zbirke kazalcev in iskalniki • Seznami kazalcev postanejo preveliki za odkrivanje dokumentov izključno z listanjem. • Začnejo vključevati iskalnike, najprej le za dokumente v svojih seznamih, kasneje splošne. • Gre za prave sodobne IR sisteme z vsebinskimi opisi dokumentov nastalimi z avtomatskim indeksiranjem.

  22. Zbirke kazalcev in iskalniki • Število spletnih dokumentov in njegova eksponentna rast onemogočata intelektualno indeksiranje dokumentov v iskalnikih, usmerjenih v splošne vsebine. • Na Internetu prevladujejo avtomatski in polavtomatski postopki opisovanja vsebine, celo pri klasifikaciji (gradnja seznamov) in deloma pri katalogizaciji.

  23. Zbirke kazalcev in iskalniki • Velikost zbirk, ki jih uporabljajo internetski iskalniki, daleč presega merila, ki smo jih navajeni v klasičnem IR. • Velikost pojavov na Internetu je na splošno zelo težko meriti, pri iskalnikih smo omejeni na njihove lastne ocene. • Dober povzetek lastnosti iskalnikov: http://searchenginewatch.com/reports/sizes.html

  24. Zbirke kazalcev in iskalniki • Ocena velikosti spleta, februar 2000: 1 milijarda dokumentov • Izjava iskalnika Google, februar 2002: Searching 2,073,418,204 web pages • Izjava iskalnika Google, februar 2003: Searching 3,083,324,652 web pages • Izjava iskalnika Google, februar 2004:Searching 4,285,199,774 web pages • Izjava iskalnika Google, januar 2005Searching 8,058,044,651 web pages

  25. Zbirke kazalcev in iskalniki: feb. 2000 Po:http://searchenginewatch.com/reports/sizes.html Legenda: FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.

  26. Zbirke kazalcev in iskalniki: jun. 2001 Po:http://searchenginewatch.com/reports/sizes.html Legenda: FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.

  27. Zbirke kazalcev in iskalniki: sep. 2003 Po:http://searchenginewatch.com/reports/sizes.html Legenda: GG=Google, ATW=AllTheWeb, INK=Inktomi, TMA=Teoma, AV=AltaVista.

  28. Zbirke kazalcev in iskalniki Po:http://searchenginewatch.com/reports/sizes.html Legenda: FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.

  29. Zbirke kazalcev in iskalniki Milijarde indeksiranih dokumentov(december 1995 – september 2003) Po:http://searchenginewatch.com/reports/sizes.html Legenda: GG=Google, ATW=AllTheWeb, AV=AltaVista, INK=Inktomi, TMA=Teoma

  30. Zbirke kazalcev in iskalniki Uspešna plat - gradnja zbirke: • zbiranje podatkov o obstoječih dokumentih z avtonomnimi programskimi agenti (robots, spiders, crawlers, worms…), • avtomatsko indeksiranje - večinoma klasične metode statističnega pristopa (blokiranje, krnjenje, frekvenčne analize).

  31. Delovanje avtonomnih programskih agentov • Agent • pregleda dokument, • shrani vse kazalce na druge dokumente v seznam, • če dokument še ni indeksiran, ali če je spremenjen od zadnjega pregleda, ga indeksira, • prikliče naslednji dokument iz seznama in opravi korake 1 - 3. • Zbirko stalno polni več agentov. • Zaradi eksponentne rasti števila dokumentov, splet nikoli ne more biti indeksiran v celoti.

  32. Delovanje avtonomnih programskih agentov

  33. Gradnja zbirk z avtonomnimi prog. agenti • Razen frekvenčnih porazdelitev besednih krnov uporabljajo iskalniki še nekatere dodatne informacije za računanje relevantnosti dokumentov. • Višje povedne moči dobijo • krni iz naslova, • krni iz hipertekstnih kazalcev, • krni z vrhnjih delov strani, • krni iz poudarjenih delov dokumenta (mastni, poševni tisk)...

  34. Gradnja zbirk z avtonomnimi prog. agenti • Posebno učinkovit dodaten faktor računanja relevantnosti je PageRank (Google): • Če avtor v svojem spletnem dokumentu postavi kazalec na nek drug dokument, to običajno pomeni, da se mu zdi ta dokument dober. • Dokumenti, na katere kaže mnogo kazalcev, dobijo visok PageRank (podobnost s citatnimi zbirkami – SCI). • PageRank dokumenta se še poveča, če nanj kažejo dokumenti z visokim PageRank-om.

  35. Zbirke kazalcev in iskalniki Analiza prekrivanja rezultatov iskanja (l. 1998): • Analizirani iskalniki: AltaVista, Excite, Infoseek, Lycos. • Preverjeno po 20 najvišje uvrščenih kazalcev. • Prešteto število kazalcev, ki se pojavljajo pri več kot enem iskalniku.

  36. Zbirke kazalcev in iskalniki • Analiza kaže zelo majhno prekrivanje rezultatov, verjetno zaradi slabega rangiranja, vendar boljše prekrivanje pri 2. iskalni zahtevi. • Priporočilo: • poskusi oblikovati čim bolj specifično iskalno zahtevo, • uporabi čimvečje število ključnih besed pri slabše definiranih informacijskih potrebah.

More Related