1 / 42

Zgodovina zbirk celotnih besedil

Zgodovina zbirk celotnih besedil. Gutenberg Etexts, Project Tulip, NCSTRL. Hočete zbirko? Ni problem. Kako zgraditi srednjeveliko zbirko polnih dokumentov v polprofesionalne namene? Kaj potrebujemo? Osnovno računalniško znanje, običajen PC, povezan v Internet,

zahina
Download Presentation

Zgodovina zbirk celotnih besedil

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zgodovina zbirk celotnih besedil Gutenberg Etexts, Project Tulip, NCSTRL

  2. Hočete zbirko? Ni problem. • Kako zgraditi srednjeveliko zbirko polnih dokumentov v polprofesionalne namene? Kaj potrebujemo? • Osnovno računalniško znanje, • običajen PC, povezan v Internet, • dobro razumevanje oblikovanja in rabe metapodatkov, • izkušnje s konkretno programsko opremo in 1 teden časa, ali • poljubno programsko opremo in 1 mesec časa. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  3. Hočete zbirko? Ni problem. • Kaj je srednjeveliko? • 10.000 - 100.000 dokumentov velikosti članka. • Kaj je polprofesionalno? • Raba v akademskem okolju ali v zaključeni uporabniški skupini, • manjše število sočasnih uporabnikov, • ni konec sveta, če občasno ne dela. • Zgraditi zbirko za profesionalno rabo? • Potrebujemo >1 leto in dobro ekipo. Ekipa se bo ukvarjala pretežno s poslovnimi in promocijskimi vprašanji. • Vse to drži pod pogojem, da imamo na voljo podatke v e-obliki. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  4. Ali zbirke polnih dokumentov delujejo? • Delujejo! • Knjižnice obstajajo tisočletja, računalniške zbirke dokumentov (npr. d-knjižnice) pa 10 - 20 let. • V večini primerov enako dobro opravljajo svoje osnovno poslanstvo, povezano s strokovnim gradivom. • Enakovrednost seveda ne velja za vse vrste gradiva in dejavnosti knjižnice, predvsem dejavnosti, kjer je potreben medčloveški odnos. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  5. Ali zbirke polnih dokumentov delujejo? • Hitrost sporočanja se je z e-objavljanjem in e-dostopom dramatično povečala. • Spletne zbirke imajo lahko bistveno večje izrazne možnosti od zbirk gradiva v klasičnih knjižnicah - zaradi novih načinov povezovanja enot gradiva in zaradi večjih izraznih možnosti e-dokumentov. • Zbirke e-dokumentov lahko rešujejo gradivo, npr. zbirke občutljivega rokopisnega gradiva. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  6. Ali zbirke polnih dokumentov delujejo? • E-zbirke dokumentov zaenkrat(?) ne nadomeščajo vseh knjižničnih zbirk - njihova moč še vedno prevladuje drugje, predvsem na strokovnih področjih. • Posebno vrednost imajo zbirke e-dokumentov v nekaterih ne-knjižničnih okoljih - zbirke posnetkov artefaktov v muzejih in galerijah. • Gotovo so zelo primerne za nebesedilno gradivo, še posebej tisto s časovno komponento - glasbo, filme, simulacije, vizualizacije, 3D objekte... dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  7. Ali zbirke polnih dokumentov delujejo? • Velike zbirke polnih dokumentov (kot osnova d-knjižnic) so prva velika prelomnica v znanstvenem informiranju, ki ni nastala kot posledica gašenja informacijske eksplozije. • V trenutku, ko so sovpadle • tehnologije e-produkcije dokumentov, • digitalizacije in • spletna infrastruktura kot način distribucije • je bilo najnujnejše znanje, potrebno za gradnjo zbirk in iskalnikov že popolnoma razvito. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  8. Velikostni razredi zbirk dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  9. Velikostni razredi zbirk dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  10. Memex • Vannevar Bush, profesor na MIT in najvišji svetovalec za znanost v ameriški vojski med 2. svetovno vojno. • Julija 1945 je objavil članek, v katerem je opisal bodoče osebno informacijsko orodje – Memex. • Memex naj bi bila mehanična naprava, ki bi vsebovala osebno knjižnico člankov in knjig, zapiske, korespondenco, vse na mikrofilmih. • Memex bi imel tipkovnico, na katero bi lastnik vtipkal kodo knjige, mehanski sistem pa bi prinesel pod zaslon njene mikrofilmane strani. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  11. Memex • Memex bi na mehanični osnovi omogočal postavljanje kazalcev iz dokumenta na dokument. • Kazalce je imenoval “information trails”. • Kazalci bi omogočali dodajanje opomb posameznika ali skupine in "hitro" preiskovanje in prikazovanje mikrofilmov. • Trdil je, da bi Memex brez težav obvladoval mikrofilmano knjižnico z 1 milijonom knjig in osebne opombe k njim. • Naprave s približno takimi lastnostmi in tako velike knjižnice v eni napravi ni bilo do pojava spleta in spletno dostopnih zbirk. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  12. Memex dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  13. Memex • V. Bush je sicer vedel za digitalne računalnike, vendar si jih ni predstavljal v tej vlogi. • Bush si (tudi zato) ni zamislil iskanja po prostem tekstu - Memex je temeljil na klasičnem "ročnem" indeksiranju. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  14. J. C. R. Licklider • J. C. R. Licklider, vodja informatike na ameriškem ministrstvu za obrambo. • Leta 1960 govori o bodoči tesni povezanosti "možganov in elektronskih možganov" (danes bi rekli "ljudi in računalnikov"). • Povezanost naj bi bila podprta z "mrežo miselnih centrov", ki bodo imeli funkcije današnjih knjižnic in velike sposobnosti shranjevanja in iskanja informacij. • Licklider že pričakuje razvoj in veliko vlogo področja, ki ga danes imenujemo “Information Retrieval” – shranjevanje in iskanje informacij. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  15. Project Gutenberg Etexts • Najstarejši projekt velike zbirke polnih besedil. • Zanimivo: že na začetku povezan z internetno tehnologijo. • Gutenberg Etexts bi danes lahko imenovali digitalna knjižnica. • Nastal leta 1971: Materials Research Lab na University of Illinois dodelila Michaelu Hartu uporabo računalnika v vrednosti 100.000.000 $. • Razloga: • na univerzi premalo zaposlenih in študentov, ki bi znali izkoristiti obstoječo opremo, • Hart je imel dobre zveze. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 15

  16. Project Gutenberg Etexts • Hart je bil prepričan, da se tako velike donacije ne da porabiti z razvojem programske opreme, ampak s ponudbo informacij. • Zamislil si je veliko javno, omrežno dostopno zbirko e-dokumentov. • Na veliko število naslovov poslal poziv za sodelovanje - tipkanje literarnih in referenčnih del, ki niso več pod zaščito avtorskega prava. • Odziv je bil zelo velik. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 16

  17. Project Gutenberg Etexts • Ker so bile l. 1971 računalniške kapacitete uporabnikov zelo skromne je bilo osnovno pravilo vključevanje besedil v najenostavnejšem formatu - ASCII. • V času nastanka projekta so bile obvladljive velikosti datotek, ki jih je bilo mogoče prenašati tudi na disketah, nekaj deset Kb. • Dokument v projektu sme biti zapisan le z velikimi in malimi črkami, odpadejo celo poševne in poudarjene črke. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 17

  18. Project Gutenberg Etexts • ASCII je bil v 70-ih in 80-ih letih edini format, ki je bil berljiv na vsej obstoječi strojni opremi. • ASCII je bil dolgo edini format, ki ga je bilo mogoče varno in dovolj hitro prenašati po Internetu. • Projekt šele v zadnjih desetletjih vključuje tudi multimedijske podatke. • Trenutno se vsak teden vključi v zbirko >100 novih del. • Velikost: 17.000 knjig (marec 2006). dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 18

  19. Project Gutenberg Etexts • Velik problem načrtovanja zbirk so stalne spremembe obdobja, v katerem neko delo postane javno. • Leta 2003 so v projektu načrtovali vključevanje del, ki bodo postala javna do leta 2006. • Dela dostopna na http://www.gutenberg.org/in številnih zrcalnih spletiščih. • Project Gutenberg ni čisto prava d-knjižnica. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 19

  20. arXiv • Prvi arhiv nastane na začetku 90-ih. • V njem prednjačijo predtiski. • Dokumente v njem je na začetku prispevala skupina 200 fizikov ozke usmeritve vendar svetovne razprostranjenosti. • V nekaj mesecih se je članstvo 5-krat povečalo. • V nekaj letih je članstvo naraslo na nekaj desettisoč, število dokumentov na nekaj stotisoč in iskalnih zahtev na nekaj stotisoč/dan. • 26. 11. 2009 je v zbirki 572.963 dokumentov. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  21. arXiv dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  22. Project Tulip • Na začetku 90-ih je bil čas zrel za izbruh zbirk polnih dokumentov. • Videti je bilo, da velike, strašno uporabne d-knjižnice, čakajo za prvim vogalom. • Znali smo • graditi zbirke, • znali smo indeksirati (“ročno” in avtomatsko), • znali smo graditi iskalnike (“Boolove” in “ne-Boolove”), • relativno uspešno prenašati podatke po Internetu. • Nismo znali • zanesljivo prenašati podatkov po Internetu, • enostavno prikazovati poljubnih dokumentov na poljubnih zaslonih. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  23. Project Tulip • V založbi Elsevier Science Publishers se je nekaterim zdelo, da bi v splošni očaranosti z idejo d-knjižnic znalo biti kaj več. • D-knjižnice bi lahko pospešile ali pa ogrozile vlogo založnikov. • Pri Elsevier so hoteli stvar razumeti in biti pripravljeni nanjo. • V projektu Tulip so preizkusili težave pri gradnji in ponudbi d-knjižnice v akademskem okolju. • Izbrali so 43 (kasneje 83) revij s področja fizike in znanosti o materialih, ter 9 ameriških univerz z najrazvitejšimi oddelki za računalništvo. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  24. Project Tulip The Universities involved in TULIP • University of California (all campuses) • Berkeley • Davis • Irvine • Los Angeles • Riverside • Santa Barbara • Santa Cruz • San Diego • San Francisco • Carnegie Mellon University (Pittsburgh, PA) • Cornell University (Ithaca, NY) • Georgia Institute of Technology (Atlanta, GA) • University of Michigan (Ann Arbor, MI) • Massachusetts Institute of Technology (Cambridge, MA) • University of Tennessee (Knoxville, TN) • Virginia Polytechnic Institute and State University (Blacksburg, VA) • University of Washington (Seattle, WA) dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  25. Project Tulip • Projekt je trajal od 1991 do 1995. • Preverjal je tehnično izvedljivost • omrežne distribucije informacij med inštitucijami z zelo različnimi nivoji razvoja infrastrukture,(omrežna distribucija: pošiljanje informacij po internetu od Elsevier k fakultetam, med fakultetami in od fakultet k uporabnikom), • gradnje primerljivih zbirk z heterogeno opremo, ki je bila na voljo na fakultetah. • Preverjal je organizacijske in ekonomske novosti: • nove oblike naročnin in nove poslovne modele, ki bi nastopili z d-knjižnicami, • ceno informacij, ki izvira iz novih načinov distribucije in rabe. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  26. Project Tulip • Preverjal je nove načine rabe informacij: • pripravljenost uporabnikov za e-dostop, • zadovoljstvo uporabnikov, • načine rabe novih orodij… • Uraden sklep: • Vsi udeleženci projekta Tulip so se veliko naučili, • projekt je prinesel znanje, “potrebno v dolgem prehodu na tehnologijo digitalnih knjižnic. • Neuradno: • Projekt Tulip je bil veliko razočaranje. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  27. Projekt Tulip Podatki v projektu: • Elsevier je razrezal obstoječe številke revij in liste skeniral. • Na skenih so opravili postopke OCR. • Skene in besedila so namestili na strežniku, od koder so jih s FTP črpale fakultete. • Na fakultetah so podatke uredili v zbirke in zgradili iskalnike. • V kampusih so študenti in osebje uporabljali te zbirke za zadovoljevanje realnih informacijskih potreb. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  28. Projekt Tulip • Gradnja d-knjižnic se je izkazala za mnogo težjo in dražjo, kot je bilo pričakovati. Zakaj? • prenos s FTP je bil premalo zanesljiv, in fakultete so dobivale okvarjene podatke, • programska oprema za gradnjo in rabo zbirk je bila premalo zmogljiva celo za nekaj deset revij, • prikaz na zaslonih je bil prepočasen in računalniki dostopni le na nekaj mestih v kampusih, • nabor informacij je bil premajhen – nihče ni mogel zadostiti informacijski potrebi le v d-knjižnici. • Študenti in učitelji so načeloma dobro sprejeli novost, vendar je skoraj niso uporabljali. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  29. Projekt Tulip – dragocena lekcija • Iz rezultatov projekta smo se veliko naučili. • D-knjižnica ne more uspeti, • če ni ustrezne organizacije in osebja, ki je zaposleno prav v ta namen, • če ne poznamo potreb in zahtev uporabnikov, • če ni na voljo ustrezne infrastrukture na vseh nivojih – omrežnem, strežniškem, programskem in odjemalskem (npr dovolj številni Pcji in tiskalniki), • če ni stalnega razvoja, prilagojenega konkretnim potrebam – dokončna d-knjižnica na ključ ne obstaja, • če ne izvajamo agresivne promocije in izobraževanja uporabnikov… dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  30. Projekt Tulip – dragocena lekcija • Brez obsežnih sprememb produkcije revij je razvoj e-revij in gradnja zbirk polnih dokumentov predraga celo za najmočnejše založnike. • Uporabniki raje uporabljajo (l. 1995) velike klasične knjižnice, kot male d-knjižnice. Kritična masa e-oblik informacij je še daleč (l. 1995). • Brezpapirno delovno mesto in brezpapirni študij je utopija. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  31. Projekt Tulip – dragocena lekcija • Zakaj so se d-knjižnice kljub vsemu razvile? • Spletna infrastruktura, ki je kmalu zatem zamenjala dotedanje internetne oblike širjenja in prikazovanja informacij, je bila veliko bolj prilagodljiva. • Razvili in standardizirali so se novi načini oblikovanja dokumentov – označevalni jeziki, ki so omogočali takojšnje tiskanje in spletno postavitev istega dokumenta. • Nadaljeval se je hiter razvoj procesorjev in pomnilniških medijev. • Osebna računalniška oprema je postala standarden spremljevalec v intelektualnem okolju. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  32. Iz poslovnega v akademsko okolje • Rezultati projekta Tulip so verjetno upočasnili razvoj ideje d-knjižnice v poslovnem (založniškem) okolju. • Pobudo je prevzelo akademsko okolje. • Sredi 90-ih so se začeli projekti organiziranja in ponudbe tistih zvrsti dokumentov, pri katerih je zaščita intelektualne lastnine bolj sproščena: • raziskovalna poročila, • magisteriji in doktorati, • predtiski raziskovalnih člankov. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  33. NCSTRL • NCSTRL (http://www.ncstrl.org/):Networked Computer Science Technical Report Library, začetek leta 1995. • Na začetku 40 ameriških univerz z močnimi oddelki za računalništvo, kasneje >100 partnerjev in več kot polovica med njimi ne-ameriških univerz. • Gradnja d-knjižnice tehničnih in raziskovalnih poročil the oddelkov. • Po 20 letih NCSTRL ugasne in podatki se prenesejo drugam. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 33

  34. NCSTRL • Za vzdrževanje zbirk so bile najbolj zainteresirane in zato zadolžene ustanove, kjer so dela nastajala. • Dokumenti na različnih strežnikih so različno organizirani; enoten iskalni in bralni vmesnik lahko te razlike skrije. • Vsaka sodelujoča inštitucija v partnerskem konzorciju naj opravi toliko dela, kot zmore glede na svoje tehnične in kadrovske zmožnosti; ostalo naj prepusti drugim. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 34

  35. NCSTRL • Nauk projekta:Pojem dokument v d-knjižnici zajema različne pojavne oblike: • golo besedilo (za avtomatsko indeksiranje), • HTML (za branje na spletu), • Postscript oz. danes PDF (za branje in tiskanje), • bitna slika (za listanje strani po ikonah ali za predstavitev starejših dokumentov). dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 35

  36. NCSTRL • Iskanje v sistemu je potekalo paralelno. • Iskalec je zastavil iskalno zahtevo na enem strežniku, ki jo je poslal ostalim, zbral rezultate in jih prikazal iskalcu. • Nauk projekta: • Paralelni iskalniki dobro delujejo le pri majhnem številu sodelujočih zbirk. • Paralelni iskalnik deluje tako hitro kot najpočasnejši med strežniki. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  37. NCSTRL Listanje po spletišču NCSTRL. Viden je del seznama dokumentov s Cornell Uni. in del seznama sodelujočih inštitucij, od koder so zadetki iskanja. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b. 37

  38. NCSTRL Iskanje po spletišču NCSTRL. Zelo enostaven iskalnik, ki pa omogoča vzporedno iskanje po zbirkah vseh sodelujočih inštitucij. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  39. NCSTRL Iskanje po spletišču NCSTRL. Rezultati iskanja z iskalno zahtevo “digital libraries”. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  40. Tehnično poročilo s spletišča Univerze Berkeley.Dokument je mogoče priklicati kot sliko v formatih tiff ali gif, kot golo besedilo ali v formatu pdf. NCSTRL dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  41. NCSTRL NCSTRL Tehnično poročilo s spletišča Uni. Berkeley. Prikaz starejšega dokumenta kot serije sličic strani, ki jih je mogoče izbirati. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

  42. NCSTRL NCSTRL Tehnično poročilo s spletišča Uni. Berkeley. Med sličicami strani je bila za prikaz izbrana 4. stran. dr. Jure Dimec. Zbirke celotnih besedil (2009 / 10). Zgodovinski razvoj z. c. b.

More Related