1 / 129

Osztályozási rendszerek, információkereső nyelvek II

Osztályozási rendszerek, információkereső nyelvek II. Darányi Sándor SZTE BTK Könyvtártudományi Tanszék. Osztályozás és információkeresés. Elöljáróban: Az ínformációkeresés felfogható ad hoc osztályozásnak is

marcin
Download Presentation

Osztályozási rendszerek, információkereső nyelvek II

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Osztályozási rendszerek, információkereső nyelvek II Darányi Sándor SZTE BTK Könyvtártudományi Tanszék

  2. Osztályozás és információkeresés • Elöljáróban: • Az ínformációkeresés felfogható ad hoc osztályozásnak is • A felhasználó pillanatnyi érdeklödése a szurrogátum, az ennek megfelelö találatok osztályát keressük • Ahogy változik az érdeklödés, úgy kerülnek más osztályok elötérbe • Ehhez a WWW a könyvtár

  3. Alkalmazási területek Automatikus indexelés Információkeresés Információ vizualizálás Automatikus osztályozás

  4. Az elöadás tartalma Információkeresés a gyakorlatban Automatikus indexelés Automatikus osztályozás Vektorteres információkeresés A mély web és jelenségei (idöben változó fogalmi térképek)‏ Az információ láttatása

  5. Nem részletezett problémák • Powers of ten(“A tizes hatványai”, video): miröl van szó? Az univerzum mérete 1035 m, az emberi nagyságrend a 100 m, a kvantumfizika 10-8 m körül, a mérhetöség határa 10-17 m, az extrapolációk határa 10-30 m: ott “van/történik” valami. 10-8 m-ig tart a fogalmi, a nyelv, a kommunikáció, de lehet, hogy “alulról” beszüremlenek más hatások abba az idegrendszerbe, amely agyi tevékenységünkért felelös • Mire képes az információelmélet?  IR, IV (vö. Lem, Az Úr hangja, kb 78 old.): “nem keresni kell, hanem kiszürni a feleslegeset” • Mire képes a nyelvábrázolás? Milyen matematikai objektumok mennyit bírnak el? • Mit tesz a szokás? Vö. Beethoven V. szimfónia másképp

  6. 1. Információkeresés a gyakorlatban • A könyvtár legfontosabb információ-keresési eszközei • Bibliográfiák • Katalógusok • Indexelö és referáló kiadványok • Adatbázisok • Nyilvántartások • Keresömotorok és webkatalógusok

  7. Bibliográfiák • Hagyományosan a könyvtár legfontosabb keresöeszköze • Az irodalmat leíró listák rendezési elve: • tárgykör • szerzö • nyelv • idötartam (periódus, korszak)‏ • különgyüjtemények • kiadók • dokumentumtípus

  8. Az OSZK adatbázisai (példák)‏ • A MNB adatbázisai • Katalógusok: • NEKTÀR (OSZK online katalógus)‏ • MOKKA (Magyar Országos Közös Katalógus)‏ • Hungarika adatbázisok • AV kötelespéldány • EPA (Elektronikus Periodika Archivum)‏ • IKER (Magyar Idöszaki Kiadványok Repertóriuma)‏ • NPA (Nemzeti Periodika Adatbázis)‏

  9. Az OSZK adatbázisai folyt (példák)‏ • Gyüjtemények: • Törzsgyüjtemény (Könyvek / idöszaki kiadványok)‏ • Különgyüjtemények (kéziratok, kisnyomtatványok, térképek, szinháztörténet, zenemüvek stb.)‏ • Bibliotheca Eruditionis (régi magyarországi nyomtatványok és olvasmányok)‏ • E-Corvinák • Magyar Elektronikus Könyvtár (MEK)‏ • Magyar és Nemzetközi Cikkek (MANCI)‏ • OSZK Digitális Könyvtár (OSZKDK) • Magyar Digitális Képkönyvtár (MDK)

  10. Katalógusok • Két célközönség • Könyvtárosoknak • Olvasóknak • Mi és miért • ”Ismert” mü vagy hivatkozás elöjegyzése • Mije van a könyvtárnak X-röl vagy Y tárgykörben • Irodalomtípusok, müfajok • Merre találom ezt vagy azt

  11. Közös (osztott) katalógusok • Olyan katalógusok, amelyek több könyvtár állományának adatait tartalmazzák. Pl.: • A központi könyvtár és/vagy fiókjai, különgyüjteményei egy rendszerben • Pl. Libris (lényegében a svéd egyetemi és föiskolai könyvtárak közös adatbázisa)‏ • Pl. BURK (közmüvelödési könyvtárak közös katalógusa)‏ • Pl. Bibliotek.se (a Libris és a BURK együtt)‏

  12. Z39.50 szabvány • Z39.50 = szabványos adatátviteli protokoll. Jóvoltából egyszerre lehet keresni több különbözö adatbázisban egyazon képernyöröl, noha különbözö rendszerek vannak a háttérben. Ehhez az adatbázis oldalán az kell, hogy egy szerveren fusson a protokoll, a felhasználó gépén pedig a megfelelö keresöprogram (kliens). • A kliens programok különböznek, ezért azonos eredmény is megjelenhet a képernyön másként, ez a futtatott klienstöl függ • Letölthetö az OSZK honlapjáról

  13. OPAC • Online Public Access Catalogues = kb. nyilvános, közvetlen hozzáférésü katalógusok • Az egyes könyvtárak nyilvántartásai saját anyagukról. Gyakran része egy nagyobb integrált könyvtári programcsomagnak, amelyben van kölcsönzési (helyi és táv-), beszerzési, cirkulációs, statisztikai modul is • Katalógustípusok (példa)‏ • Szerzöi • Tárgy • Idörendi

  14. Indexelö és referáló kiadványok • Típusai: • Tárgyköri, szakterületi • Földrajzi, regionális • Idö szerint korlátozott • Dokumentumtípus szerint korlátozott, stb.

  15. Webes keresöszolgáltatások • Olyan számítógépes programok, amelyek begyüjtik és indexelik a honlapokat • Lehetövé teszik ilyen lapok teljes szövegü keresését • A világháló keresésének manapság ”legbarátságosabb”, legnépszerübb formája (vö. Webcrawler, Altavista, Yahoo, Google stb.).

  16. Webes keresöszolgáltatások folyt • Három külön részböl állnak: • Crawler – egyik oldalról a másikra mászó program, amely az oldalakról továbbmutató linkek mentén halad (vö. pók, csúszómászó)‏ • Indexelö – elemzi a honlapokat, információt csapat ki belölük, amelyet automatikus indexelésre és keresésre használnak • Keresömodul – felhasználói felület, amelynek funkcióival a szolgáltatás indexében keresni lehet

  17. Felhasználói felület • Lehetövé teszi-e specifikus adattípusok keresését, pl. szerzö, cím, dátum, dokumentumtípus, URL, betüszó stb • Milyen keresöszintaxist enged meg a program? Boole-operátorok, szintakitikai operátor, csonkolás stb. • Tartozik-e hozzá egyszerü vagy bonyolult felhasználói interface? • Lehet-e vele keresni különbözö speciális indexekben? • Milyen rangsorolási / rendezési algoritmust használ?

  18. Webkatalógusok (directory) • Ember-alkotta keresöeszköz • A katalogizálás valamilyen formája, hierarchikusan felépítve • A felhasználó akár egy szót kereshet, akár böngészhet (kattinthat) egy ismereti hierarchiában • Sokkal szükebb szakterületre, mint a ”szokásos” keresöszolgáltatások • Ilyen katalógust fenntartani drága és bonyolult • Példák: Infomine és Open Directory Project

  19. Infomine GUI

  20. Open Directory Project GUI

  21. Speciális keresöszolgáltatások • Google Scholar • Google Books • Scirus • Windows Live Academic • Hírek • Térképek • Video, stb.

  22. Google Scholar GUI

  23. Scirus GUI

  24. Metakeresök • Olyan szerver, amely elküldi a keresökérdést egy sor keresögépnek illetve katalógusnak, majd törli a duplumokat és rangsorolja az eredményt • Pl. Dogpile, Metacrawler, Metafind, Mamma Metasearch • Asztali változat: Copernic • Az eredmények többféle módon szemléltethetök • Az eredmény csoportokra bontható, pl. klaszterálással: Yippy (korábban Clusty) • Megj. – metakereséssel mindig csak részleges találati listát kapunk, mivel az algoritmus a közös találati lista elsö 50 vagy 100 tételét fogja csak bemutatni

  25. Dogpile GUI

  26. Metacrawler GUI

  27. Metafind GUI

  28. Metasearch GUI

  29. Információtechnológia • Technika a különbözö adatformátumok begyüjtésére, tárolására, feldolgozására, publikálására és prezentálására • Nem azonos az információtudománnyal • Nem azonos a könyvtártudománnyal • Nem azonos a szakinformatikákkal (könyvtári, régészeti, néprajzi, turisztikai stb.)

  30. Információs rendszer • Az adatkezelés, a.m. begyüjtés, feldolgozás, tárolás és terítés müveleteit végzö rendszer • Manapság a számítógépes információs rendszerbe beleértjük mind a müszaki felszerelést, mind az emberi tevékenységet

  31. Kapcsolat adatbázissal • Képernyö (felhasználói felület, user interface)‏ • Azok a képek és felkínált funkcióik, amelyek lehetövé teszik, hogy számítógépes adatbázisokkal oda-vissza kapcsolatot tartsunk • Így nézhetnek ki: • Szöveg- / parancsalapú • Menüalapú • Formanyomtatvány (kérdöív)‏ • Web interface • Kombinációik

  32. Kapcsolat adatbázissal folyt • Keresönyelv • Az a nyelv vagy parancskészlet, amelyet a géppel való kommunikációra használunk. Lehet pl. kitöltendö kérdöív (egyszerü vagy összetett), vagy a természetes nyelvhez közeli módon teszi fel a kérdést • A webalapú interface értelmezi, mit akarhatott a felhasználó, mit jelenthet a kérdés • Példák: UB könyvtár adatbázisok

  33. Parancsok • Rendesen a következök lehetnek: • A keresés parancsa (Search, Find, keress stb)‏ • Boole- (logikai) -operátorok • Szintaktikai (közelségi) operátorok • Csonkolás • Maszkolás • Mezökeresés (kitüntetett mezök)‏ • Szükítési lehetöségek (idö, nyelv, dok típus, stb)‏

  34. Boole- (logikai) operátorok • NEM • Kutya (ÉS) NEM macska = minden kutyát, egy macskát sem = csak a kutyáról szóló dokumentumok • ÉS • Kutya ÉS macska = csak a mindkettöt tartalmazó dokumentumok (is-is)‏ • VAGY • Kutya VAGY macska = vagy egyiket, vagy a másikat, vagy mindkettöt tartalmazó dokumentumok

  35. A logikai operátorok müveleti sorrendje • Az a sorrend, amelyben az adatbáziskezelö program a keresökérdés operátorait végrehajtja. Független attól, milyen sorrendben írjuk le öket, zárójelezéssel alakítjuk ki a müveleti sorrendet • Mint a matematikában • NEM > ÉS > VAGY • Volvo VAGY Saab ÉS export • (Volvo VAGY Saab) ÉS export

  36. Szintaktikai (közelségi) operátorok • A szavak közti viszonyt fejezik ki: • X ADJ Y – a két szó közvetlenül egymást követi. X ADJn Y n db szót enged meg közöttük. A szavak sorrendje számít. • NEAR – A szavaknak egymáshoz közel kell állniuk, a sorrendjük mellékes. A táv megadható NEARn formában, ld fent. • SAME – A szó ugyanabban a mezöben (adataelemben) szerepeljen, pl. Web of Science

  37. Csonkolás és maszkolás • Csonkolás: teljes szóalak helyett pl a tövére vagy nagyobb darabjaira kérdezünk. Jobbról vagy balról. Pl $kutya  pulikutya, agárkutya, kutya vs kutya$  kutya, kutyakaja, kutyasampon stb. • A maszkolás egy vagy több betüt ill. szót takar ki. Pl g#z#ke  Gizike, gözeke • A csonkolás ill maszkolás jele rendszerenként (host/vendor vs adatbázis) változik: * # ? % &, ld a mindenkori kézikönyvet

  38. Mezökeresés • A rekord adatelemekböl (mezökböl) áll, amelyeket azonosító jelöl • A legtöbb adatbázis elöre meghatározza a kereshetö mezöket és sorrendjüket (akár az egész bibliográfiai tételben, akár a kulcsszavakra szükitve stb)‏ • A kulcsszavak a ”tartalmas” adatelemekböl származnak (cím, referátum, tárgyszó, ill egyre gyakrabban teljes szöveg). • Probléma: zaj – hogyan mérjük a relevanciát? • Információkeresés hatékonyságának mérése a vektormodellnél

  39. A keresökérdés szükítése, bövítése • A keresökérdés a felhasználói probléma szurrogátuma • A keresöprofil ennek lefordítása egy bizonyos rendszer parancsnyelvére • Sok rendszer, sok profil • A legtöbb adatbázisban lehetöség van arra, hogy a keresökérdést szükítsük vagy bövítsük: • Idö szerint: tartamot keresünk, akár évben, akár a részeiben kifejezve • Nyelv szerint • Dokumentumtípus szerint: cikkek, könyvek, konferenciakiadványok stb

  40. Szemantikai problémák a keresési folyamat során • A 60-as évek angol autóira keresek • Az ”angol autók" ÉS 1960-as évek nem dob ki olyan találatokat, amelyekben a fenti kifejezések nem szerepelnek, pl Bentley és 1962. • A Bentley angol márka (hiponimia)‏ • 1962 az 1960-as évek része (meronimia)‏

  41. A keresökérdés szükítése, bövítése folyt • Tartalom és terjedelem fordított aránya: minél kevesebb ismérv írja le a dokumentumot, annál több van belöle az osztályban (adatbázisban)‏ • A bövítéssel nemcsak több találatot, hanem több releváns találatot szeretnénk kapni a keresökérdésre • Hátrány: a több találattal több lesz a zaj is, nemcsak a releváns találatok száma nö • Vagyis a találati halmaz számossága a találatok pontossága rovására nö • Interaktiv bövítés: a felhasználó javaslatot kap a rendszertöl, milyen keresöszavakat (indexkifejezéseket) használjon, ezekböl választ

  42. Keresés és böngészés • Keresés • Precíz kérdés, válaszok a relevancia rangsora szerint • Releváns válaszok korlátozott számban • Kellenek hozzá jól definiált fogalmak (ilyenek pl. az ”egzakt tudományokban” vannak)‏ • Átfogó keresés lehetösége megvan • Böngészés • Új területek megismerésére • Még hiányoznak a szójegyzékböl a megfelelö keresöszavak • Àtfogó keresésre esetlegesen alkalmas • A hiányosan definiált ún ”puha tudományokban”, szakterületeken müködik jól

  43. Keresöstratégiák A problémamegoldás heurisztikus eljárásai rendkívül fontosak az on-line keresésben. Fajtái: • Egyszerü gyorskeresés (briefsearch, quick & dirty)‏ • Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ • Egymásutáni leválogatás (successive facets, successive fractions)‏ • ”Kályha-módszer” (most specific fact)‏ • Páronkénti leválogatás (pairwise facets) • Többszörös egyszerû gyorskeresés (multiple briefsearch) • Hólabdakeresés ([citation] pearl growing)‏ • Pontos megfeleltetés (exact match)‏

  44. Egyszerü gyorskeresés (briefsearch, quick & dirty)‏ • Egyszeri, Boole-operátorokkal végzett rövidre szabott keresés, hogy • elõzetes képet kapjanak az adatbázis rekordjainak a kérdéssel kapcsolatos • jellemzõirõl • A felhasználó által közvetlenül megadott kifejezésekkel vagy azok csonkolt • változataival hajtják végre; az utóbbi esetre akkor kerülhet sor, ha ismerünk • legalább egy témába vágó szerzõt, címet, kiadót stb. • A kapott találati tételekbõl megállapítható számos, az adatbázisban a • vonatkozó témával összefüggésben használt deszkriptor, mellyel a részletes • keresés folytatható • Nem akar többet, mint: • Meghatározott számú tételt • Legalább sejtse, mit hozna a témakeresés (mennyi van, amit nem kap meg)‏ • Ötleteket a további mazsolázáshoz

  45. Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ • (...) 4. A legfontosabb keresõkifejezések vagy összetevõk és a közöttük fennálló logikai ÉS, VAGY, NEM kapcsolatok megállapítása. • 5. a) Az egyes keresõfogalmakat jelölõ keresõkifejezések megállapítása: szavak, szöveges kifejezések, szótöredékek, deszkriptorok, azonosítók, kódok, nem szemantikai jellegû bibliográfiai ismérvek. • 5. b) A mezõ meghatározása, melyben keresni kell. • 6. Minden önálló keresõfogalom (építõkocka, fazetta) részére az építõkockán belül meg kell szerkeszteni az ismérvláncok halmazát. Az egyes építõkockákba összevont keresõkifejezések között a VAGY operátort használjuk. • 7. Az egyes építõkockákat ÉS, NEM (esetleg VAGY) operátorokkal összekapcsoljuk. (...) Forrás: Stephen Harter: Online információkeresés: Fogalmak, elvek és technikák. In: Ungváry Rudolf – Orbán Éva /szerk./: Osztályozás és információkeresés II. (OSzK) Budapest, 341-347.

  46. Keresöfogalmak alkotása (építökocka-technika, building blocks)‏

  47. Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ • Tehát felosztja a keresökérdést alkotóelemeire, utána az egyes kulcsszavakhoz szinonímákat keres, amelyeket zárójelben VAGY-gyal köt össze Példa: ”Azt mondják, az amfetamin terápiásan használható hiperaktív gyerekeknek és fiataloknak nyugtatóul. Van-e erröl tudományos közelemény?”

  48. Amphetamine (1967) [+] • Use For • Amphetamine (dl-) (1973) • Amphetamine Sulfate (1973) • Benzedrine (1973) • Broader Terms • Adrenergic Drugs [+] • Appetite Depressing Drugs [+] • CNS Stimulating Drugs [+] • Dopamine Agonists [+] • Sympathomimetic Amines [+] • Vasoconstrictor Drugs [+] • Narrower Terms • Dextroamphetamine • Methamphetamine • Related Terms • Phenethylamines

  49. Minimal Brain Disorders (1973) Use InsteadAttention Deficit Disorder with Hyperactivity • Attention Deficit Disorder with Hyperactivity (2001) • Use For ADHD (2001) Minimal Brain Disorders (1973) • Broader Terms • Attention Deficit Disorder [+] • Related Terms • Attention Span • Distractibility • Hyperkinesis • Impulsiveness • Mental Disorders [+] • Oppositional Defiant Disorder

  50. PsycINFO: Age Index • adolescence (13-17 yrs) • adulthood (18 yrs & older)‏ • aged (65 yrs & older)‏ • childhood (birth-12 mo) • infancy (2-23 mo) • middle age (40-64 yrs)‏ • neonatal (birth-1 mo) • preschool age (2-5 yrs) • school age (6-12 yrs) • thirties (30-39 yrs)‏ • very old (85 yrs & older)‏ • young adulthood (18-29 yrs)‏

More Related