Osztályozási rendszerek, információkereső nyelvek II

Osztályozási rendszerek, információkereső nyelvek II Darányi Sándor SZTE BTK Könyvtártudományi Tanszék

Osztályozás és információkeresés • Elöljáróban: • Az ínformációkeresés felfogható ad hoc osztályozásnak is • A felhasználó pillanatnyi érdeklödése a szurrogátum, az ennek megfelelö találatok osztályát keressük • Ahogy változik az érdeklödés, úgy kerülnek más osztályok elötérbe • Ehhez a WWW a könyvtár

Alkalmazási területek Automatikus indexelés Információkeresés Információ vizualizálás Automatikus osztályozás

Az elöadás tartalma Információkeresés a gyakorlatban Automatikus indexelés Automatikus osztályozás Vektorteres információkeresés A mély web és jelenségei (idöben változó fogalmi térképek)‏ Az információ láttatása

Nem részletezett problémák • Powers of ten(“A tizes hatványai”, video): miröl van szó? Az univerzum mérete 1035 m, az emberi nagyságrend a 100 m, a kvantumfizika 10-8 m körül, a mérhetöség határa 10-17 m, az extrapolációk határa 10-30 m: ott “van/történik” valami. 10-8 m-ig tart a fogalmi, a nyelv, a kommunikáció, de lehet, hogy “alulról” beszüremlenek más hatások abba az idegrendszerbe, amely agyi tevékenységünkért felelös • Mire képes az információelmélet?  IR, IV (vö. Lem, Az Úr hangja, kb 78 old.): “nem keresni kell, hanem kiszürni a feleslegeset” • Mire képes a nyelvábrázolás? Milyen matematikai objektumok mennyit bírnak el? • Mit tesz a szokás? Vö. Beethoven V. szimfónia másképp

1. Információkeresés a gyakorlatban • A könyvtár legfontosabb információ-keresési eszközei • Bibliográfiák • Katalógusok • Indexelö és referáló kiadványok • Adatbázisok • Nyilvántartások • Keresömotorok és webkatalógusok

Bibliográfiák • Hagyományosan a könyvtár legfontosabb keresöeszköze • Az irodalmat leíró listák rendezési elve: • tárgykör • szerzö • nyelv • idötartam (periódus, korszak)‏ • különgyüjtemények • kiadók • dokumentumtípus

Az OSZK adatbázisai (példák)‏ • A MNB adatbázisai • Katalógusok: • NEKTÀR (OSZK online katalógus)‏ • MOKKA (Magyar Országos Közös Katalógus)‏ • Hungarika adatbázisok • AV kötelespéldány • EPA (Elektronikus Periodika Archivum)‏ • IKER (Magyar Idöszaki Kiadványok Repertóriuma)‏ • NPA (Nemzeti Periodika Adatbázis)‏

Az OSZK adatbázisai folyt (példák)‏ • Gyüjtemények: • Törzsgyüjtemény (Könyvek / idöszaki kiadványok)‏ • Különgyüjtemények (kéziratok, kisnyomtatványok, térképek, szinháztörténet, zenemüvek stb.)‏ • Bibliotheca Eruditionis (régi magyarországi nyomtatványok és olvasmányok)‏ • E-Corvinák • Magyar Elektronikus Könyvtár (MEK)‏ • Magyar és Nemzetközi Cikkek (MANCI)‏ • OSZK Digitális Könyvtár (OSZKDK) • Magyar Digitális Képkönyvtár (MDK)

Katalógusok • Két célközönség • Könyvtárosoknak • Olvasóknak • Mi és miért • ”Ismert” mü vagy hivatkozás elöjegyzése • Mije van a könyvtárnak X-röl vagy Y tárgykörben • Irodalomtípusok, müfajok • Merre találom ezt vagy azt

Közös (osztott) katalógusok • Olyan katalógusok, amelyek több könyvtár állományának adatait tartalmazzák. Pl.: • A központi könyvtár és/vagy fiókjai, különgyüjteményei egy rendszerben • Pl. Libris (lényegében a svéd egyetemi és föiskolai könyvtárak közös adatbázisa)‏ • Pl. BURK (közmüvelödési könyvtárak közös katalógusa)‏ • Pl. Bibliotek.se (a Libris és a BURK együtt)‏

Z39.50 szabvány • Z39.50 = szabványos adatátviteli protokoll. Jóvoltából egyszerre lehet keresni több különbözö adatbázisban egyazon képernyöröl, noha különbözö rendszerek vannak a háttérben. Ehhez az adatbázis oldalán az kell, hogy egy szerveren fusson a protokoll, a felhasználó gépén pedig a megfelelö keresöprogram (kliens). • A kliens programok különböznek, ezért azonos eredmény is megjelenhet a képernyön másként, ez a futtatott klienstöl függ • Letölthetö az OSZK honlapjáról

OPAC • Online Public Access Catalogues = kb. nyilvános, közvetlen hozzáférésü katalógusok • Az egyes könyvtárak nyilvántartásai saját anyagukról. Gyakran része egy nagyobb integrált könyvtári programcsomagnak, amelyben van kölcsönzési (helyi és táv-), beszerzési, cirkulációs, statisztikai modul is • Katalógustípusok (példa)‏ • Szerzöi • Tárgy • Idörendi

Indexelö és referáló kiadványok • Típusai: • Tárgyköri, szakterületi • Földrajzi, regionális • Idö szerint korlátozott • Dokumentumtípus szerint korlátozott, stb.

Webes keresöszolgáltatások • Olyan számítógépes programok, amelyek begyüjtik és indexelik a honlapokat • Lehetövé teszik ilyen lapok teljes szövegü keresését • A világháló keresésének manapság ”legbarátságosabb”, legnépszerübb formája (vö. Webcrawler, Altavista, Yahoo, Google stb.).

Webes keresöszolgáltatások folyt • Három külön részböl állnak: • Crawler – egyik oldalról a másikra mászó program, amely az oldalakról továbbmutató linkek mentén halad (vö. pók, csúszómászó)‏ • Indexelö – elemzi a honlapokat, információt csapat ki belölük, amelyet automatikus indexelésre és keresésre használnak • Keresömodul – felhasználói felület, amelynek funkcióival a szolgáltatás indexében keresni lehet

Felhasználói felület • Lehetövé teszi-e specifikus adattípusok keresését, pl. szerzö, cím, dátum, dokumentumtípus, URL, betüszó stb • Milyen keresöszintaxist enged meg a program? Boole-operátorok, szintakitikai operátor, csonkolás stb. • Tartozik-e hozzá egyszerü vagy bonyolult felhasználói interface? • Lehet-e vele keresni különbözö speciális indexekben? • Milyen rangsorolási / rendezési algoritmust használ?

Webkatalógusok (directory) • Ember-alkotta keresöeszköz • A katalogizálás valamilyen formája, hierarchikusan felépítve • A felhasználó akár egy szót kereshet, akár böngészhet (kattinthat) egy ismereti hierarchiában • Sokkal szükebb szakterületre, mint a ”szokásos” keresöszolgáltatások • Ilyen katalógust fenntartani drága és bonyolult • Példák: Infomine és Open Directory Project

Infomine GUI

Open Directory Project GUI

Speciális keresöszolgáltatások • Google Scholar • Google Books • Scirus • Windows Live Academic • Hírek • Térképek • Video, stb.

Google Scholar GUI

Scirus GUI

Metakeresök • Olyan szerver, amely elküldi a keresökérdést egy sor keresögépnek illetve katalógusnak, majd törli a duplumokat és rangsorolja az eredményt • Pl. Dogpile, Metacrawler, Metafind, Mamma Metasearch • Asztali változat: Copernic • Az eredmények többféle módon szemléltethetök • Az eredmény csoportokra bontható, pl. klaszterálással: Yippy (korábban Clusty) • Megj. – metakereséssel mindig csak részleges találati listát kapunk, mivel az algoritmus a közös találati lista elsö 50 vagy 100 tételét fogja csak bemutatni

Dogpile GUI

Metacrawler GUI

Metafind GUI

Metasearch GUI

Információtechnológia • Technika a különbözö adatformátumok begyüjtésére, tárolására, feldolgozására, publikálására és prezentálására • Nem azonos az információtudománnyal • Nem azonos a könyvtártudománnyal • Nem azonos a szakinformatikákkal (könyvtári, régészeti, néprajzi, turisztikai stb.)

Információs rendszer • Az adatkezelés, a.m. begyüjtés, feldolgozás, tárolás és terítés müveleteit végzö rendszer • Manapság a számítógépes információs rendszerbe beleértjük mind a müszaki felszerelést, mind az emberi tevékenységet

Kapcsolat adatbázissal • Képernyö (felhasználói felület, user interface)‏ • Azok a képek és felkínált funkcióik, amelyek lehetövé teszik, hogy számítógépes adatbázisokkal oda-vissza kapcsolatot tartsunk • Így nézhetnek ki: • Szöveg- / parancsalapú • Menüalapú • Formanyomtatvány (kérdöív)‏ • Web interface • Kombinációik

Kapcsolat adatbázissal folyt • Keresönyelv • Az a nyelv vagy parancskészlet, amelyet a géppel való kommunikációra használunk. Lehet pl. kitöltendö kérdöív (egyszerü vagy összetett), vagy a természetes nyelvhez közeli módon teszi fel a kérdést • A webalapú interface értelmezi, mit akarhatott a felhasználó, mit jelenthet a kérdés • Példák: UB könyvtár adatbázisok

Parancsok • Rendesen a következök lehetnek: • A keresés parancsa (Search, Find, keress stb)‏ • Boole- (logikai) -operátorok • Szintaktikai (közelségi) operátorok • Csonkolás • Maszkolás • Mezökeresés (kitüntetett mezök)‏ • Szükítési lehetöségek (idö, nyelv, dok típus, stb)‏

Boole- (logikai) operátorok • NEM • Kutya (ÉS) NEM macska = minden kutyát, egy macskát sem = csak a kutyáról szóló dokumentumok • ÉS • Kutya ÉS macska = csak a mindkettöt tartalmazó dokumentumok (is-is)‏ • VAGY • Kutya VAGY macska = vagy egyiket, vagy a másikat, vagy mindkettöt tartalmazó dokumentumok

A logikai operátorok müveleti sorrendje • Az a sorrend, amelyben az adatbáziskezelö program a keresökérdés operátorait végrehajtja. Független attól, milyen sorrendben írjuk le öket, zárójelezéssel alakítjuk ki a müveleti sorrendet • Mint a matematikában • NEM > ÉS > VAGY • Volvo VAGY Saab ÉS export • (Volvo VAGY Saab) ÉS export

Szintaktikai (közelségi) operátorok • A szavak közti viszonyt fejezik ki: • X ADJ Y – a két szó közvetlenül egymást követi. X ADJn Y n db szót enged meg közöttük. A szavak sorrendje számít. • NEAR – A szavaknak egymáshoz közel kell állniuk, a sorrendjük mellékes. A táv megadható NEARn formában, ld fent. • SAME – A szó ugyanabban a mezöben (adataelemben) szerepeljen, pl. Web of Science

Csonkolás és maszkolás • Csonkolás: teljes szóalak helyett pl a tövére vagy nagyobb darabjaira kérdezünk. Jobbról vagy balról. Pl $kutya  pulikutya, agárkutya, kutya vs kutya$  kutya, kutyakaja, kutyasampon stb. • A maszkolás egy vagy több betüt ill. szót takar ki. Pl g#z#ke  Gizike, gözeke • A csonkolás ill maszkolás jele rendszerenként (host/vendor vs adatbázis) változik: * # ? % &, ld a mindenkori kézikönyvet

Mezökeresés • A rekord adatelemekböl (mezökböl) áll, amelyeket azonosító jelöl • A legtöbb adatbázis elöre meghatározza a kereshetö mezöket és sorrendjüket (akár az egész bibliográfiai tételben, akár a kulcsszavakra szükitve stb)‏ • A kulcsszavak a ”tartalmas” adatelemekböl származnak (cím, referátum, tárgyszó, ill egyre gyakrabban teljes szöveg). • Probléma: zaj – hogyan mérjük a relevanciát? • Információkeresés hatékonyságának mérése a vektormodellnél

A keresökérdés szükítése, bövítése • A keresökérdés a felhasználói probléma szurrogátuma • A keresöprofil ennek lefordítása egy bizonyos rendszer parancsnyelvére • Sok rendszer, sok profil • A legtöbb adatbázisban lehetöség van arra, hogy a keresökérdést szükítsük vagy bövítsük: • Idö szerint: tartamot keresünk, akár évben, akár a részeiben kifejezve • Nyelv szerint • Dokumentumtípus szerint: cikkek, könyvek, konferenciakiadványok stb

Szemantikai problémák a keresési folyamat során • A 60-as évek angol autóira keresek • Az ”angol autók" ÉS 1960-as évek nem dob ki olyan találatokat, amelyekben a fenti kifejezések nem szerepelnek, pl Bentley és 1962. • A Bentley angol márka (hiponimia)‏ • 1962 az 1960-as évek része (meronimia)‏

A keresökérdés szükítése, bövítése folyt • Tartalom és terjedelem fordított aránya: minél kevesebb ismérv írja le a dokumentumot, annál több van belöle az osztályban (adatbázisban)‏ • A bövítéssel nemcsak több találatot, hanem több releváns találatot szeretnénk kapni a keresökérdésre • Hátrány: a több találattal több lesz a zaj is, nemcsak a releváns találatok száma nö • Vagyis a találati halmaz számossága a találatok pontossága rovására nö • Interaktiv bövítés: a felhasználó javaslatot kap a rendszertöl, milyen keresöszavakat (indexkifejezéseket) használjon, ezekböl választ

Keresés és böngészés • Keresés • Precíz kérdés, válaszok a relevancia rangsora szerint • Releváns válaszok korlátozott számban • Kellenek hozzá jól definiált fogalmak (ilyenek pl. az ”egzakt tudományokban” vannak)‏ • Átfogó keresés lehetösége megvan • Böngészés • Új területek megismerésére • Még hiányoznak a szójegyzékböl a megfelelö keresöszavak • Àtfogó keresésre esetlegesen alkalmas • A hiányosan definiált ún ”puha tudományokban”, szakterületeken müködik jól

Keresöstratégiák A problémamegoldás heurisztikus eljárásai rendkívül fontosak az on-line keresésben. Fajtái: • Egyszerü gyorskeresés (briefsearch, quick & dirty)‏ • Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ • Egymásutáni leválogatás (successive facets, successive fractions)‏ • ”Kályha-módszer” (most specific fact)‏ • Páronkénti leválogatás (pairwise facets) • Többszörös egyszerû gyorskeresés (multiple briefsearch) • Hólabdakeresés ([citation] pearl growing)‏ • Pontos megfeleltetés (exact match)‏

Egyszerü gyorskeresés (briefsearch, quick & dirty)‏ • Egyszeri, Boole-operátorokkal végzett rövidre szabott keresés, hogy • elõzetes képet kapjanak az adatbázis rekordjainak a kérdéssel kapcsolatos • jellemzõirõl • A felhasználó által közvetlenül megadott kifejezésekkel vagy azok csonkolt • változataival hajtják végre; az utóbbi esetre akkor kerülhet sor, ha ismerünk • legalább egy témába vágó szerzõt, címet, kiadót stb. • A kapott találati tételekbõl megállapítható számos, az adatbázisban a • vonatkozó témával összefüggésben használt deszkriptor, mellyel a részletes • keresés folytatható • Nem akar többet, mint: • Meghatározott számú tételt • Legalább sejtse, mit hozna a témakeresés (mennyi van, amit nem kap meg)‏ • Ötleteket a további mazsolázáshoz

Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ • (...) 4. A legfontosabb keresõkifejezések vagy összetevõk és a közöttük fennálló logikai ÉS, VAGY, NEM kapcsolatok megállapítása. • 5. a) Az egyes keresõfogalmakat jelölõ keresõkifejezések megállapítása: szavak, szöveges kifejezések, szótöredékek, deszkriptorok, azonosítók, kódok, nem szemantikai jellegû bibliográfiai ismérvek. • 5. b) A mezõ meghatározása, melyben keresni kell. • 6. Minden önálló keresõfogalom (építõkocka, fazetta) részére az építõkockán belül meg kell szerkeszteni az ismérvláncok halmazát. Az egyes építõkockákba összevont keresõkifejezések között a VAGY operátort használjuk. • 7. Az egyes építõkockákat ÉS, NEM (esetleg VAGY) operátorokkal összekapcsoljuk. (...) Forrás: Stephen Harter: Online információkeresés: Fogalmak, elvek és technikák. In: Ungváry Rudolf – Orbán Éva /szerk./: Osztályozás és információkeresés II. (OSzK) Budapest, 341-347.

Keresöfogalmak alkotása (építökocka-technika, building blocks)‏

Keresöfogalmak alkotása (építökocka-technika, building blocks)‏ • Tehát felosztja a keresökérdést alkotóelemeire, utána az egyes kulcsszavakhoz szinonímákat keres, amelyeket zárójelben VAGY-gyal köt össze Példa: ”Azt mondják, az amfetamin terápiásan használható hiperaktív gyerekeknek és fiataloknak nyugtatóul. Van-e erröl tudományos közelemény?”

Amphetamine (1967) [+] • Use For • Amphetamine (dl-) (1973) • Amphetamine Sulfate (1973) • Benzedrine (1973) • Broader Terms • Adrenergic Drugs [+] • Appetite Depressing Drugs [+] • CNS Stimulating Drugs [+] • Dopamine Agonists [+] • Sympathomimetic Amines [+] • Vasoconstrictor Drugs [+] • Narrower Terms • Dextroamphetamine • Methamphetamine • Related Terms • Phenethylamines

Minimal Brain Disorders (1973) Use InsteadAttention Deficit Disorder with Hyperactivity • Attention Deficit Disorder with Hyperactivity (2001) • Use For ADHD (2001) Minimal Brain Disorders (1973) • Broader Terms • Attention Deficit Disorder [+] • Related Terms • Attention Span • Distractibility • Hyperkinesis • Impulsiveness • Mental Disorders [+] • Oppositional Defiant Disorder

PsycINFO: Age Index • adolescence (13-17 yrs) • adulthood (18 yrs & older)‏ • aged (65 yrs & older)‏ • childhood (birth-12 mo) • infancy (2-23 mo) • middle age (40-64 yrs)‏ • neonatal (birth-1 mo) • preschool age (2-5 yrs) • school age (6-12 yrs) • thirties (30-39 yrs)‏ • very old (85 yrs & older)‏ • young adulthood (18-29 yrs)‏

Osztályozási rendszerek, információkereső nyelvek II

Osztályozási rendszerek, információkereső nyelvek II

Presentation Transcript

Limpieza de equipos Inform??tica Norte

Accu-Chek Inform II Blood Glucose Meter

Lou Gehrig The Luckiest Man Genre: Biography Author’s Purpose: Inform Comprehension Skill:Text Structure By: David A.

AHRQ 2011 Annual Conference AHRQ Data Resources to Inform Health Policy Research: The Medical Expenditures Panel Surve

HEALTH

Digitális rendszerek II. rész

Infocommunication systems Infokommunikációs rendszerek 1. előadás

Infocommunication systems Infokommunikációs rendszerek 1. előadás

Programozási nyelvek II.

Gyógyszerügyi informatikai rendszerek

MUNKAJOG

ProQuest ABI/INFORM 经济管理全文数据库 2008 年 10 月

WIC Changes

Mikroprogramozott VLSI áramkörök és intelligens szenzorok, 200 7 .

GAZDASÁGPSZICHOLÓGIA

Műszaki alapismeretek

VIDEOTECHNIKA/bevezetés

Formális nyelvek előadások

Multimédia

ProQuest Next

Operációs Rendszerek

CONCERT 2008