slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Osztályozási rendszerek, információkereső nyelvek II PowerPoint Presentation
Download Presentation
Osztályozási rendszerek, információkereső nyelvek II

Loading in 2 Seconds...

play fullscreen
1 / 129

Osztályozási rendszerek, információkereső nyelvek II - PowerPoint PPT Presentation


  • 67 Views
  • Uploaded on

Osztályozási rendszerek, információkereső nyelvek II. Darányi Sándor SZTE BTK Könyvtártudományi Tanszék. Osztályozás és információkeresés. Elöljáróban: Az ínformációkeresés felfogható ad hoc osztályozásnak is

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Osztályozási rendszerek, információkereső nyelvek II' - marcin


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Osztályozási rendszerek, információkereső nyelvek II

Darányi Sándor

SZTE BTK Könyvtártudományi Tanszék

oszt lyoz s s inform ci keres s
Osztályozás és információkeresés
  • Elöljáróban:
    • Az ínformációkeresés felfogható ad hoc osztályozásnak is
    • A felhasználó pillanatnyi érdeklödése a szurrogátum, az ennek megfelelö találatok osztályát keressük
    • Ahogy változik az érdeklödés, úgy kerülnek más osztályok elötérbe
    • Ehhez a WWW a könyvtár
slide3

Alkalmazási területek

Automatikus indexelés

Információkeresés

Információ vizualizálás

Automatikus osztályozás

slide4

Az elöadás tartalma

Információkeresés a gyakorlatban

Automatikus indexelés

Automatikus osztályozás

Vektorteres információkeresés

A mély web és jelenségei (idöben változó fogalmi térképek)‏

Az információ láttatása

slide5

Nem részletezett problémák

  • Powers of ten(“A tizes hatványai”, video): miröl van szó? Az univerzum mérete 1035 m, az emberi nagyságrend a 100 m, a kvantumfizika 10-8 m körül, a mérhetöség határa 10-17 m, az extrapolációk határa 10-30 m: ott “van/történik” valami. 10-8 m-ig tart a fogalmi, a nyelv, a kommunikáció, de lehet, hogy “alulról” beszüremlenek más hatások abba az idegrendszerbe, amely agyi tevékenységünkért felelös
  • Mire képes az információelmélet?  IR, IV (vö. Lem, Az Úr hangja, kb 78 old.): “nem keresni kell, hanem kiszürni a feleslegeset”
  • Mire képes a nyelvábrázolás? Milyen matematikai objektumok mennyit bírnak el?
  • Mit tesz a szokás? Vö. Beethoven V. szimfónia másképp
slide6

1. Információkeresés a gyakorlatban

  • A könyvtár legfontosabb információ-keresési eszközei
    • Bibliográfiák
    • Katalógusok
    • Indexelö és referáló kiadványok
    • Adatbázisok
    • Nyilvántartások
    • Keresömotorok és webkatalógusok
slide7

Bibliográfiák

  • Hagyományosan a könyvtár legfontosabb keresöeszköze
  • Az irodalmat leíró listák rendezési elve:
    • tárgykör
    • szerzö
    • nyelv
    • idötartam (periódus, korszak)‏
    • különgyüjtemények
    • kiadók
    • dokumentumtípus
slide8

Az OSZK adatbázisai (példák)‏

  • A MNB adatbázisai
  • Katalógusok:
    • NEKTÀR (OSZK online katalógus)‏
    • MOKKA (Magyar Országos Közös Katalógus)‏
    • Hungarika adatbázisok
    • AV kötelespéldány
    • EPA (Elektronikus Periodika Archivum)‏
    • IKER (Magyar Idöszaki Kiadványok Repertóriuma)‏
    • NPA (Nemzeti Periodika Adatbázis)‏
slide9

Az OSZK adatbázisai folyt (példák)‏

  • Gyüjtemények:
    • Törzsgyüjtemény (Könyvek / idöszaki kiadványok)‏
    • Különgyüjtemények (kéziratok, kisnyomtatványok, térképek, szinháztörténet, zenemüvek stb.)‏
    • Bibliotheca Eruditionis (régi magyarországi nyomtatványok és olvasmányok)‏
    • E-Corvinák
    • Magyar Elektronikus Könyvtár (MEK)‏
    • Magyar és Nemzetközi Cikkek (MANCI)‏
    • OSZK Digitális Könyvtár (OSZKDK)
    • Magyar Digitális Képkönyvtár (MDK)
slide10

Katalógusok

  • Két célközönség
    • Könyvtárosoknak
    • Olvasóknak
  • Mi és miért
    • ”Ismert” mü vagy hivatkozás elöjegyzése
    • Mije van a könyvtárnak X-röl vagy Y tárgykörben
    • Irodalomtípusok, müfajok
    • Merre találom ezt vagy azt
slide11

Közös (osztott) katalógusok

  • Olyan katalógusok, amelyek több könyvtár állományának adatait tartalmazzák. Pl.:
    • A központi könyvtár és/vagy fiókjai, különgyüjteményei egy rendszerben
    • Pl. Libris (lényegében a svéd egyetemi és föiskolai könyvtárak közös adatbázisa)‏
    • Pl. BURK (közmüvelödési könyvtárak közös katalógusa)‏
    • Pl. Bibliotek.se (a Libris és a BURK együtt)‏
slide12

Z39.50 szabvány

  • Z39.50 = szabványos adatátviteli protokoll. Jóvoltából egyszerre lehet keresni több különbözö adatbázisban egyazon képernyöröl, noha különbözö rendszerek vannak a háttérben. Ehhez az adatbázis oldalán az kell, hogy egy szerveren fusson a protokoll, a felhasználó gépén pedig a megfelelö keresöprogram (kliens).
  • A kliens programok különböznek, ezért azonos eredmény is megjelenhet a képernyön másként, ez a futtatott klienstöl függ
  • Letölthetö az OSZK honlapjáról
slide13

OPAC

  • Online Public Access Catalogues = kb. nyilvános, közvetlen hozzáférésü katalógusok
    • Az egyes könyvtárak nyilvántartásai saját anyagukról. Gyakran része egy nagyobb integrált könyvtári programcsomagnak, amelyben van kölcsönzési (helyi és táv-), beszerzési, cirkulációs, statisztikai modul is
  • Katalógustípusok (példa)‏
    • Szerzöi
    • Tárgy
    • Idörendi
slide14

Indexelö és referáló kiadványok

  • Típusai:
    • Tárgyköri, szakterületi
    • Földrajzi, regionális
    • Idö szerint korlátozott
    • Dokumentumtípus szerint korlátozott, stb.
slide15

Webes keresöszolgáltatások

  • Olyan számítógépes programok, amelyek begyüjtik és indexelik a honlapokat
  • Lehetövé teszik ilyen lapok teljes szövegü keresését
  • A világháló keresésének manapság ”legbarátságosabb”, legnépszerübb formája (vö. Webcrawler, Altavista, Yahoo, Google stb.).
slide16

Webes keresöszolgáltatások folyt

  • Három külön részböl állnak:
    • Crawler – egyik oldalról a másikra mászó program, amely az oldalakról továbbmutató linkek mentén halad (vö. pók, csúszómászó)‏
    • Indexelö – elemzi a honlapokat, információt csapat ki belölük, amelyet automatikus indexelésre és keresésre használnak
    • Keresömodul – felhasználói felület, amelynek funkcióival a szolgáltatás indexében keresni lehet
slide17

Felhasználói felület

  • Lehetövé teszi-e specifikus adattípusok keresését, pl. szerzö, cím, dátum, dokumentumtípus, URL, betüszó stb
  • Milyen keresöszintaxist enged meg a program? Boole-operátorok, szintakitikai operátor, csonkolás stb.
  • Tartozik-e hozzá egyszerü vagy bonyolult felhasználói interface?
  • Lehet-e vele keresni különbözö speciális indexekben?
  • Milyen rangsorolási / rendezési algoritmust használ?
slide18

Webkatalógusok (directory)

  • Ember-alkotta keresöeszköz
  • A katalogizálás valamilyen formája, hierarchikusan felépítve
  • A felhasználó akár egy szót kereshet, akár böngészhet (kattinthat) egy ismereti hierarchiában
  • Sokkal szükebb szakterületre, mint a ”szokásos” keresöszolgáltatások
  • Ilyen katalógust fenntartani drága és bonyolult
  • Példák: Infomine és Open Directory Project
slide21

Speciális keresöszolgáltatások

  • Google Scholar
  • Google Books
  • Scirus
  • Windows Live Academic
  • Hírek
  • Térképek
  • Video, stb.
slide24

Metakeresök

  • Olyan szerver, amely elküldi a keresökérdést egy sor keresögépnek illetve katalógusnak, majd törli a duplumokat és rangsorolja az eredményt
  • Pl. Dogpile, Metacrawler, Metafind, Mamma Metasearch
  • Asztali változat: Copernic
  • Az eredmények többféle módon szemléltethetök
  • Az eredmény csoportokra bontható, pl. klaszterálással: Yippy (korábban Clusty)
  • Megj. – metakereséssel mindig csak részleges találati listát kapunk, mivel az algoritmus a közös találati lista elsö 50 vagy 100 tételét fogja csak bemutatni
slide29

Információtechnológia

  • Technika a különbözö adatformátumok begyüjtésére, tárolására, feldolgozására, publikálására és prezentálására
  • Nem azonos az információtudománnyal
  • Nem azonos a könyvtártudománnyal
  • Nem azonos a szakinformatikákkal (könyvtári, régészeti, néprajzi, turisztikai stb.)
slide30

Információs rendszer

  • Az adatkezelés, a.m. begyüjtés, feldolgozás, tárolás és terítés müveleteit végzö rendszer
  • Manapság a számítógépes információs rendszerbe beleértjük mind a müszaki felszerelést, mind az emberi tevékenységet
slide31

Kapcsolat adatbázissal

  • Képernyö (felhasználói felület, user interface)‏
    • Azok a képek és felkínált funkcióik, amelyek lehetövé teszik, hogy számítógépes adatbázisokkal oda-vissza kapcsolatot tartsunk
    • Így nézhetnek ki:
      • Szöveg- / parancsalapú
      • Menüalapú
      • Formanyomtatvány (kérdöív)‏
      • Web interface
      • Kombinációik
slide32

Kapcsolat adatbázissal folyt

  • Keresönyelv
    • Az a nyelv vagy parancskészlet, amelyet a géppel való kommunikációra használunk. Lehet pl. kitöltendö kérdöív (egyszerü vagy összetett), vagy a természetes nyelvhez közeli módon teszi fel a kérdést
    • A webalapú interface értelmezi, mit akarhatott a felhasználó, mit jelenthet a kérdés
    • Példák: UB könyvtár adatbázisok
slide33

Parancsok

  • Rendesen a következök lehetnek:
    • A keresés parancsa (Search, Find, keress stb)‏
    • Boole- (logikai) -operátorok
    • Szintaktikai (közelségi) operátorok
    • Csonkolás
    • Maszkolás
    • Mezökeresés (kitüntetett mezök)‏
    • Szükítési lehetöségek (idö, nyelv, dok típus, stb)‏
slide34

Boole- (logikai) operátorok

  • NEM
    • Kutya (ÉS) NEM macska = minden kutyát, egy macskát sem = csak a kutyáról szóló dokumentumok
  • ÉS
    • Kutya ÉS macska = csak a mindkettöt tartalmazó dokumentumok (is-is)‏
  • VAGY
    • Kutya VAGY macska = vagy egyiket, vagy a másikat, vagy mindkettöt tartalmazó dokumentumok
slide35

A logikai operátorok müveleti sorrendje

  • Az a sorrend, amelyben az adatbáziskezelö program a keresökérdés operátorait végrehajtja. Független attól, milyen sorrendben írjuk le öket, zárójelezéssel alakítjuk ki a müveleti sorrendet
  • Mint a matematikában
  • NEM > ÉS > VAGY
    • Volvo VAGY Saab ÉS export
    • (Volvo VAGY Saab) ÉS export
slide36

Szintaktikai (közelségi) operátorok

  • A szavak közti viszonyt fejezik ki:
    • X ADJ Y – a két szó közvetlenül egymást követi. X ADJn Y n db szót enged meg közöttük. A szavak sorrendje számít.
    • NEAR – A szavaknak egymáshoz közel kell állniuk, a sorrendjük mellékes. A táv megadható NEARn formában, ld fent.
    • SAME – A szó ugyanabban a mezöben (adataelemben) szerepeljen, pl. Web of Science
slide37

Csonkolás és maszkolás

  • Csonkolás: teljes szóalak helyett pl a tövére vagy nagyobb darabjaira kérdezünk. Jobbról vagy balról. Pl $kutya  pulikutya, agárkutya, kutya vs kutya$  kutya, kutyakaja, kutyasampon stb.
  • A maszkolás egy vagy több betüt ill. szót takar ki. Pl g#z#ke  Gizike, gözeke
  • A csonkolás ill maszkolás jele rendszerenként (host/vendor vs adatbázis) változik: * # ? % &, ld a mindenkori kézikönyvet
slide38

Mezökeresés

  • A rekord adatelemekböl (mezökböl) áll, amelyeket azonosító jelöl
  • A legtöbb adatbázis elöre meghatározza a kereshetö mezöket és sorrendjüket (akár az egész bibliográfiai tételben, akár a kulcsszavakra szükitve stb)‏
  • A kulcsszavak a ”tartalmas” adatelemekböl származnak (cím, referátum, tárgyszó, ill egyre gyakrabban teljes szöveg).
  • Probléma: zaj – hogyan mérjük a relevanciát?
  • Információkeresés hatékonyságának mérése a vektormodellnél
slide39

A keresökérdés szükítése, bövítése

  • A keresökérdés a felhasználói probléma szurrogátuma
  • A keresöprofil ennek lefordítása egy bizonyos rendszer parancsnyelvére
    • Sok rendszer, sok profil
  • A legtöbb adatbázisban lehetöség van arra, hogy a keresökérdést szükítsük vagy bövítsük:
    • Idö szerint: tartamot keresünk, akár évben, akár a részeiben kifejezve
    • Nyelv szerint
    • Dokumentumtípus szerint: cikkek, könyvek, konferenciakiadványok stb
slide40

Szemantikai problémák a keresési folyamat során

  • A 60-as évek angol autóira keresek
  • Az ”angol autók" ÉS 1960-as évek nem dob ki olyan találatokat, amelyekben a fenti kifejezések nem szerepelnek, pl Bentley és 1962.
  • A Bentley angol márka (hiponimia)‏
  • 1962 az 1960-as évek része (meronimia)‏
slide41

A keresökérdés szükítése, bövítése folyt

  • Tartalom és terjedelem fordított aránya: minél kevesebb ismérv írja le a dokumentumot, annál több van belöle az osztályban (adatbázisban)‏
  • A bövítéssel nemcsak több találatot, hanem több releváns találatot szeretnénk kapni a keresökérdésre
  • Hátrány: a több találattal több lesz a zaj is, nemcsak a releváns találatok száma nö
  • Vagyis a találati halmaz számossága a találatok pontossága rovására nö
  • Interaktiv bövítés: a felhasználó javaslatot kap a rendszertöl, milyen keresöszavakat (indexkifejezéseket) használjon, ezekböl választ
slide42

Keresés és böngészés

  • Keresés
  • Precíz kérdés, válaszok a relevancia rangsora szerint
  • Releváns válaszok korlátozott számban
  • Kellenek hozzá jól definiált fogalmak (ilyenek pl. az ”egzakt tudományokban” vannak)‏
  • Átfogó keresés lehetösége megvan
  • Böngészés
  • Új területek megismerésére
  • Még hiányoznak a szójegyzékböl a megfelelö keresöszavak
  • Àtfogó keresésre esetlegesen alkalmas
  • A hiányosan definiált ún ”puha tudományokban”, szakterületeken müködik jól
slide43

Keresöstratégiák

A problémamegoldás heurisztikus eljárásai rendkívül fontosak az on-line

keresésben. Fajtái:

  • Egyszerü gyorskeresés (briefsearch, quick & dirty)‏
  • Keresöfogalmak alkotása (építökocka-technika, building blocks)‏
  • Egymásutáni leválogatás (successive facets, successive fractions)‏
  • ”Kályha-módszer” (most specific fact)‏
  • Páronkénti leválogatás (pairwise facets)
  • Többszörös egyszerû gyorskeresés (multiple briefsearch)
  • Hólabdakeresés ([citation] pearl growing)‏
  • Pontos megfeleltetés (exact match)‏
slide44

Egyszerü gyorskeresés (briefsearch, quick & dirty)‏

  • Egyszeri, Boole-operátorokkal végzett rövidre szabott keresés, hogy
  • elõzetes képet kapjanak az adatbázis rekordjainak a kérdéssel kapcsolatos
  • jellemzõirõl
  • A felhasználó által közvetlenül megadott kifejezésekkel vagy azok csonkolt
  • változataival hajtják végre; az utóbbi esetre akkor kerülhet sor, ha ismerünk
  • legalább egy témába vágó szerzõt, címet, kiadót stb.
  • A kapott találati tételekbõl megállapítható számos, az adatbázisban a
  • vonatkozó témával összefüggésben használt deszkriptor, mellyel a részletes
  • keresés folytatható
  • Nem akar többet, mint:
    • Meghatározott számú tételt
    • Legalább sejtse, mit hozna a témakeresés (mennyi van, amit nem kap meg)‏
    • Ötleteket a további mazsolázáshoz
keres fogalmak alkot sa p t kocka technika building blocks
Keresöfogalmak alkotása (építökocka-technika, building blocks)‏
  • (...) 4. A legfontosabb keresõkifejezések vagy összetevõk és a közöttük fennálló logikai ÉS, VAGY, NEM kapcsolatok megállapítása.
  • 5. a) Az egyes keresõfogalmakat jelölõ keresõkifejezések megállapítása: szavak, szöveges kifejezések, szótöredékek, deszkriptorok, azonosítók, kódok, nem szemantikai jellegû bibliográfiai ismérvek.
  • 5. b) A mezõ meghatározása, melyben keresni kell.
  • 6. Minden önálló keresõfogalom (építõkocka, fazetta) részére az építõkockán belül meg kell szerkeszteni az ismérvláncok halmazát. Az egyes építõkockákba összevont keresõkifejezések között a VAGY operátort használjuk.
  • 7. Az egyes építõkockákat ÉS, NEM (esetleg VAGY) operátorokkal összekapcsoljuk. (...)

Forrás: Stephen Harter: Online információkeresés: Fogalmak, elvek és technikák. In: Ungváry Rudolf – Orbán Éva /szerk./: Osztályozás és információkeresés II. (OSzK) Budapest, 341-347.

slide47

Keresöfogalmak alkotása (építökocka-technika, building blocks)‏

  • Tehát felosztja a keresökérdést alkotóelemeire, utána az egyes kulcsszavakhoz szinonímákat keres, amelyeket zárójelben VAGY-gyal köt össze

Példa: ”Azt mondják, az amfetamin terápiásan használható hiperaktív gyerekeknek és fiataloknak nyugtatóul. Van-e erröl tudományos közelemény?”

slide48

Amphetamine (1967) [+]

  • Use For
  • Amphetamine (dl-) (1973)
  • Amphetamine Sulfate (1973)
  • Benzedrine (1973)
    • Broader Terms
      • Adrenergic Drugs [+]
      • Appetite Depressing Drugs [+]
      • CNS Stimulating Drugs [+]
      • Dopamine Agonists [+]
      • Sympathomimetic Amines [+]
      • Vasoconstrictor Drugs [+]
        • Narrower Terms
          • Dextroamphetamine
          • Methamphetamine
          • Related Terms
          • Phenethylamines
slide49

Minimal Brain Disorders (1973) Use InsteadAttention Deficit Disorder with Hyperactivity

  • Attention Deficit Disorder with Hyperactivity (2001)
    • Use For ADHD (2001) Minimal Brain Disorders (1973)
    • Broader Terms
    • Attention Deficit Disorder [+]
      • Related Terms
        • Attention Span
        • Distractibility
        • Hyperkinesis
        • Impulsiveness
        • Mental Disorders [+]
        • Oppositional Defiant Disorder
slide50

PsycINFO: Age Index

  • adolescence (13-17 yrs)
  • adulthood (18 yrs & older)‏
  • aged (65 yrs & older)‏
  • childhood (birth-12 mo)
  • infancy (2-23 mo)
  • middle age (40-64 yrs)‏
  • neonatal (birth-1 mo)
  • preschool age (2-5 yrs)
  • school age (6-12 yrs)
  • thirties (30-39 yrs)‏
  • very old (85 yrs & older)‏
  • young adulthood (18-29 yrs)‏
egym sut ni lev logat s successive facets successive fractions
Egymásutáni leválogatás (successive facets, successive fractions)‏
  • A teljesség növelésének heurisztikus módszere, hogy valamelyik kész építõkockát (keresõfogalmat reprezentáló kifejezések csoportját) töröljük és a maradékkal keresünk.
  • Ez persze a leggazdaságtalanabb eljárás, hiszen gondosan megszerkesztett építõkockáról mondunk le.
p ronk nti lev logat s pairwise facets
Páronkénti leválogatás (pairwise facets)
  • Ha mindegyik keresõfogalom (építõkocka) nagyjából azonos mértékben specifikus, azaz egyformán fontos, akkor páronként képezhetjük metszetüket.
  • A találati eredményeket vagy külön-külön (a páronkénti keresés eredményeként), vagy az egész keresési folyamat uniójaként nyomtathatjuk ki.
t bbsz r s egyszer gyorskeres s multiple briefsearch
Többszörös egyszerü gyorskeresés (multiple briefsearch)
  • Ezt a stratégiát a páronkénti leválogatás esetéhez hasonlóan akkor célszerû követni, ha az összes specifikus keresõfogalom metszetének eredménye várhatóan a nullához közelít.
  • Alapelve, hogy több adatbázisban kell egyszerû, nagy visszahívással járó gyorskeresést végezni.
  • Ezáltal nagyon különbözõ jellemzõket kapunk, ami a keresés témáját illeti, melyet a további lépésekben hasznosíthatunk. Ugyanazt a tárgykört az egyes adatbázisokban ugyanis más-más módon osztályozzák (indexelik) és dolgozzák föl formai szempontból.
  • Ezáltal sok olyan jellemzõt megállapíthatunk, melyeket egyetlen adatbázisból körülményesebb kielemezni.
slide54

”Kályha-módszer” (most specific fact)‏

  • A legszükebben releváns kulcsszóval kezdünk, fokozatosan szélesítjük a kérdést, a keresöszavakat VAGY-gyal kombinálva, mintha a kályhától:
    • Volvo
    • Volvo VAGY Saab
    • Volvo VAGY Saab VAGY buszok
    • Volvo VAGY Saab VAGY buszok VAGY teherautók
slide55

Hólabdakeresés ([citation] pearl growing)‏

  • Ezt a stratégiát olyankor célszerû használni, ha nagyon kevés találatot várunk.
  • Ellentétben az eddigiekkel, itt nem a nagy visszahívással kezdünk,
  • hanem éppen ellenkezõleg. A leggyakoribb, hogy a felhasználó megadja
  • az egyik, általa ismert és a tárgyba vágó dokumentum adatát, melyet kikeresünk. Ebbõl megállapítható, milyen ismérvek (deszkriptorok, tárgyszavak,
  • jelezetek) reprezentálják a tartalmát – tehát a keresett tárgy fogalmát. Most
  • már ezekkel végezhetõ a keresés, hogy még több hasonló adathoz jussunk stb.
  • Gyakori, hogy a hólabdakeresést hivatkozási indexben végzik.
  • Pl. olyan ismert tételböl indulunk ki, amelyröl tudjuk, hogy releváns.
    • Mely kulcsszavak használhatók?
    • Írt a szerzö mást is?
    • Melyik folyóiratban publikálta?
    • Van a dokumentumnak osztályozási jelzete?
    • Melyik folyóirat referálja a dokumentumomat?
    • Idézik-e mások is a dokumentumomat?
slide56

”Pontos megfeleltetés” (exact match)

  • Pontos kérdésre pontos választ keres.
  • Ez a legkönnyebb?
    • ”Koppenhágában 2001-ben tartottak a cukorbetegségröl egy konferenciát. Megvan a kiadvány a könyvtárban?”
a f bb strat gi k sszefoglal sa
A föbb stratégiák összefoglalása
  • Egyszerû gyorskeresés

A ÉS B = Találati halmaz

  • Keresõfogalmak alkotása

Aa VAGY Ab VAGY Ac = 1. halmaz (nagy halmaz)

Ba VAGY Bb VAGY Bc = 2. halmaz (nagy halmaz)

Ca VAGY Cb VAGY Cc = 3. halmaz (nagy halmaz)

1. halmaz ÉS 2. halmaz ÉS 3. halmaz = Találati halmaz

  • Egymás utáni leválogatás

A ÉS B = 1. halmaz (nagy halmaz)

A ÉS B ÉS C = 2. halmaz (az 1. halmaz származtatott része)

A ÉS B ÉS C NEM D = Találati halmaz

  • Páronkénti leválogatás

1. FOGALOM ÉS 2. FOGALOM = B találati halmaz

2. FOGALOM ÉS 3. FOGALOM = C találati halmaz

3. FOGALOM ÉS 1. FOGALOM = A találati halmaz

A találati halmaz VAGY B találati halmaz VAGY C találati halmaz = Végsõ halmaz

  • Többszörös egyszerû gyorskeresés

1. adatbázisban: A ÉS B = 1. találati halmaz

2. adatbázisban: A ÉS B = 2. találati halmaz

3. adatbázisban: A ÉS B = 3. találati halmaz

  • Hólabdakeresés

Formai adat keresõszóként = 1. találati halmaz (1 vagy

néhány találat/formai adat)

1. találati halmaz formai adatai = 2. találati halmaz (több találat/formai adat)

2. találati halmaz formai adatai = 3. találati halmaz (sok találat/formai adat)

A további kereséshez a tételeket jellemzõ tartalmi ismérvek alapján állapítjuk meg a tartalmi keresõkifejezéseket.

slide58

2. Automatikus indexelés

  • Csak szövegessel foglalkozunk, képre: vö. ICONCLASS vs szimmetria [következö kép, lazításnak])‏
  • Algoritmikus eljárás, mely a dokumentumokból indexelésre alkalmas kifejezéseket választ ki. Az információkereséssel (information retrieval, IR) kapcsolatban is használatos
    • Algoritmus: parancsok véges sorozata, amely bemenö adatokból (input) kimenö adatokat (output) készít
    • Számítógépes program, amely a fenti algoritmusra épül és amely az indexelést végzi

58

slide59

Indexelés tapétacsoporttal

A tapétacsoportok kutatása a szimmetria, közelebbröl a csoportelmélet feladata. A természetben és a kultúrában számos olyan forma van, amelyeket objektumok indexelésére lehet használni.

slide60

Bevezetés folyt

  • Miért használják?
      • Gyorsabb a kézi indexelésnél. Nagy teljes szövegü állományoknál a kézi indexelés gyakorlatilag amúgy is lehetetlen
      • Konzisztens, következetes eredmények
      • Az állomány ”elöszervezésével” javíthatja az IR hatékonyságát
        • Egy keresökérdés vonatkozásában, milyen jó a rendszertöl kapott válasz?

60

slide61

Index

  • Legyen D = {d1, d2, …, dN} az adatállomány (adatbázis)‏
  • Információkeresés elött (de osztályozás elött is) D szövegszavaiból indexet kell készíteni. Ezeket a szavakat választjuk ki gép segítségével
  • Az index fontos adatstruktúra, kell a gyors kereséshez. A keresés ugyanis az indexben történik, nem a dokumentumban
  • Formája gyakran az ún invertált file
    • Azért invertált, mert a szót elörevetjük, utána jönnek az azonosítók

61

slide62

Index folyt

Dokumentumok (D)‏

Szövegszavak (morfológiai változatokkal)‏

Index (normalizálva/szótövezve)‏

d5

…kutya…

kutya

macska

…macska…

d80

62

slide63

Az indexelés lépései

  • Lexikai elemzés – ebben a folyamatban a bemenö adatokat szimbólumokká alakítjuk át
      • D dokumentumait egyetlen hosszú karaktersorozatnak tekintjük, amelyben kis- és nagybetük, számok, írásjelek stb fordulnak elö. A program ebböl az ”adatfolyamból” emel ki nagyobb, egységesített darabokat, amelyek a bemenö adatsor részeit jelképezik. Ezeknek a szimbólumoknak a halmazát nevezzük lehetséges indexkifejezéseknek
      • Ellentétük a letiltott szavak jegyzéke (stopwords). Pl töltelékszavak (vö szógyakorisági ábra)‏
      • Valójában a tiltójegyzékkel a mondatot összetartó funkcionális szavakat dobom ki

63

slide64

Indexelés szógyakoriság alapján

  • Már az 1950-es években gondoltak rá, hogy a szövegszavak gyakorisága a dokumentumokban alkalmas a megkülönböztetésükre
  • Luhn, H. (1958). The automatic creation of literature abstracts.
  • A Zipf-törvény szellemében: egy szóalak gyakoriságának és a gyakorisági rangsorban elfoglalt helyének a szorzata közel konstans
  • De: a magyar ragozó nyelv, nekünk viszont a szótövek kellenek
slide65

Szótövezés, normalizálás

  • Szótövezés: levágom a ragokat, az elötagokat, mint pl az igekötö (ha útban van)‏
    • Olyan, mint a csonkolás
    • Karóra? Honnan tudja, hogy elérte már a szótövet?
  • Normalizálás: a betüzési, helyesírási variánsokat hozza egységes alakra
  • Mindkettönek a keresést szélesítö, bövítö hatása van
slide66

Egy szó szétválasztó képességének mérése

  • A 40-es évek végén Claude Shannon (Bell Labs) kitalált egy mértéket arra, mennyi információ van egy szignálban  információs entrópia
  • Ennek a képletnek egy módosításával mérni lehet, mennyire jellemzö egy-egy indexkifejezés különbözö szakterületekre (mennyire használható a megkülönböztetésükre)‏
  • Teljes szövegböl készült indexre alkalmazva ezt, kiderül, hogy a letiltott szavak kapják a legalacsonyabb értéket, vagyis ezek éppen azért lettek kitiltva, mert nem osztályképzök
slide67

Az indexelés folyamata

  • Hogy az osztályozandó dokumentumok indexelése hatékony legyen, ismernünk kell a szótár méretét és változatosságát
  • Két lehetöségünk van:
    • Megpróbálhatunk több rokon kifejezést egy közös fogalom vagy ”szupertárgyszó” alá rendelni
    • Kiszürhetjük azokat a szavakat, amelyekben nincs elég ”megkülönböztetö erö” az adott osztályok vonatkozásában
slide68

Szemantikai mélyindexelés (latent semantic indexing, LSI)‏

  • Statisztikai eljárás, alapja az a megfigyelés, hogy a hasonlóan használt szavak jelentése is hasonló
  • Vö Wittgenstein: ”meaning is use”, ”a jelentés a használat módjában rejlik”
  • Sokváltozós statisztikai módszerekkel a hasonló szövegkörnyezetben használt szavakat ”rávetíthetjük” egyetlen reprezentánsra, amelyet a vonatkozó kifejezések fölöttes fogalmával azonos. Ez a reprezentáns a háttérváltozó, egy mesterséges új koordinátatengely
  • Ennek a módszercsaládnak sok tagja van, pl a faktoranalízis vagy a (kb) sajátértékfelbontás (singular value decomposition, SVD)‏
  • Így a dokumentumokat nem az eredeti kifejezésekkel, hanem fölöttes fogalmaikal indexelhetjük
slide69

Szemantikai mélyindexelés folyt

  • A hasonló elöfordulási mintázatú (kontextusú) indexkifejezéseket egy közös reprezentánsra vetíti

foci

futball

BEK

FIFA

slide70

(Svéd) tárgyszavak osztályozása szemantikai mélyindexeléssel

  • Stresshantering Hjärtinfarkt Rehabilitering Livsstil Livskvalitet Hjärtrehabilitering Könsskillnader_sjukvård
  • Djurförsök Försöksdjur
  • Hypertoni Högt_blodtryck Blodtryck
  • Mongolism Medicinsk_genetik Genetik_medicin Utvecklingsstörda Psykiskt_utvecklingsstörda Downs_syndrom Förståndshandikappade Medicin_historia
  • Miljöförstöring Hälsorisker Gifter Miljögifter
  • Hjärt-kärlsjukdomar Kolesterol Blodfett Hjärtsjukdomar Kärlsjukdomar Blodfettsänkande_behandling
  • Fingerborgsblomma Digitalis_purpurea Medicinalväxter
  • UV-strålning Solbränna Ultraviolett_strålning Solskyddsmedel Cancer Hudcancer Malignt_melanom Melanom
  • Sårbehandling Fotvård Skavsår
slide71

Az indexkifejezések szürése

  • A másik lehetöség, hogy kiszürjük azokat a szavakat, amelyek ”túlságosan” ott vannak két osztályban, és ezért nem alkalmasak arra, hogy megkülönböztessék öket
  • Kérdés: ”Ha csak ez az egy szót ismerjük (= fordul elö), mennyire következtethetünk belöle arra, melyik osztályba tartozik a dokumentum?”
  • Ezt úgy tudhatjuk meg, ha megmérjük, mennyi információ van egy osztályban vele vagy nélküle
  • Ezt a különbséget ”információs többletnek” (information gain, IG) hívják és a Shannon-féle entrópiából vezethetö le
  • A letiltott szavak IG értéke alacsony
slide72

Dokumentumok automatikus indexelése – meghatározás

  • A dokumentum és a leíró jelzetek (dokumentumoknál: tárgyszavak) között hoz létre egy leképezést
  • Legyen D egy dokumentum-halmaz
  • Legyen V az indexkifejezések szótára

Ψ : D x V → [0, 1]

  • Ez a vektorteres IR modell alapja is (vö bináris mátrix)‏
slide73

Vektormodell

  • Egy adatbázis minden dokumentumát n-dimenziós vektornak tekintjük ahol n a tárgyszavak száma a szótárban
  • dj= (w1j, w2j, …, wnj)‏
  • Mindegyik wij súly a ti -dik tárgyszó jelentését méri a dj -dik dokumentumban
  • Tf·idf-módszerek (mindjárt jönnek)‏
slide74

meccs

gyöztes

futball

vesztes

bíró

d1

0,8

0,5

0,0

0,7

0,6

d2

0,1

0,1

0,7

0,1

0,2

d3

0,3

0,3

0,5

0,4

0,6

d4

0,8

0,9

0,4

0,5

0,8

Mátrix példa

slide75

Tárgyszavak súlyozása

  • A pl 0,5 értéket a relációban (a függvényben)‏
  • (d1, gyöztes) --> 0,5
  • a tárgyszó súlyának nevezzük a dokumentumban
  • Ez az érték annál nagyobb, minél erösebb a kapcsolat a dokumentum és a tárgyszó között
  • Egyszerü súlyozás: 0 vagy 1 (bináris)‏
  • A tárgyszavak súlyozását gyakran a szó elöfordulásának gyakoriságára építjük (tf-idf = term frequency-inverse document frequency)‏
  • A tf-idf mérték régóta használatos az automatikus indexelésben, és két elv kombinálására épül:
    • Egy tárgyszó akkor jelent valamit a dokumentumban, ha sokszor fordul elö
    • Egy tárgyszó akkor jelent valamit egy adatbázisban, ha kevés dokumentumban fordul elö (tartalom-terjedelem fordított aránya)‏
slide76

Deszkriptorokkal végzett müveletek

  • Már volt:
    • Mivel a morfológiailag gazdag nyelvek, mint a magyar, esetében hasonló jelentések kapcsolódnak hasonló szóalakokhoz, az indexelés minösége javítható szótövezéssel(= a szóalakot a szótöre csonkoljuk)‏
    • Letiltott szavak (stopword) listája
  • Szintén volt, de másként, vö. LSI:
    • Tárgyszavak szürése (feature selection)‏
    • Deszkriptorok átalakítása (descriptor transformation, dimensionality reduction)‏
slide77

Deszkriptortranszformáció

  • Elöfeltevés: ha egy adatbázisban egy szónak az ”elöfordulási mintázata” megegyezik másokéval vagy hasonlít rájuk, akkor a szóalakok jelentése is hasonlít(hat)‏
  • Az ilyen ”mintázatot” pl faktoranalízissel elemezni lehet, vagyis az egymással összefüggö tárgyszavakat egy háttérváltozóra (faktorra) tudjuk vetíteni
  • A szemantikai mélyindexelés az eredeti vektorteret egy egyszerübb szerkezetü új vektortérré alakítja át, amelyben a dimenziók (= koordinátatengelyek = háttérváltozók) a tárgyszavakat összefoglaló fogalmaknak felelnek meg
slide78

3. Automatikus osztályozás

  • Felhasználási területek
    • Spam szürés
    • Szerzö azonosítása
    • Keresési eredmények klaszterálása
    • Felhasználói visszajelzések csoportosítása
    • Dokumentumtípus (müfaj) azonosítása
    • Képek indexelése
slide79

Az automatikus osztályozás célja

  • Géppel úgy csoportokba osztani az anyagot, mintha gyakorlott szakember osztályozta volna
  • Az eredményt hasonlítjuk össze, nem a hozzávezetö utat
  • Szellemi tevékenység modellezése matematikával (újabban fizikával, kémiával is)‏
slide80

Automatikus osztályozás

  • A gépi tanulás egyik alkalmazási területe
  • Az eljárás röviden: az osztályozó (classifier) nevü algoritmust arra tanítjuk, hogy felismerje egy bizonyos tartalom-fajta és az annak megfelelö osztály közötti kapcsolatot
  • Az osztályozó algoritmus ”emlékezetébe vési” az osztályok közötti különbségeket, paraméterkombinációk formájában tárolja, és a dokumentum hovatartozását a dokumentum meg az osztály tartalmi mintázatának egybevetésével dönti el
  • Az ebböl a döntésböl származó matematikai kifejezést emiatt döntési függvénynek nevezzük
slide81

Automatikus osztályozás folyt

  • A döntési függvény pl olyan geometriai határvonalként szemléltethetö, amelyet paraméter-értékek egy halmaza határoz meg
  • Egy másik népszerü megoldás, ha valószínüségi döntési függvényt használunk, ami megmondja, mennyire várható, hogy egy dokumentum egy bizonyos osztályba tartozik
slide82

Osztályozó algoritmusok fajtái

  • A geometriai válfaj a dokumentumokat a (néha nagyon) sokdimenziós tér pontjaiként modellezi, és olyan alapvetö mértékek segítségével osztályozza öket, mint a távolság meg a szögPélda: segédvektoros módszerek (support vector machines, SVM)
  • A valószínüségi válfaj olyan fogalmakat használ, mint az esemény meg az esély, s az osztályba tartozás korábbi adatai ezek alapján tippeli meg egy leendö osztályozás valószínüségétPélda: Bayes-féle valószínüségi osztályozók
slide83

Segédvektoros eljárás (SVM)‏

  • Különösen sikerült geometriai eljárás, amely két ötletre épít:
    • Keressünk olyan döntési függvényt, amely annyira szétválasztja az osztályokat, amennyire lehetséges
    • Másoljuk át a pontokat egy nagyobb térbe, amelyben ez a (lineáris) szétválasztásuk könnyebben ábrázolható
slide84

Automatikus osztályozás Hilbert-térben

  • Hilbert-tér: a kvantummechanika elméletének fejlesztésére David Hilbert és Neumann János által bevezetett új, potenciálisan végtelen dimenziós vektortér, amelyben a részecskék viselkedése tanulmányozható
  • Az SVM, egy új regressziós ill osztályozási eljárás, a Hilbert-térben éri el, hogy a dokumentumok maximálisan elkülönüljenek az adatokban megnyilvánuló osztályokba
  • Kisfilm
slide85

Dokumentumok automatikus osztályozása – meghatározás

  • Legyen D egy dokumentum-halmaz
  • Legyen C egy kategória (osztály)-halmaz
  • Az ”igazi” osztályozás egy függvény,

Φ : D x C → {0, 1}

  • Az automatikus osztályozás gépi tanulást alkalmaz Φ becslésére
  • A becsült Φ jele: Φ’
slide86

Milyen lehet az osztályba sorolás?

  • “Egycimkés”: egy dokumentum csak egy osztályba tartozik
  • ”Többcimkés”: dokumentumonként több osztály
  • Bináris osztályozás: a kategóriák halmazának, C-nek csak két eleme van, pl {-1, +1}
    • A spam-szürés pl bináris osztályozásból indul ki
slide87

A gépi tanulás szakaszai

  • Egy Φ-et közelítö Φ’ osztályozási függvény a dokumentumhalmazt három részre osztja: egy gyakorló- csoportra (training set), egy finomítási csoportra (validation set) meg egy tesztcsoportra (test set)‏
  • A gyakorló-csoporton tanulja meg az algoritmus a Φ’ függvényt
  • A második csoporton Φ’ javítása, optimalizálása következik paraméterek finomhangolásával
  • Majd a teszten ellenörizzük Φ’ hatásfokát (kézzel elöosztályozott kontroll-anyagon)‏
slide88

A gépi tanulás típusai

  • Tanulás példa/támpont alapján (supervised learning): abból indul ki, hogy a rendszernek része a már kész oktatási anyag, illetve hogy a rendszer visszajelzést (”osztályzatot”) kap a munkája minöségéröl
  • Tanulás példa/támpont nélkül (unsupervised learning): kiindulási támpont és/vagy visszajelzés nélkül kell tanulni – csak a dokumentumok közötti hasonlóságok a kategóriák és a hozzárendelés (osztályozás) alapja. Klaszterálásnak (clustering) is hívják.
slide89

Osztályozási módszerek típusai

  • Példa-alapú (”lusta”) módszerek, pl a k-adik szomszéd módszere (k-nearest neighbour). Vannak kézzel osztályozott dokumentumaink, hogy a gépi osztályozás eredményével összehasonlítsuk, az algoritmus nem emlékszik a paraméterekre
  • Paraméter-vezérelt módszerek: a tanulási halmazból a módszer egy készletnyi paramétert tanul meg, utána a példákra már nincs szükség. Példák: Bayes-valószínüségi módszerek, neurális hálók, segédvektoros módszerek (SVM)‏
slide90

“Felturbózás” (boosting)

  • Viszonylag új módszer, nagyon jó teljesítménymutatókkal szövegosztályozáshoz
  • Az ún. gyenge osztályozási függvény, Φ1 gyárt egy elözetes osztályozást a dokumentumhalmazunkra
  • Aztán egy új osztályozási függvény, Φ2 olyan dokumentumokat keres, amelyeket Φ1 korábban rosszul osztályozott – ismételten hibát keres és kijavítja
  • Az Φ1, Φ2, …, Φn osztályozási függvények lineáris kombinációja egyfajta “szuperfüggvényt” csinál belölük
slide91

Az eredmények értékelése

  • Az osztályozási függvény kiértékeléséhez a dokumentumok teszthalmazát használjuk, ezekkel hasonlítjuk össze az eredményt
  • Pontosság (accuracy): a helyesen osztályozott tételek aránya
  • Pontosság (precision) és teljesség (recall)‏
    • IR fogalmak is
  • Az ún. F-mérték a pontosságot meg a teljességet kombinálja paramétersúlyozással egy közös mértékké
  • Mikroátlagolás (microaveraging), makroátlagolás (macroaveraging)‏
slide92

4. Vektorteres információkeresés

  • Sokféle modell van, ez az egyik legnépszerübb (Gerald Salton 1975)‏
  • Szervesen illeszkedik az automatikus indexelés és osztályozás gondolatköréhez (vö. értékelés)‏
  • A szójelentést (szótárat) geometriai hellyé változtatja a sokdimenziós térben, a szemantikai hasonlóságot távolsággá ugyanott
  • Erre a helyre helyvektor mutat, a kérdés helyére is, hasonlóságuk mértéke a pontok közti távolság
  • A dokumentumok mint pontok koordinátái a vektor elemei; pl az indexkifejezések gyakoriságai
  • A tér dimenziószámát az adatbázis indexelésére használt egyedi szóalakok száma határozza meg
  • “Kiemelt” (markup) nyersanyagon (pl HTML) is müködik  web keresök
slide94

A vektorteres IR modell elönyei

  • A Boole-algebrás kereséssel csak annyit kérdezhetünk, ”megfelel-e a keresökép egy bizonyos dokumentumnak?” Egyezik-e vele?
  • A vektorteres modellben a hasonlóságot geometriai eszközökkel mérni tudjuk, és azt is, hogy mennyire. A súlyozás a mérték
  • A dokumentumokat sorba tudjuk rendezni a hasonlóságuk mértéke szerint (mindig az adott keresökérdésre)‏
  • Az indexkifejezések egymás közti (szótári) viszonyai geometriával tanulmányozhatók
slide95

Vektorteres információkeresés folyt

  • Érettségi tétel
  • A dokumentumokat mátrixban írjuk le, pl az oszlopvektorok dokumentumok, a sorvektorok indexkifejezések
  • A súlyozás lehet bináris vagy gyakorisági (pl tfidf)
  • Dokumentum és kérdés (keresökép, keresöprofil) mint helyvektor, amely pontra mutat (létezik irányvektor is!)‏
  • Mind a dokumentum, mind a kérdés tehát pont a térben
  • Hasonlóságukat a távolságuk fejezi ki
  • A keresökérdés vektorához hasonló dokumentumvektorokat közelségük alapján rangsoroljuk (vö. relevancia)‏
  • Két pont közelségét a helyvektoraik által bezárt szög koszinusza adja meg
  • Kérdés, mennyire modellezi a kérdést a vektor
vektorteres inform ci keres s folyt
Vektorteres információkeresés folyt

A vektorteres modellben a leggyakoribb hasonlósági mérték a dokumentumvektor és a keresökép vektora által bezárt szög koszinusza

Bármely szög koszinusza egyenlö két vektor normalizált belsö szorzatával, vagyis az a modellnek van egy geometriai meg egy algebrai értelmezése is

slide97

Az információkeresés hatékonysága

  • A keresés hatékonyságának mérésére legismertebb mérték a teljesség vs pontosság (egy keresökérdés vonatkozásában)‏
  • Teljesség: |Ra|/|R|
  • Pontosság: |Ra|/|A|
  • Szöveges adatbázisban egymással fordítottan arányosak, faktografikusban egyenes az arány
slide98

5. A mély web és jelenségei

  • Fogalma: a “mély” (láthatatlan, rejtett) web a világháló tartalmának azt a részét jelenti, amelyet a nagy keresögépek vagy nem indexelnek, vagy nemigen találnak meg. Ellentéte a “felszini” web. A kereskedelmi keresögépek csak a statikus, bekötött oldalakat dolgozzák fel, ezért a fától nem látják az erdöt 
  • Èrdekességek:
    • 400-550-szer nagyobb a látható webnél, a legnagyobb a havi növekedési üteme.
    • 2000-ben becslés szerint kb 550 milliárd egyedi dokumentumot tartalmazott, szemben a látható web kb 1 milliárd dokumentumával.
    • A Google típusú felszini keresögépek a weben elérhetö tartalomnak csak kb 0.03% -át keresik.
    • A mély web tartalmának legalább 95 %-a szabadon hozzáférhetö.
    • A tartalom mélysége miatt 50 %-kal nagyobb a látogatottsága, mint a látható webnek.
    • A mély web tartalmának több mint a fele szaktudományi adatbázisokban van
a l that vil gh l ma
A látható világháló ma
  • Az indexelt látható világháló 2010 november 16-án legalább 2.76 milliárd oldal volt
  • Forrás: WorldWideWebSize.com (a becslési algoritmus leírásával)
  • A Google, Bing, Yahoo, Ask mérései szerint is, idöben is változó a kép
a l that vil gh l ma1
A látható világháló ma

Forrás: worldwidewebsize.com

  • Az indexelt látható világháló 2010 november 22-én legalább 2.77 milliárd oldal volt
  • A Google, Bing, Yahoo, Ask mérései szerint is, idöben is változó a kép
  • Algoritmus leírása a honlapon
slide101

Mély web folyt

  • Felszini (keresögépek) vs mély (adatbázisok a weben): két réteg
    • Felszini: A keresögép crawlere csak a honlapot gyüjti be és indexeli
    • Mély: Az adatbázisok indexeihez fér hozzá valós idöben, párhuzamos kereséssel
  • Vö hostok (DIALOG, ESA, DIMDI, stb.) adatbázisainak lekérdezése párhuzamosan
  • Példák: US DoE OSTI, Science.gov, WorldWideScience.org
slide102

Az indexelés mint társasjáték

  • Social tagging / folksonomy = folk + taxonomy
  • Népi mozgalom a web indexelésére
  • Példák: Delicious, Flickr
  • Kedvelt hasonlat: jelzetfelhö (tag cloud)‏
  • Az osztályok átrendezödö súlypontjai miatt dinamikus osztályozás (vö. Salton, SMART, cluster centroid)‏
  • Egyfajta statisztikus osztályozás: sokak véleménye játszik bele, mi minek minösül
oszt lyoz s s l ttat s tag galaxy
Osztályozás és láttatás: Tag Galaxy
  • A Flickr anyagából
  • Elözetes, kézi osztályozást (a fényképek társas cimkézését) teszi át térbe
  • Vizuális metafora: csillagközi tér
  • Forgatható, nagyítható
  • Az egyes képeket meg lehet nézni
  • Átvezet az információ, ezen belül az osztályozás vizualizálásához
slide107

6. Az információ láttatása

  • Célja, hogy látvány/grafika segítségével mutassa meg az adatokban rejlö struktúrákat (szabályosságokat, mintákat)
  • Kapcsolódik az automatikus osztályozáshoz
  • Friss példa: Visalix (Xerox)‏
slide108

Az információ láttatása folyt

  • Keletkezö K+F szakterület, meglehetösen összevissza még, benne ember-számítógép kapcsolat (human-computer interaction, HCI), grafikus arculattervezés, információmenedzsment, információarchitektúra
  • Meghatározás (Lengler & Eppler 2007): ”Vizualizálási módszeren olyan rendszerszerü, szabályalapú, külsö, permanens grafikus ábrázolást értünk, amely az információ átlátását, megértését és kommunikálását elösegíti”
  • Az IV módszerek is osztályozhatók
  • Az IV módszerek a komplexitást (a tartalom folytonosságát) térbeli/idöbeli szerkezetekkel fejezik ki
slide114

A láttatás szerepe folyt

  • Az IV vizuális metaforákat használ (pl a periodikus tábla is hasonlat)‏
  • A képen látható szituációt valami ismerthez hasonlítva, a láttatás megkönnyíti a megértését (a szituáció itt az entitások közötti relációk összessége, pl része-egésze reláció)
  • Példa: iratok a dossziéban, dosszié az iratszekrényben, iratszekrény a részlegben, részleg a könyvtárban, stb
  • Egy jó metafora összetett tartalmat fejez ki egyszerüen. Pl egy metrótérkép vagy egy történethatékony templátok (elöképek).
  • A képi metafora funkciója kettös:
    • Elhelyezi az információt, hogy szervezze és strukturálja,
    • A metafora révén hangsúlyozza a kulcsmozzanatokat.
slide115

Vizuális metaforák

  • Kutatási kulcsprobléma: hogyan lehet kifejezö, hatékony vizuális metaforákat találni, amelyek elvont tartalmat képre fordítanak le
  • A metafora az ösvény, amely a már értettöl a megértendöhöz vezet
  • Típusok (Eppler – Burkhard 2004)‏
    • Természeti jelenségek (hegy, fa, szakadék, gyémánt, tornádó, vízesés, tüzhányó, folyó, barlang stb)‏
    • Ember-alkotta tárgyak (mérleg, létra, kerék, út, híd, ernyö, vödör, inga, trójai faló stb)‏
    • Cselekedetek (hegymászás, séta, halászat, vadászat, aratás, stb)‏
    • Fogalmak (család, béke, káosz, fraktál, fenntarthatóság stb)‏
slide118

Néhány GUI alternativa (LIVA projekt, 2005-2007)‏

  • Három metafora és a kapcsolódó módszerek:
    • Térkép, térképészet  tematikus domborzat
    • Fogalmi tér  3-d információcsillagászat, dokumentumgalaxisok
    • Rugó  dokumentumok és keresöképek eloszlása vonzás-taszítás eröegyensúlya alapján (force-directed placement, FDP); fejlödö osztályozási tér (”karfiotér”)‏
  • Mind térszerkezet, de az FDP idöbeli is
slide119

Domborzat 1

Tematikus táj: Burk Oh [=Sociala frågor och socialpolitik] 544 x 8928, SVD k=100, QC σ=0.5,1-2. fötengely, összes dokumentum

slide123

Dokumentumgalaxis 1:BURK Ph [= Träteknik och träindustri] 432 x 1251, az elsö 200 dokumentum (szemantikai mélyindexelés alapján)‏

slide124

Dokumentumgalaxis 2: az elsö 200 dokumentum 16 különbözö fogalmi altérben

slide125

Eröegyensúly (FDP)‏

  • Rugó, vonzás-taszítás, erös magerö taszítás nélkül – fizikai erötípusok, amelyek a dokumentumok csoportosulásának (az osztályozás önszervezödésének) modellje lehetnek
  • Pl a taszítás a dokumentum hosszával arányosan nö, a vonzás a relevanciával arányosan
  • Az a legjobb elrendezés, ahol az energiatartalom minimális (a lejtö alján)‏
  • Pl az IR folyamat egyes lépcsöit láttathatja, integrálja az IV-et az IR-rel
slide126

”Karfioltér” 1: keresöképek

  • 1. kérdés: visualisation colour graphics
  • 2. kérdés: 3D surface graphics
    • Két dokumentum köszös a két kérés között
slide127

”Karfioltér” 2: keresöképek

  • 3. kérdés: agents
    • A 3. kérdésre az elsö 50 dok halmaza nem fed át az 1-2. kérdés találati halmazaival, amelyek megtartják eredeti szerkezetüket, míg az új halmaz tölük elkülönül
    • .
  • 4. kérdés: collaborative agent visualisation
    • Mivel ez erösen kapcsolódik mind a 3. (agents), mind az 1. (visualisation colour graphics) kereséshez, a találati halmazaik automatikusan összekapcsolódnak, balról jobbra ebben a sorrendben: agents, collaborative agent visualisation, visualisation colour graphics, és 3D surface graphics.
slide129

IV összegzés

  • Tárgyszó- és dokumentum-szigetek, fogalmi csillagképek: magasabbfokú morfológiák
  • Az információrobbanás is metafora, az ösrobbanásé. A tágulás (vö. mély web) következtében dokumentumgalaxisok keletkeznek és rendezödnek át, amelyeket térképezni kell
  • A fogalmi dinamika (nyelvfejlödés) problémája: változó osztályozások
  • A nagyságrendek és a kommunikáció kérdése: felfog-e a nyelv mindent, fogalmakkal minden leírható-e?