250 likes | 361 Views
Learn about RDF framework, metadata, and RDF queries on the Semantic Web for effective data representation and querying solutions.
E N D
Szemantikus Web Nyitrai Erika ELTE IK Algoritmusok és Alkalmazásaik Tsz. tanársegéd
Keresések • Internetes keresők • Kulcsszavakra keresünk • Szinonimák nem használhatók • Nem tudunk több nyelven, nyelvjárásban keresni • Nem tudjuk bináris adatok – pl. képek – tartalma alapján végezni a keresést • Baj: a számítógépek alapvetően buták • Cél: a gépeket gondolkodni képes alkalmazásokkal felszerelni
Mire van szükség • Két különböző irány • Metaadatok • Kategóriák, jellemzők adása egy-egy nem feltétlenül weben elérhető objektumhozkép, weblap, videó, bögre, stb. • Háttértudás • A kategóriák közötti összefüggések reprezentációjára van szükség • Segítségével végrehajthatók azok a gondolatmenetek, amelyekkel a mindennapokban következtetéseket vonunk le • Pl.: akik a barátaim, azok az ismerőseim is; egy nő akinek van fia, anya; stb.
Metaadatok • A metaadatok nem új dolgok, számos helyen sok éve használatban vannak • Példák • HTML meta tagek különböző információk eltárolására weblapok fejlécében • Fotók, videó állományok fejléce, amely tartalmaz adatokat a kép készülésének körülményeiről és egyéb jellemzőiről • milyen beállításokat használtunk • mennyi volt a rendszeridő • A keresőrobotok értékelik ezeket az információkat, felhasználják a további keresésekkor
Metaadatok – jó lenne, ha... • … a metaadatok egységes formában lennének hozzárendelve minden dologhoz • … azok az alkalmazások, amelyek sok információt szolgáltatnak – tipikusan on-line adatbázisok - információkat szolgáltatnának magukról • … egy-egy tartalomhoz automatikusan hozzárendelhetőek lennének metaadatok • … ismert lenne a metaadatok egymáshoz való viszonya
Egy lehetséges módszer: RDF • Resource Description Framework • Kiindulópontok: URI-k • Minden egyes objektumot, amiről állításokat szeretnénk megfogalmazni ellátunk egy egyedi URI-val • Pl.: a bögrém URI-ja lehet ez: http://aaa.bbb.hu/#bogre • Az azonosítóval rendelkező objektumokról állításokat fogalmazunk meg • Pl.: a http://aaa.bbb.hu/#bogre színe piros
RDF állítások • Az állítások háromféle elemtípusból épülnek fel • Erőforrás (resource) • Pl.: a már emlegetett bögre • Tulajdonság (property) • Pl.: színe, születési ideje, stb. • Literál (literal) • Pl.: piros, 23, stb.
RDF állítások • Logikai értelemben minden állítás három részből áll • Alany (subject) • Bármi aminek van URI-ja, tehát erőforrás • Állítmány (predicate) • Egy tulajdonság • Tárgy (object) • Lehet erőforrás, vagy literál is • Példák: • Éva apja Gábor. • Kati életkora 18.
RDF állítások lehetséges reprezentációi • Ági születési éve 2005. • Rendezett hármasként • {[http://valahol.hu/szemelyek#Agi], szul_ev, 2005} • Gráfszerűen (irányítottként) • XML leírással (szabványos RDF-ként)
RDF séma a háttértudás leírására • A meglévő elemeinkről tudunk jellemzéseket leírni osztályok kialakításával • Ez nem tulajdonságok meghatározásával zajlik, hanem osztályok elemeinek felsorolásával • Elemek osztályozása • Pl.: a kutya az emlősök osztályába tartozik • Tulajdonságok egymáshoz való viszonyának megadása • Pl.: a testvér egyben rokon is • Tulajdonságok értékkészletének megadása • Pl.: a születési év csak egész szám lehet
RDF adatok lekérdezése • Többféle csoportba sorolhatók • XML alapú lekérdező nyelvek • Adatbázis alapú lekérdező nyelvek • Gráf illesztéssel dolgozó lekérdező nyelvek
XML alapú lekérdezőnyelvek • Bár az RDF adatok reprezentálhatók XML alakban, a hagyományos XML lekérdezők használata nem célravezető • Illesztési probléma léphet fel • Az adatforrás XML alakban egy faszerkezetként fogható fel • Az RDF struktúra irányított gráf
Adatbázis alapú lekérdezők • Szükségünk van a teljes tudásbázis szerkezetének ismeretére • Ha mindent tudunk a tárolt adatokról, akkor hasznos eszköz • Hiányos háttérismeretek esetében nehézségeket okozhat • Nyílt világot kell kezelni egy zárt világokhoz alkalmas eszközzel
Gráfszerű lekérdezések • A teljes információhalmaz egy komplex gráfként fogható fel • A kérdést egy üres csúcsokat is tartalmazó részgráfként fogalmazzuk meg • Eredményként a tudásbázis egy vagy több megfelelő részgráfját, RDF hármasokat kapunk vissza
Lekérdező nyelvek • RDQL • SQL szerű nyelv • Problémája, hogy sem a kérdések sem a válaszok nem RDF formátumúak • RDFLan • Logikai kifejezésként dolgozik a kérdésekkel • SPARQL • Gráfminták illesztésével keres megoldásokat • A kérdések is az eredmények is megjeleníthetők RDF alakban kérdések sorozata is feltehető
Lekérdezések végrehajtása • A tárolt ismereteken kívül lehetséges következtetett ismeretekkel is dolgozni • A felhasználó számára nem kell elkülönülnie a tárolt és a következtetett ismereteknek • A háttértudás leírása RDFS segítségével nem mindig lehetséges
RDFS hiányosságai • Nem lehet az osztályokkal további műveleteket végrehajtani • Metszet, unió • Pl.: mindenki anya, aki nő és szülő • Nem lehet alternatív értékkészletet megadni • Pl.: méretek megadásakor • Lábméret 18-46-ig • Melegítőfelsők mérete S-XXXXXL-ig • További eszközökre van szükség
Ontológiák • Az RDFS korlátozott lehetőségeit próbálja kitágítani • Alkalmat biztosít arra, hogy különböző tudásbázisok elemeit összekapcsoljuk • Osztályok példányait, azok jellemzőit írja le • Megadhatók halmazműveletek és bonyolultabb megszorítások is • Webes ontológiák készítéséhez létezik szabvány, az OWL • Feldolgozásához az elsőrendű logika eszközei használhatók
Logikák használata - példa • Terminológiai állítások = háttértudás • Az apa olyan ember, aki férfi és szülő • A szülő ember és van gyereke • Adatok = metainformációk • Ember(Géza) Férfi(Géza) Gyereke(Géza,Miklós) • Következtetés • Ember(Géza) és Gyereke(Géza,Miklós) Szülő(Géza) • Ember(Géza) és Férfi(Géza) és Szülő(Géza) Apa(Géza) • Ugyanezt a következtetést más kiinduló adatokból is le kellene tudni vonni!
Alkalmazások – Dublin Core • 1995-ben kezdődött el a kialakítása Dublinban • Nagyon kevés alapelemből épül fel • Használata elektronikus dokumentumok egységes kezelését teszi lehetővé • Bármilyen dokumentumról készíthetünk leírást a segítségével • Pl.: Magyar Elektronikus Könyvtár on-line Dublin Core leírást segítő oldala • változatos formátumok • http://mek.oszk.hu/dc
Wordnet • Szótár, de szavak közti kapcsolatokat is megfogalmaz • Többféle jelentést kaphatunk • Minden szóhoz rendel URI-t, így elősegíti alkalmazások fejlesztését • Ezeken az URI-kon a szavak egy leírását találjuk RDF alakban
Automatikus adatkinyerés weblapokból • A W3C oldalán elérhető egy alkalmazás, amely képes weblapokról RDF leírást készíteni • Az alkalmazás a szöveget elemzi a szerkezete alapján • META tagek, cím, címsorok, listák, stb. • Az elemzés után a kapott leírást csatolhatjuk a dokumentumhoz
Összefoglalva • A szemantikus web elképzelés a gépeket az emberéhez hasonló gondolkozási képességekkel szeretné felruházni • Az adatok, ismeretek leírásához humán részvételre van szükség • Léteznek automatizmusok, amelyek képesek „bután” kinyerni az információkat különböző forrásokból • Az információkból a háttértudást felhasználva matematikai eszközökkel következtethetünk
Köszönöm a figyelmet! • erika221@elte.hu