1 / 15

Dátové vzorky pre experimentovanie

Dátové vzorky pre experimentovanie. Michal Tvarožek. tvarozek { at } f iit.stuba.sk , D20 8. Prehľad prezentácie. Reálne dáta z troch domén Fotografie Publikácie Projekty O každej si povieme Veľkosť, pôvod Čo je v nej Kde ju nájsť. Dátová vzorka: publikácie.

boyd
Download Presentation

Dátové vzorky pre experimentovanie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dátové vzorky pre experimentovanie Michal Tvarožek tvarozek { at } fiit.stuba.sk, D208

  2. Prehľad prezentácie Dátové vzorky pre experimentovanie • Reálne dáta z troch domén • Fotografie • Publikácie • Projekty • O každej si povieme • Veľkosť, pôvod • Čo je v nej • Kde ju nájsť

  3. Dátová vzorka: publikácie Dátové vzorky pre experimentovanie • Informácie (metadáta) o publikáciách získané automaticky z webu pomocou wrapperov • ACM Digital Library • Digital Bibliography & Library Project • SpringerLink • Pozor:Máme metadáta, nie samotné články (obsah)

  4. Spôsob reprezentácie Dátové vzorky pre experimentovanie • Doménová ontológia publikácií (OWL) • http://mapekus.fiit.stuba.sk/?page=ontologies • Importuje subontológie • Region – definuje geografické regióny • Party – opisuje „strany“ vo vzťahoch (osoby, spoločnosti) • Cluster – definuje (hierarchické) zhluky

  5. Hlavné triedy a ich atribúty Dátové vzorky pre experimentovanie • Publication (paper, report, thesis, ...) • Rok, strany, zborník, autori, editori, vydavateľ, kľúčové slová, index termy, zdroj... • Author • Organization (univerzity) • Event (conference, workshop, ...) • IndexTerm (ACM klasifikácia)

  6. Hlavné vlastnosti Dátové vzorky pre experimentovanie • Nie všetky metadáta sú vždy dostupné (rôzne zdroje) • Nie príliš zložitá štruktúra (málo taxonómií) • Chyby/nekonzistencie/duplicity v dátach • Chyby u zdroja (napr. OCR pri ACM) • Chyby pri automatickom získaní dát • Veľkosť (počet publikácií) • ACM (~10k), DBLP (~100k), Springer (~1-10k)

  7. Dátová vzorka: fotografie Dátové vzorky pre experimentovanie • Fotky a informácie o fotkách (dáta a metadáta) • Automaticky získané z EXIF metadát uložených kamerou • Manuálne doplnené podľa obsahu fotky • Zdroje fotiek • Fotky z konferencií a rôznych akcií • Fakultná fotogaléria (importér/prepojenie) • Ľubovoľné ďalšie fotky/obrázky, ktoré tam niekto vloží

  8. Spôsob reprezentácie Dátové vzorky pre experimentovanie • Doménová ontológia fotografií (OWL) • http://mirai.fiit.stuba.sk/ontologies/photo.owl • Prístupná aj databáza s metadátami • Importuje subontológie • Region – definuje geografické regióny • Party – opisuje „strany“ vo vzťahoch (osoby, spoločnosti)

  9. Hlavné triedy a ich atribúty Dátové vzorky pre experimentovanie • Photo • Dátum, veľkosť, orientácia, pomer strán, ... • Čo/kto je na obrázku, v akom je to prostredí, ... • EXIF metadáta • Ďalšie anotácie, ktoré priebežne doplníme [OP] • Prepojenie na ľudí a udalosti

  10. Hlavné vlastnosti Dátové vzorky pre experimentovanie • Dali by sa doplniť ďalšie anotácie(ale musia to spraviť ľudia, čo ich poznajú) • Pomerne jednoduchá štruktúra • Veľkosť • Asi 8000 konferenčných fotiek od prof. Bielikovej • Potenciálne stovky až tisíce fotiek z FIIT galérie

  11. Dátová vzorka: Projekty Dátové vzorky pre experimentovanie • Informácie o študentských projektoch (BP a DP) • Metadáta získané zo systému Yonban • Potenciálne získateľné aj samotné práce v el. podobe • Prístup k dátam • Priamo v databáze Postgress (na čítanie) • Predspracovaný export v podobe súboru

  12. Spôsob reprezentácie Dátové vzorky pre experimentovanie • Doménová ontológia projektov (OWL) • Dostupná na vyžiadanie (dôvernosť dát) • Dostupná aj bez posudkov • Importuje subontológie • Publication – každý projekt je aj publikácia (výstupy) • Party – opisuje „strany“ vo vzťahoch (osoby, spoločnosti)

  13. Hlavné triedy a ich atribúty Dátové vzorky pre experimentovanie • Project • Kľúčové slová • Review • Slovné aj hodnotenia v stupniciach • Publication (thesis) • Prepojenie na ľudí (študenti, školitelia, oponenti)

  14. Hlavné vlastnosti Dátové vzorky pre experimentovanie • Nie celkom konzistentné dáta z hist. dôvodov • Zložitejšia štruktúra dát (projekty, posudky, ...) • Reálne dáta • Veľkosť • Niekoľko tisíc projektov a študentov • Zodpovedajúci počet posudkov a publikácií

  15. Čo s tým možno robiť? Dátové vzorky pre experimentovanie • Vyhľadávať a prehliadať v reálnych dátach  • Prepojenie vzoriek navzájom • Cez ľudí • Cez publikácie, resp. projekty • Sociálna sieť • Cez autorov (publikácie) • Cez ľudí na fotkách (fotky) • Cez študentov/školiteľov (projekty)

More Related