Vod do vyh ad vania inform ci z kladn probl my a pojmy
This presentation is the property of its rightful owner.
Sponsored Links
1 / 28

Úvod do vyhľadávania informácií základné problémy a pojmy PowerPoint PPT Presentation


  • 57 Views
  • Uploaded on
  • Presentation posted in: General

Úvod do vyhľadávania informácií základné problémy a pojmy. Vyhľadávanie informácií Michal Laclav ík. Podmienky. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov:

Download Presentation

Úvod do vyhľadávania informácií základné problémy a pojmy

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Vod do vyh ad vania inform ci z kladn probl my a pojmy

Úvod do vyhľadávania informáciízákladné problémy a pojmy

Vyhľadávanie informácií

Michal Laclavík


Podmienky

Podmienky

Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov:

odovzdanie a odprezentovanie praktických projektových zadaní(30 bodov) – 20 bodov splnenie zadania zvyšok za super splnenie.

priebežná práca = aktívne konzultovanie projektov aspoň 4 krát za semester v rámci cvičení (20 bodov), 5 bodov za každú konzuláciu, kde je potrebné byť pripravený.

Vykonanie záverečnej skúšky(50 bodov)

Získanie aspoň 56% celkového hodnotenia (56 bodov).

Bratislava, 22.september 2014


Podmienky konzult cie 1

Podmienky – konzultácie (1)

priebežná práca = aktívne konzultovanie projektov aspoň 4-krát za semester v rámci cvičení (20 bodov)

1. konzultácia – výber a potvrdenie projektu + dáta

Na wiki info o zadaní projektu (opis problém) + linka na dáta

2. konzultácia – jednoduchý testovací kód na vzorke dát

Funkčný kód v github-e, na wiki info s linkou na github

3. konzultácia – takmer naprogramované riešenie

V githube funkčný kód, ktorý študent testoval aj na celých dátach (napr. Wikipédia). Dohodneme sa čo treba na dokončenie.

4. konzultácia – hotový softvér, ak dobré je možné aj opdovzdať

!odovzdanie projektu do konca semestra!

Po odovzdaní je možné dostať body za dopracovanie zadania ale iba iba nasledovným spôsobom, príklad:

Treba teda mať na 4. konzultácii hotový soft a predviesť ho. Potom stačí niečo dorobiť a môžete mať viac bodov ale iba do konca semestra pred Vianocami.

Konzultácie dopredu nahlásiť na wiki – trvanie 10 minút

1 cvičenie = 12 konzultácií x 2 x 10 = 240

cca 80študentov x 4 konzultácie = 320

=> treba sa zavčasu nahlásiť

Bratislava, 22.september 2014


Podmienky konzult cie 2

Podmienky – konzultácie (2)

1. konzultácia – výber a potvrdenie projektu

Do 29.9.2014

2. konzultácia – jednoduchý testovací kód na vzorke dát

Do 20.10.2014

3. konzultácia – takmer naprogramované riešenie, ukážka softvéru nie úplného

Do 10.11.2013

4. konzultácia - hotový softvér, ak dobré je možné aj opdovzdať

Do 24.11.2014 (medzi 3. a 4. nie je veľký rozdiel – 3. možete aj skôr dátum je posledná možnosť)

dovzdanie projektu

Na poslednej prednáške a cvičeniach 2.12.2014?

Bratislava, 22.september 2014


Projekty

Projekty

  • Odovzdať

    • Software na poslednej prednáške a cviku

      • Emailom

      • Zavesiť na web na vyskúšanie s popisom ako spustiť, keď je v github niekedy stačí parametre spustenia (po dohode)

      • Odovzdávanie na poslednej prednáške a cvičeniach

    • Text na wiki – hlavne linky a max 1 strana.

      • Čo: Idea

      • Ako: postup, literatura

      • Overenie: porovnanie výsledkov recall, precission

      • Záver

  • Všetko s projektami a konzultáciami (prvých možných 50 bodov) sa rieši cez wiki. Čo nie je na wiki neexistuje.

  • Nerozpisujte sa príliš.

  • V minulosti bol väčší dôraz na text na Wiki, teraz hlavne kód:

    • Integrovaný na github (aj s inými projektami)

    • Javadoc, zrozumiteľné komenty – v angličtine aj premenné aj komenty

    • Unit testy na vzorke dát

Bratislava, 22.september 2014


Podmienky pre spe n odovzdanie projektu

Podmienky pre úspešné odovzdanie projektu

  • Krátke info na wiki (max 1 strana)

    • krátky popis projektu-problému a motivácia načo je to dobré

    • vyhodnotenie slovné subjektívne na nejakých konkrétnych príkladoch. Vo vačšine projektov aj vyhodnotenie pomocou presnosti a úplnosti(precision a recall)

    • spustenie, inštalácia softvéru, použitie softvéru

    • Všetko na wiki dva dni pred odovzdaním projektu!

  • Softvér priložený ako zip príloha na wiki stránke, niekedy po dohode stací v github. 2-5 min predvedenie softvéru. Pripravte si to tak aby sme s tým nezabili 30 minút. Softvér musí byť pripravený tak aby ho nebol problém spustiť alebo nainštalovať.

  • wiki stránka sa myslí stránka vášho projektu

Bratislava, 22.september 2014


Vod do vyh ad vania inform ci z kladn probl my a pojmy

Témy

Textové operácie

Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov

Indexovanie (Modely)

Softvérové knižnice a systémy

Extrakcia informácií

Vyhľadávanie a usporiadanie

Regulárne výrazy a ich použitie pri spracovaní textu

Problém spracovania veľkého množstva dát (MapReduce, Hadoop)

Hodnotenie úspešnosti

Google

Úvod - Spracovanie informácií pomocou sémantiky

Dopytovacie jazyky SPARQL

Multimedia information retrieval (možno)

Sumarizácia učiva a priblíženie obsahu skúšky

Bratislava, 22.september 2014


Literat ra

Literatúra

Michal Laclavík, Martin Šeleng: Vyhľadávanie informácií, 2012

Steven Bird, Ewan Klein, and Edward Loper: Natural Language Processing with Python, 2009

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008

Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, ACM, 1999

Singhal, Amit (2001). Modern Information Retrieval: A Brief Overview. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35-43

S Brin, L Page: The anatomy of a large-scale hypertextual Web search engine; Computer Networks and ISDN Systems, 1998

Michael McCandless, Erik Hatcher, and Otis Gospodnetić: Lucene in Action, Second Edition; Manning Publication; ISBN: 1933988177, 2010

Apache Lucene - Java based indexing and search library

Nutch - web search software

Hadoop - Proceesing vast amount of data

Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004

HadoopMapReduce

Hadoop Distributed File System

Jena RDF tutorial

Jena SPARQL tutorial

Text REtrieval Conference (TREC)

Graphs in IR

Bratislava, 22.september 2014


Literat ra vyh ad vanie inform ci

Literatúra - Vyhľadávanie informácií

Vysokoškolská učebnica Vyhľadávanie informácií (Information Reterieval)

Názov:Vyhľadávanie informácií

Autori:Michal Laclavík, Martin Šeleng

Vydala:Slovenská technická univerzita v Bratislave, vo Vydavateľstve STU, Bratislava, Vazovova 5.

ISBN:978-80-227-3829-3

Rok vydania:2012

http://laclavik.sk/IR/

Bratislava, 22.september 2014


V etky inform cie o predmete

Všetky informácie o predmete

http://vi.ikt.ui.sav.sk/


Aplik cie

Aplikácie

  • Vyhľadávanie – ako na Google

  • Sémantické vyhľadávanie (Entity search)

    • Google knowledge graph

    • Wikipedia

    • Freebase

    • Facebook search

  • Linked Data

  • Text Analysis, Text Mining

  • Žiadaná profesia: Data Scientist

Bratislava, 22.september 2014


Hist ria

História

Knižnice

Knihy

Tvorba indexov

Hierarchické zoznamy

Prvé IR systémy fungovali v knižniciach

Cranfield experiment

Nástup počítačov, TREC

Internet

Katalogizácia, hierarchia (DMoz.org)

Indexovanie web stránok

Google, PageRank

Špecializácia na domény (sémantika)

Web 2.0, Sociálne siete

Bratislava, 22.september 2014


Hist ria 2

História (2)

1992, Text REtrieval Conference (TREC)

Rôzne tracky na rôzne problémy nielen z webu

Spam

Blog

Video

...

Bratislava, 22.september 2014


Internet nov mo n osti a v zvy

Internet – nové možnosti a výzvy

Informácie sú dostupné za oveľa nižšiu cenu

informačné zdroje sú distribuované a dostupné veľmi rýchlo a za pár sekúnd

sloboda zverejniť akúkoľvek informáciu kýmkoľvek je dostupná prvý krát v histórii

Dôveryhodnosť informácií

Bratislava, 22.september 2014


Information retrieval 1 ciele

Information Retrieval (1) Ciele

Reprezentácia

Uchovávanie

Organizácia

dostupnosť informácií

Dôveryhodnosť

Bratislava, 22.september 2014


Information retrieval 2

Information Retrieval (2)

Dáta: 20

Informácia: 20 oC

Znalosť: izbová teplota

Informácia

Keď dáta majú sémantiku (význam)

IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží

Väčšinou štatistický prístup

Reasoning

Actions

Pragmatics

Knowledge

Semantics

Information

Data

Syntax

Characters

(Bergman, 2002,

Experience Management)

Bratislava, 22.september 2014


Information retrieval 3

Information Retrieval (3)

Informácia

Text, dokument

Obrázky

Video

V rámci predmetu VI

Text (dokumenty)

Linky ako ukazovateľ na iné objekty

Graf závislosti objektov (napr. viac dimenzionálne sociálne siete)

Bratislava, 22.september 2014


Information retrieval

Information Retrieval

Klasický prístup

Prehľadávanie každého dokumentu a hľadanie reťazcov

Časovo náročné

Nie nezmyselné

Grep, regulárne výrazy, information extraction

Veľké množstvo dokumentov

Potreba indexácie

kľúčové slová (prípadne aj všetky slová dokumentu)

Termy

Dopyt a výsledok

Bratislava, 22.september 2014


Architekt ra

Architektúra

získavanie informácií

stiahnutie dokumentov

textové operácie

indexovanie

spracovanie odkazov a objektov v texte

Vyhľadávanie

formulácia dopytu a operácie na dopyte

spracovanie dopytu

vrátenie výsledku na používateľské rozhranie

spätná väzba od používateľa

Bratislava, 22.september 2014


S visiace t my

Súvisiace témy

  • Spracovanie prirodzeného jazyka,

  • grafy a siete,

  • sémantický web,

  • kontext užívateľa a informácie,

  • vyhľadávanie v multimédiách,

  • strojový preklad,

  • škálovateľné IR,

  • dolovanie v dátach,

  • business intelligence.

Bratislava, 22.september 2014


Pojmy

Pojmy

Dokumenty

vlastnosti

Textové operácie

Tokenizácia

Lematizácia, stemming

Termy

Odkazy

Indexy

Hodnotenie

Experimentálne overenie

Recall – pokrytie

Precision – presnosť

Zoraďovanie

URLs, termy, normalizácia

Bratislava, 22.september 2014


Pojmy 2 algoritmick implementa n

Pojmy (2)algoritmické, implementačné

Vector space model

Invertovaný index

PageRank

MapReduce

Google

Lucene

Nutch

Hadoop

Bratislava, 22.september 2014


T my 1 indexovanie modely a miery podobnosti

Témy (1): Indexovanie, modely a miery podobnosti

Indexy: Jadro systémov pre vyhľadávanie informácií, ktorým je tvorba indexov

invertovaný index

Váhovanie, normalizácia

Modely

Booleovský

AND, OR, NOT, term sa vyskytuje alebo nie

Riedka matica

Vektorový

Vector space model

X dimenzionálny priestor, každý term jedna dimenzia

Kosínusová miera, medzi 0-1, 1 pre rovnaké dokumenty

Podobnosť medzi query a dokumentom

Pravdepodobnostný

Miery

kosínusová miera

euklidovská vzdialenosť

Bratislava, 22.september 2014


T my 2

Témy (2)

  • Sťahovače

  • dozviete ako sa získavajú dokumenty z internetu, aké stratégie sťahovania sa používajú, ako sa spracúvajú linky a na čo ich môžeme použiť pre vylepšenie vyhľadávania.

  • Konverzia dokumentov

  • Tika a iné ...

  • Analýza textu

  • Spracovanie textu na termy, tokenizácia, lematizácia, stop slová ...

Bratislava, 22.september 2014


T my 3

Témy (3)

  • Usporiadanie

  • využitie prepojení dokumentov (linky) na výpočet dôveryhodnosti dokumentu ako aj na následné utriedenie výsledkov vyhľadávania.

  • Hodnotenie

  • Pre systémy vyhľadávania informácií je dôležité vyhodnotenie ich úspešnosti. V kapitole sa dozviete aké miery hodnotenia poznáme, ako sa dajú použiť a čo je dôležité pri vyhodnotení systému.

  • Softvérové knižnice a systémy

  • systémy a knižnice, ktoré je možné využiť.

Bratislava, 22.september 2014


T my 4

Témy (4):

Extrakcia informácií

základné úlohy extrakcia a aké algoritmy a prostriedky sa dajú využiť pri extrakcii.

Regulárne výrazy

Spracovanie textu

Extrakcia metadát

Find

Replace

Split

Bratislava, 22.september 2014


T my 5 s asn internet

Témy (5): Súčasný internet

  • Keďže sa venuje hlavne vyhľadávaniu informácií na internete, je potrebné sa venovať internetovým leaderom ako Google a Facebook ale aj iným typom textových a sociálnych informácií ako Delicious, Twiter alebo Linkedin.

  • Zároveň aj MapReduce architektúre, ktorá je doteraz najvhodnejším prístupom pre spracovanie rozsiahlych dát.

Bratislava, 22.september 2014


T my 6 s mantick web

Témy (6): Sémantický web

The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction)

RDF

OWL, logika aplikácie

SPQRQL

Bratislava, 22.september 2014


  • Login