Univerzitet u Istočnom Sarajevu
This presentation is the property of its rightful owner.
Sponsored Links
1 / 22

Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo PowerPoint PPT Presentation


  • 87 Views
  • Uploaded on
  • Presentation posted in: General

Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo. Web brovseri i pretra živački sistemi. Student: Dijana Čović Br. indeksa: 3453/06. Mentor: Prof. dr Milorad K. Banjanin. „Mreža “ se prvi put pojavila krajem 1960-tih. JEDNA OD PRVIH MREŽA.

Download Presentation

Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Univerzitet u Istočnom Sarajevu

Filozofski fakultet

odsjek : Matematika i računarstvo

Web brovseriipretraživački sistemi

Student:

Dijana Čović

Br. indeksa: 3453/06

Mentor:

Prof. dr Milorad K. Banjanin


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

„Mreža“ se prvi put pojavila krajem 1960-tih

JEDNA OD PRVIH MREŽA

ARPANETsu dizajnirali teoretičari kao vojno i istraživačko sredstvo, bez ikakve namjere da dostigne komercijalnu upotrebu.

Prelomna ideja bilo je kreiranje Web-a, sa najvažnijom funkcijom dodjeljivanja URL-a (Uniform Resource Locator) svakoj Web stranici, npr: http://en.wikipedia.org/wiki/URL - stranica na Wikipediji o URL adresama.

Nakon ekspanzije 1980-tih, kada su ARPANET i ostale postojeće mreže počele funkcionisati zajedno preko TCP/IP protokola, nagovještavajući internet, mreža i dalje nije bila prilagođena širokoj javnosti.

TCP/IP protokol stek je skup protokola razvijen da omogući umreženim računarima da dijele resurse putem mreže.


Netscape navigator

NETSCAPE NAVIGATOR

PRVI

POPULARAN

PRETRAŽIVAČ

Ovaj pretraživač bio je distribuiran besplatno

nekomercijalnim korisnicima krajem 1994. god.

Mogućnost trenutnog otvaranja web stranica

Netscape pretraživači su bili kompatibilni sa većinom tadašnjih operativnih sistema i ostali vodeći kroz cijelu deceniju. Zatim su se mnogi drugi pretraživači pojavili, među kojima su Internet Explorer i Safari bili veoma popularni. Netscape više ne postoji, ali su neke od njegovih osnova i dalje u upotrebi kroz njegovog naslednika, Firefox, jednog od najboljih pretraživača danas.

Korisnik je mogao početi otvaranje stranice u trenutku kada je samo dio podataka stigao, bez čekanja potpunog dodavanja stranice.

pogodnost koja je u to vrijeme imala veliki značaj s obzirom na relativno sporu brzinu konekcije tadašnjeg interneta

Bilo je moguće podesiti da se grafika dodaje na kraju.

  • Operativni sistem je program koji objedinjuje

  • različite delove računara i skriva od korisnika

  • detalje funkcionisanja koji se javljaju u korišćenju

  • računara.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Od browsera do pretraživačkih sistema

PRVI

PRETRAŽIVAČI

Pojavljuje se oko 2000-te godine

Browseri(pretraživači) predstavljaju veliku prednost u korištenju

Inreneta. Međutim, najveću inovaciju koja je omogućila korisnicima

bez velikih računarskih sposobnosti da se lako koriste internetom

predstavlja pojava pretraživačkih sistema(search engine).

Najpopularniji danas su: Google, Yahoo!, Microsoft-ov Bingi posebno

Baiduza kineski jezik. Svi smo toliko naviknuti na njih, da skoro

Potpuno zaboravljamo

često su stvarali više problema nego što su mogli da riješe, vraćajući ogromne liste informacija bez ikakve racionalne osnove.

Postiže spektakularan uspjeh za veoma kratko vrijeme.

Ogroman broj programera, računarskih eksperata i

studenata radili su na kreiranju pretraživača interneta pogodnih za obične korisnike (ussr-friendly).

Pretraživanje

interneta je bio posaoza

programereieksperte,doksu

običniljudibiliizgubljeni u

morunebitnihinformacija.

Ono što je Google predstavio bila je prelomna inovacija, algoritam Page Rank (niz stranica) baziran na matematičkom konceptu Markoovog lanca (Markov chain)

Bili su zasnovani na principima vraćanja pojedinih informacija koje, iako dobro ustanovljene i čvrste, nisu bile dovoljne da bi se napravila zadovoljavajuća selekcija mogućih rješenje i odgovora ukoliko nije korišten i neki drugi kriterijum.

Web stranicama dodjeljuje vrijednost njihove „popularnosti“ na osnovu broja dolazećih veza na web grafikonu


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Početak :

Dvamladaiveomapametnastudenta, Sergey BriniLarry Page, razvili

suovajsistemkaodionjihovogstudijskogzadatka

na Stanford Univerzitetu.

Ime je odabranoprepravljanjemriječigoogol.

Ovuriječ je smisliodječakodkoga je dedatražiodakažeime

brojakoji se sastojiodjediniceistonula.

Imetakođeimasličnostiisagoggles, vodenasočivapotrebnada bi se

pregledaoogromanokean – web.

Kompanija je počelasaradom 1998.

godine u garaži u Menlo parku u Kaliforniji.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

1

2

3

4

5

Anatomijapretraživačkog

sistema

Opisivanje

konstrukcije

i funkcionisanja

pretraživačkih

sistema

Kako je mogućesakupitihiljadeodgovora u sekundi

sarazličitihizvoraisortiratiihpremarelevantnosti?

Obrađivanje osnovne strukture podataka i algoritama koji su korišteni

(engl. Relevance) Prikladnostciljevaprojekta u odnosunastvarneprobleme, potrebeiprioriteteciljnihskupinaikorisnikakojima se projekttrebabaviti, te u odnosunafizičkoipolitičkookruženje u okvirukojegdjeluje.

Kako su podaci sakupljeni sa mreže i smješteni u memorije pretraživačkih sistema

Na osnovu kojih kriterijuma se utvrđuje relevantnost sakupljenih stranica

Kako se odgovara na zahtjeve korisnika

Kakoupotrebadistributivnihtehnikaiparalelnog

procesuiranjaomogućavajufinalnirezultat.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Osnovne strukture podataka

Pretraživački sistemi sakupljaju ogromne količine podataka sa interneta koje se moraju sortirati u memoriji i biti spremne da se pošalju korisnicima kao odgovori na njihova pitanja.

  • Podatak je atributivni

  • iskaz nekog entiteta.

  • Entitet je predstavljanje

  • realnog svijeta

  • diskretnim

  • vrijednostima.

Podaci su organizovani u obrnutom sistemu koji

se u glavnom sastoji iz tri tabele

Osnovne

strukture

podataka koje se koriste u glavnom se sastoje od :

Tabela postavljanja

P

Tabela dokumenata

D

Tabela

termina

T

RAZGRANATIH STRUKTURA

KOLONA

MATRICA


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Sakupljene stranice dobijaju cijeli broj kao identifikaciju

docID i smješteni su u D gradacijski po veličini.

Primjer se odnosi na sajt na kome se nalaze originalne

digitalno remasterizovane kompilacije Bitlsa –

Original Compilations Remastered – The Beatles (docID = 5);

zatim na sajt o animaciji –Submarinechannel (docID = 20);

i na sajt sa pričom o pjesmi Yellow Submarine (docID=90).

I URL i kompletan tekst stranica su uskladišteni .


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Termini prisutni u svimdokumentimasusmješetni u tabeli T poabecednomredu.

Termini suriječinasvimprirodnimjezicima, uključujućiinjihovepogrešne

konstrukcijeakoihima; akronimi, e-mail adrese, i td., tj. svekonstrukcijeznakovai

karakteraprisutnenainternetuograničenepraznimrazmacima.

Praznomjesto u tabeli T zatermintukazujenapozicijui u tabeli Podkojepočinje

listapojmovakoji se odnosenadokumentekojisadržepomenutot. U primjerutermin

„beatles“ kojiukazujenai= 10 nalazi se u dokumentu 5 gdje se pojavljuje 8 puta;

u dokumentu 90gdje se pojavljuje 6 putai td. Lista se završavaposebnimsimbolom

$ napozicijii = 32, štoznačida je (32-10) / 2 = 11,odnosno 11 dokumenatasadrži

termin „beatles“, dvaunosa u tabeli P podokumentu.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Sakupljanje podataka sa interneta

Crawling the Web

Sakupljanjem podataka sa interneta bave se sakupljači (crawlers).

Razlika između Web pretraživača i sakupljča

SAKUPLJAČ

PRETRAŽIVAČ

Nalazi se u pretraživačkom sistemu i dizajniran je da sakupi sve dostupne stranice, sa ograničenjem koje određuje struktura sistema – minimalna količina otpada i nebitnih podataka.

Nalazi u računaru korisnika i dizajniran je da pronađe web stranice čija je URL adresa poznata.

Sakupljači (crawlers) – kompjuterski programi dizajnirani da sakupe što više web stranica.

Rad potreban za sakupljanje podataka sa interneta i za funkcionisanje pretrazivačkih sistema zavisi od količine podataka dostupnih korisniku i brzine operacije cijelog sistema.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

OSNOVNA ALGORITAMSKA STRUKTURA SAKUPLJČA

Program koristi dvije strukture podataka: splet poznat kao QUEUE i dvije tabele AiB.

Grupa URL adresa potencijalno važnih sajtova dodata je u splet na samom početku. Sakupljač trži stranice sa adresama u spletu i, ukoliko već nisu prisutne u tabelama, sakuplja i URL i tekst i smješta ih u tabele A i B. Zatim skenira stranicu tražeći potencijalne linkove na njoj i ukoliko traženi URL nije pronađen, stranice se dodaju u splet. Algoritam je veoma jednostavan i nastavlja se sve dok u spletu više nema URL-a koje treba ispitivati (završna komanda while QUEUE provjerava prazan splet).

Svoje elemente drži jedne ispod drugih, otpuštajući gornji element na zahtjev (QUEUE x, gdje promjenjiva

x uzima vrijednost otpuštajućeg elementa) i prihvata nove elemente na dnu (x QUEUE).

Tabele A i B mogu biti primijenjenje slobodnim izborom, pod uslovom da su brzi uvid i bzo umetanje mogući.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Problemi sa kojima se suočavaju Web pretraživači

Pretraživač se sastoji iz tri dijela :

crawler

query handler

Brzina rasta Web-a je znatno veća nego što je postojeća tehnologija u stanju da indeksira.

indexer

Veliki broj Web stranica ažuriraju svoj sadržaj veoma često, što zahteva da ih pretraživači češće posećuju, da bi imali ažurne kopije u indeksu.

Zaduženza automatsko prikupljanje stranica sa Web-a i njihovo smeštanje u indeks pretraživača

Dinamičke stranice se ili sporo i teško indeksiraju ili mogu rezultovati u prekomerenom broju rezultata .

Obezbeđuje kreiranje

odgovarajuće strukture

(inverted index ), koja

omogućava efikasnure

prezentaciju

ipretraživanje arhiviranih

stranica.

Prihvata korisničke

upite i odgovara na njih

korišćenjem indeksa

pretraživača

Veliki broj dinamički generisanih websajtova nije uopšte moguće indeksirati korišćenjem standardnih web pretraživača ( ovi sajtovi čine tzv. “nevidljivi web” ).

Relevantnost stranica, pored toga što se teško određuje, može biti i dvosmislena, odnosno korisnik i pretraživač mogu imati različita “shvatanja” relevantnosti.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

C

R

A

W

L

I

N

G

Web crawling predstavlja proces prikupljanja stranica sa

Web-a, radi njihovog indeksiranja u okviru Web pretraživača.

Prikupljanje što većeg broja Web stranica, zajedno sa informacijama o njihovoj međusobnoj povezanosti, u što kraćem vremenskom periodu i na najefikasniji mogući način.

CILJ

Program koji automatizovano krstari web-om prikupljajući informacije o stranama

Web crawler

Web robot

Web bot

  • Crawling sistem

  • ( eng. Crawling System )

  • Crawling aplikacija

  • ( eng. Crawling Application )

SASTOJI SE :

Crawling aplikacija ima zadatak da donese odluku koju sledeću adresu ( URL ) treba Crawling sistem da posjeti.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Crawler se sastoji od više modula :

struktura crawler-a sa navedenim modulima

sadrži URL-ove koji će biti

fetch-ovani u tekućem crawl-u

URL frontier

određuje adresu web servera na

kome se nalazi URL koji

fetch-ujemo

DNS resolution modul

Fetch modul

retrieve-uje stranicu na datom

URL-u

ekstrahuje skup linkova sa

zadate web strane

Parsing modul

Modul koji određuje da li se ekstrahovani link već u

URL frontier redu ili je nedavno fetch-ovan


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Karakteristike Web-a koje diktiraju ponašanje Web crawler-a

Veliki broj stranica

Brzina promjene

  • Dok crawrelposjeti poslednju stranicu

  • na sajtu, veoma je verovatno da su u

  • međuvremenu neke strane dodate,

  • neke obrisane, a neke izmenjene.

  • Ovo je pogotovo karakteristično

  • za velike sajtove.

  • Ovo ima za posledicu

  • da crawler-imogu samo

  • da posete delić web-a,

  • što znači da taj delić

  • treba dabude posebno

  • odabran.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

INDEKSIRANJE

Obavlja se paralelno sa crawl operacijom, korišćenjem strukture invertovanog indeksa

Invertovani indeks, predstavlja osnovnu strukturu podataka koja se korisiti u okviru Web pretraživača i IR softvera uopšte

Indeks struktra koja sadrži presikavanja

izmeđuključnih reči i njihovih lokacija u

skupu dokumenata, i korišćenjem koje

se omogućava efikasno pretraživanje

posmatranog skupa.

REALIZACIJA

Na nivou riječi

(word level inverted index)

Na nivou zapisa

( record level inverted index )

IR (information retrieval )oblast koja se bavi izučavanje metoda za pronalazak informacija u okviru dokumenata i van njih

Sadrži listu referenci na dokument za svaku riječ koja se u okviru njega javlja makar jedanput i na nivou reči

Sadrži i informacije o

pozicijisvakog javljanja

date reči u okviru

odgovarajućeg

dokumenta.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

PROCES INDEKSIRANJA

Za zadati korpus dokumenata, prolazi se kroz svaki dokument i za svaki token, vrši se njegovo ažuriranje u okviru indeksa:

  • .

Ukoliko već postoji,dodaje se tekući dokument kao lokacija u kojoj se nalazi

  • Tokeni - su jedinice koje imaju za jezik smisleno značenje.

  • Token - je određena kategorija jezika i više stringova se

  • može izraziti jednim tokenom.

  • .

Ukoliko ne postoji, kreira se novi ulaz u indeksu, za zadati token i tekući dokument se postavlja za prvu lokaciju u kojoj se navedeni token nalazi.

Nakon završetka ovog procesa, sve operacije pretraživanja ( koje su oblika : “naći sve stranice na web-u u kojima se nalaze navedeni tokeni” ), obavljaju se preko dobijenog invertovanog indeksa.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

PAGERANK

Web se najčešće pradstavlja, u vidu Web grafa:

W (P,L)

PageRank algoritam (koji se koristi u okviru Google pretraživača), ima za cilj dodeljivanje numeričke vrednosti u rasponu 0 do 1 (koja se naziva pagerank), svakom čvoru u Web Grafu, koja ukazuje na njegovu relevantost, pri čemu data vrednost prvenstveno zavisi od same link strukture Web Grafa.

G=(V,E)

skup

stranica

na Web-u

skup svih

hiperlinkova

između

stranica

SKUP

ČVOROVA

SKUP

GRANA

Grane predstavaju relaciju između čvorova.

Npr., graf može da predstavlja skup ljudi, a da grana povezuje dva čovjeka ako se oni poznaju.


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Spam na internetu (Spamming)

Spam

zloupotreba elektronskih sistema u svrhu slanja neželjenih masovnih poruka bez ikakvog kriterijuma.

Web spamming

- tehnike koje nastoje povećati očiglednu

vrijednost „tražene stranice“

Bezbrojne poruke koje neki korisnici primaju i-mejlom, a koje reklamiraju proizvode za koje nikada nisu izrazili interesovanje, obaviještavaju o temama na koje se nisu pretplatili, lažne privatne poruke koje vode na stranice pornografskog sadržaja, i sl., samo su neki od oblika spama.

Concocted ili spoofstranice - lažni web sajtovi


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Concocted sajtovi

Nude usluge ili proizvode koji nikad neće biti pruženi ili poslati.

Na žalost, na ovaj način

mnogi dobri sajtovi

moguizgledati

sumnjivo i biti

odbačeni.

Sakupljaju novac i brzo nestaju

Obavljaju svojevrstan nesofisticiran napad oslanjajući se na naivnost korisnika .

Spoof sajtovi

Mnogo sofisticiraniji

i opasniji jer su

njihove stranice

dosledne i uvjerljive

imitacije pravih sajtova,

najčešće banaka

Namjera je da privuku

korisnike pravog sajta na

lažni kako bi ukrali lične

podatke ili naplatili

određene usluge

Najčešći način privlačenja

korisnika je poznat kao

phishing (pecanje) koje

se obavlja slanjem spoof

linkova e-mailom


Univerzitet u isto nom sarajevu filozofski fakultet odsjek matematika i ra unarstvo

Savjeti kako se zaštiti od Web napada na internetu:

!

  • Čuvajte se e-mailova od udovice stranog generala koja želi da podijeli

  • nekoliko miliona dolara koje je njen muž sakrio prije njegove smrti.

!

  • Čuvajte se bilo kakvih poruka napisanih neuobičajenim jezikom koji je očigledno

  • rezultat nekog automatskog prevodioca, posebno ako traži vaše lične podatke.

  • Obratite pažnju na sve e.mailove od „vaše“ banke jer ime banaka može lako

  • da se otkrije krozvašu istoriju pretraživanja interneta, i generalno banke ne

  • komuniciraju često preko e-maila.

!

I, malo ozbiljnije, čuvajte se podmuklih „društveno orijentisanih“ e-mail poruka koje

mogu zadobiti vaše povjerenje jer vam se može učiniti da su ih napisali vaši prijatelji,

jer su pune ličnih informacija koje lako mogu biti sakupljene sa društvenih mreža.


  • Login