Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo - PowerPoint PPT Presentation

gaenor
slide1 n.
Skip this Video
Loading SlideShow in 5 Seconds..
Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo PowerPoint Presentation
Download Presentation
Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo

play fullscreen
1 / 22
Download Presentation
Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo
168 Views
Download Presentation

Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo Web brovseriipretraživački sistemi Student: Dijana Čović Br. indeksa: 3453/06 Mentor: Prof. dr Milorad K. Banjanin

  2. „Mreža“ se prvi put pojavila krajem 1960-tih JEDNA OD PRVIH MREŽA ARPANETsu dizajnirali teoretičari kao vojno i istraživačko sredstvo, bez ikakve namjere da dostigne komercijalnu upotrebu. Prelomna ideja bilo je kreiranje Web-a, sa najvažnijom funkcijom dodjeljivanja URL-a (Uniform Resource Locator) svakoj Web stranici, npr: http://en.wikipedia.org/wiki/URL - stranica na Wikipediji o URL adresama. Nakon ekspanzije 1980-tih, kada su ARPANET i ostale postojeće mreže počele funkcionisati zajedno preko TCP/IP protokola, nagovještavajući internet, mreža i dalje nije bila prilagođena širokoj javnosti. TCP/IP protokol stek je skup protokola razvijen da omogući umreženim računarima da dijele resurse putem mreže.

  3. NETSCAPE NAVIGATOR PRVI POPULARAN PRETRAŽIVAČ Ovaj pretraživač bio je distribuiran besplatno nekomercijalnim korisnicima krajem 1994. god. Mogućnost trenutnog otvaranja web stranica Netscape pretraživači su bili kompatibilni sa većinom tadašnjih operativnih sistema i ostali vodeći kroz cijelu deceniju. Zatim su se mnogi drugi pretraživači pojavili, među kojima su Internet Explorer i Safari bili veoma popularni. Netscape više ne postoji, ali su neke od njegovih osnova i dalje u upotrebi kroz njegovog naslednika, Firefox, jednog od najboljih pretraživača danas. Korisnik je mogao početi otvaranje stranice u trenutku kada je samo dio podataka stigao, bez čekanja potpunog dodavanja stranice. pogodnost koja je u to vrijeme imala veliki značaj s obzirom na relativno sporu brzinu konekcije tadašnjeg interneta Bilo je moguće podesiti da se grafika dodaje na kraju. • Operativni sistem je program koji objedinjuje • različite delove računara i skriva od korisnika • detalje funkcionisanja koji se javljaju u korišćenju • računara.

  4. Od browsera do pretraživačkih sistema PRVI PRETRAŽIVAČI Pojavljuje se oko 2000-te godine Browseri(pretraživači) predstavljaju veliku prednost u korištenju Inreneta. Međutim, najveću inovaciju koja je omogućila korisnicima bez velikih računarskih sposobnosti da se lako koriste internetom predstavlja pojava pretraživačkih sistema(search engine). Najpopularniji danas su: Google, Yahoo!, Microsoft-ov Bingi posebno Baiduza kineski jezik. Svi smo toliko naviknuti na njih, da skoro Potpuno zaboravljamo često su stvarali više problema nego što su mogli da riješe, vraćajući ogromne liste informacija bez ikakve racionalne osnove. Postiže spektakularan uspjeh za veoma kratko vrijeme. Ogroman broj programera, računarskih eksperata i studenata radili su na kreiranju pretraživača interneta pogodnih za obične korisnike (ussr-friendly). Pretraživanje interneta je bio posaoza programereieksperte,doksu običniljudibiliizgubljeni u morunebitnihinformacija. Ono što je Google predstavio bila je prelomna inovacija, algoritam Page Rank (niz stranica) baziran na matematičkom konceptu Markoovog lanca (Markov chain) Bili su zasnovani na principima vraćanja pojedinih informacija koje, iako dobro ustanovljene i čvrste, nisu bile dovoljne da bi se napravila zadovoljavajuća selekcija mogućih rješenje i odgovora ukoliko nije korišten i neki drugi kriterijum. Web stranicama dodjeljuje vrijednost njihove „popularnosti“ na osnovu broja dolazećih veza na web grafikonu

  5. Početak : Dvamladaiveomapametnastudenta, Sergey BriniLarry Page, razvili suovajsistemkaodionjihovogstudijskogzadatka na Stanford Univerzitetu. Ime je odabranoprepravljanjemriječigoogol. Ovuriječ je smisliodječakodkoga je dedatražiodakažeime brojakoji se sastojiodjediniceistonula. Imetakođeimasličnostiisagoggles, vodenasočivapotrebnada bi se pregledaoogromanokean – web. Kompanija je počelasaradom 1998. godine u garaži u Menlo parku u Kaliforniji.

  6. 1 2 3 4 5 Anatomijapretraživačkog sistema Opisivanje konstrukcije i funkcionisanja pretraživačkih sistema Kako je mogućesakupitihiljadeodgovora u sekundi sarazličitihizvoraisortiratiihpremarelevantnosti? Obrađivanje osnovne strukture podataka i algoritama koji su korišteni (engl. Relevance) Prikladnostciljevaprojekta u odnosunastvarneprobleme, potrebeiprioriteteciljnihskupinaikorisnikakojima se projekttrebabaviti, te u odnosunafizičkoipolitičkookruženje u okvirukojegdjeluje. Kako su podaci sakupljeni sa mreže i smješteni u memorije pretraživačkih sistema Na osnovu kojih kriterijuma se utvrđuje relevantnost sakupljenih stranica Kako se odgovara na zahtjeve korisnika Kakoupotrebadistributivnihtehnikaiparalelnog procesuiranjaomogućavajufinalnirezultat.

  7. Osnovne strukture podataka Pretraživački sistemi sakupljaju ogromne količine podataka sa interneta koje se moraju sortirati u memoriji i biti spremne da se pošalju korisnicima kao odgovori na njihova pitanja. • Podatak je atributivni • iskaz nekog entiteta. • Entitet je predstavljanje • realnog svijeta • diskretnim • vrijednostima. Podaci su organizovani u obrnutom sistemu koji se u glavnom sastoji iz tri tabele Osnovne strukture podataka koje se koriste u glavnom se sastoje od : Tabela postavljanja P Tabela dokumenata D Tabela termina T RAZGRANATIH STRUKTURA KOLONA MATRICA

  8. Sakupljene stranice dobijaju cijeli broj kao identifikaciju docID i smješteni su u D gradacijski po veličini. Primjer se odnosi na sajt na kome se nalaze originalne digitalno remasterizovane kompilacije Bitlsa – Original Compilations Remastered – The Beatles (docID = 5); zatim na sajt o animaciji –Submarinechannel (docID = 20); i na sajt sa pričom o pjesmi Yellow Submarine (docID=90). I URL i kompletan tekst stranica su uskladišteni .

  9. Termini prisutni u svimdokumentimasusmješetni u tabeli T poabecednomredu. Termini suriječinasvimprirodnimjezicima, uključujućiinjihovepogrešne konstrukcijeakoihima; akronimi, e-mail adrese, i td., tj. svekonstrukcijeznakovai karakteraprisutnenainternetuograničenepraznimrazmacima. Praznomjesto u tabeli T zatermintukazujenapozicijui u tabeli Podkojepočinje listapojmovakoji se odnosenadokumentekojisadržepomenutot. U primjerutermin „beatles“ kojiukazujenai= 10 nalazi se u dokumentu 5 gdje se pojavljuje 8 puta; u dokumentu 90gdje se pojavljuje 6 putai td. Lista se završavaposebnimsimbolom $ napozicijii = 32, štoznačida je (32-10) / 2 = 11,odnosno 11 dokumenatasadrži termin „beatles“, dvaunosa u tabeli P podokumentu.

  10. Sakupljanje podataka sa interneta Crawling the Web Sakupljanjem podataka sa interneta bave se sakupljači (crawlers). Razlika između Web pretraživača i sakupljča SAKUPLJAČ PRETRAŽIVAČ Nalazi se u pretraživačkom sistemu i dizajniran je da sakupi sve dostupne stranice, sa ograničenjem koje određuje struktura sistema – minimalna količina otpada i nebitnih podataka. Nalazi u računaru korisnika i dizajniran je da pronađe web stranice čija je URL adresa poznata. Sakupljači (crawlers) – kompjuterski programi dizajnirani da sakupe što više web stranica. Rad potreban za sakupljanje podataka sa interneta i za funkcionisanje pretrazivačkih sistema zavisi od količine podataka dostupnih korisniku i brzine operacije cijelog sistema.

  11. OSNOVNA ALGORITAMSKA STRUKTURA SAKUPLJČA Program koristi dvije strukture podataka: splet poznat kao QUEUE i dvije tabele AiB. Grupa URL adresa potencijalno važnih sajtova dodata je u splet na samom početku. Sakupljač trži stranice sa adresama u spletu i, ukoliko već nisu prisutne u tabelama, sakuplja i URL i tekst i smješta ih u tabele A i B. Zatim skenira stranicu tražeći potencijalne linkove na njoj i ukoliko traženi URL nije pronađen, stranice se dodaju u splet. Algoritam je veoma jednostavan i nastavlja se sve dok u spletu više nema URL-a koje treba ispitivati (završna komanda while QUEUE provjerava prazan splet). Svoje elemente drži jedne ispod drugih, otpuštajući gornji element na zahtjev (QUEUE x, gdje promjenjiva x uzima vrijednost otpuštajućeg elementa) i prihvata nove elemente na dnu (x QUEUE). Tabele A i B mogu biti primijenjenje slobodnim izborom, pod uslovom da su brzi uvid i bzo umetanje mogući.

  12. Problemi sa kojima se suočavaju Web pretraživači Pretraživač se sastoji iz tri dijela : crawler query handler Brzina rasta Web-a je znatno veća nego što je postojeća tehnologija u stanju da indeksira. indexer Veliki broj Web stranica ažuriraju svoj sadržaj veoma često, što zahteva da ih pretraživači češće posećuju, da bi imali ažurne kopije u indeksu. Zaduženza automatsko prikupljanje stranica sa Web-a i njihovo smeštanje u indeks pretraživača Dinamičke stranice se ili sporo i teško indeksiraju ili mogu rezultovati u prekomerenom broju rezultata . Obezbeđuje kreiranje odgovarajuće strukture (inverted index ), koja omogućava efikasnure prezentaciju ipretraživanje arhiviranih stranica. Prihvata korisničke upite i odgovara na njih korišćenjem indeksa pretraživača Veliki broj dinamički generisanih websajtova nije uopšte moguće indeksirati korišćenjem standardnih web pretraživača ( ovi sajtovi čine tzv. “nevidljivi web” ). Relevantnost stranica, pored toga što se teško određuje, može biti i dvosmislena, odnosno korisnik i pretraživač mogu imati različita “shvatanja” relevantnosti.

  13. C R A W L I N G Web crawling predstavlja proces prikupljanja stranica sa Web-a, radi njihovog indeksiranja u okviru Web pretraživača. Prikupljanje što većeg broja Web stranica, zajedno sa informacijama o njihovoj međusobnoj povezanosti, u što kraćem vremenskom periodu i na najefikasniji mogući način. CILJ Program koji automatizovano krstari web-om prikupljajući informacije o stranama Web crawler Web robot Web bot • Crawling sistem • ( eng. Crawling System ) • Crawling aplikacija • ( eng. Crawling Application ) SASTOJI SE : Crawling aplikacija ima zadatak da donese odluku koju sledeću adresu ( URL ) treba Crawling sistem da posjeti.

  14. Crawler se sastoji od više modula : struktura crawler-a sa navedenim modulima sadrži URL-ove koji će biti fetch-ovani u tekućem crawl-u URL frontier određuje adresu web servera na kome se nalazi URL koji fetch-ujemo DNS resolution modul Fetch modul retrieve-uje stranicu na datom URL-u ekstrahuje skup linkova sa zadate web strane Parsing modul Modul koji određuje da li se ekstrahovani link već u URL frontier redu ili je nedavno fetch-ovan

  15. Karakteristike Web-a koje diktiraju ponašanje Web crawler-a Veliki broj stranica Brzina promjene • Dok crawrelposjeti poslednju stranicu • na sajtu, veoma je verovatno da su u • međuvremenu neke strane dodate, • neke obrisane, a neke izmenjene. • Ovo je pogotovo karakteristično • za velike sajtove. • Ovo ima za posledicu • da crawler-imogu samo • da posete delić web-a, • što znači da taj delić • treba dabude posebno • odabran.

  16. INDEKSIRANJE Obavlja se paralelno sa crawl operacijom, korišćenjem strukture invertovanog indeksa Invertovani indeks, predstavlja osnovnu strukturu podataka koja se korisiti u okviru Web pretraživača i IR softvera uopšte Indeks struktra koja sadrži presikavanja izmeđuključnih reči i njihovih lokacija u skupu dokumenata, i korišćenjem koje se omogućava efikasno pretraživanje posmatranog skupa. REALIZACIJA Na nivou riječi (word level inverted index) Na nivou zapisa ( record level inverted index ) IR (information retrieval )oblast koja se bavi izučavanje metoda za pronalazak informacija u okviru dokumenata i van njih Sadrži listu referenci na dokument za svaku riječ koja se u okviru njega javlja makar jedanput i na nivou reči Sadrži i informacije o pozicijisvakog javljanja date reči u okviru odgovarajućeg dokumenta.

  17. PROCES INDEKSIRANJA Za zadati korpus dokumenata, prolazi se kroz svaki dokument i za svaki token, vrši se njegovo ažuriranje u okviru indeksa: • . Ukoliko već postoji,dodaje se tekući dokument kao lokacija u kojoj se nalazi • Tokeni - su jedinice koje imaju za jezik smisleno značenje. • Token - je određena kategorija jezika i više stringova se • može izraziti jednim tokenom. • . Ukoliko ne postoji, kreira se novi ulaz u indeksu, za zadati token i tekući dokument se postavlja za prvu lokaciju u kojoj se navedeni token nalazi. Nakon završetka ovog procesa, sve operacije pretraživanja ( koje su oblika : “naći sve stranice na web-u u kojima se nalaze navedeni tokeni” ), obavljaju se preko dobijenog invertovanog indeksa.

  18. PAGERANK Web se najčešće pradstavlja, u vidu Web grafa: W (P,L) PageRank algoritam (koji se koristi u okviru Google pretraživača), ima za cilj dodeljivanje numeričke vrednosti u rasponu 0 do 1 (koja se naziva pagerank), svakom čvoru u Web Grafu, koja ukazuje na njegovu relevantost, pri čemu data vrednost prvenstveno zavisi od same link strukture Web Grafa. G=(V,E) skup stranica na Web-u skup svih hiperlinkova između stranica SKUP ČVOROVA SKUP GRANA Grane predstavaju relaciju između čvorova. Npr., graf može da predstavlja skup ljudi, a da grana povezuje dva čovjeka ako se oni poznaju.

  19. Spam na internetu (Spamming) Spam zloupotreba elektronskih sistema u svrhu slanja neželjenih masovnih poruka bez ikakvog kriterijuma. Web spamming - tehnike koje nastoje povećati očiglednu vrijednost „tražene stranice“ Bezbrojne poruke koje neki korisnici primaju i-mejlom, a koje reklamiraju proizvode za koje nikada nisu izrazili interesovanje, obaviještavaju o temama na koje se nisu pretplatili, lažne privatne poruke koje vode na stranice pornografskog sadržaja, i sl., samo su neki od oblika spama. Concocted ili spoofstranice - lažni web sajtovi

  20. Concocted sajtovi Nude usluge ili proizvode koji nikad neće biti pruženi ili poslati. Na žalost, na ovaj način mnogi dobri sajtovi moguizgledati sumnjivo i biti odbačeni. Sakupljaju novac i brzo nestaju Obavljaju svojevrstan nesofisticiran napad oslanjajući se na naivnost korisnika . Spoof sajtovi Mnogo sofisticiraniji i opasniji jer su njihove stranice dosledne i uvjerljive imitacije pravih sajtova, najčešće banaka Namjera je da privuku korisnike pravog sajta na lažni kako bi ukrali lične podatke ili naplatili određene usluge Najčešći način privlačenja korisnika je poznat kao phishing (pecanje) koje se obavlja slanjem spoof linkova e-mailom

  21. Savjeti kako se zaštiti od Web napada na internetu: ! • Čuvajte se e-mailova od udovice stranog generala koja želi da podijeli • nekoliko miliona dolara koje je njen muž sakrio prije njegove smrti. ! • Čuvajte se bilo kakvih poruka napisanih neuobičajenim jezikom koji je očigledno • rezultat nekog automatskog prevodioca, posebno ako traži vaše lične podatke. • Obratite pažnju na sve e.mailove od „vaše“ banke jer ime banaka može lako • da se otkrije krozvašu istoriju pretraživanja interneta, i generalno banke ne • komuniciraju često preko e-maila. ! I, malo ozbiljnije, čuvajte se podmuklih „društveno orijentisanih“ e-mail poruka koje mogu zadobiti vaše povjerenje jer vam se može učiniti da su ih napisali vaši prijatelji, jer su pune ličnih informacija koje lako mogu biti sakupljene sa društvenih mreža.