1 / 23

Pronalaženje informacija na WEB-u

Pronalaženje informacija na WEB-u. Uvod. P ojava i razvoj WEB-a doveli su do značajnih izmena u načinu pristupa informacijama U osnovi, WEB je sačinjen od miliona WEB stranica pohranjenih na računarima širom sveta, a povezanih intrenetom

urbana
Download Presentation

Pronalaženje informacija na WEB-u

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pronalaženje informacija na WEB-u Mina Milić - Pronalaženje informacija na WEB-u

  2. Uvod • Pojava i razvoj WEB-a doveli su do značajnih izmena u načinu pristupa informacijama • U osnovi, WEB je sačinjen od miliona WEB stranica pohranjenih na računarima širom sveta, a povezanih intrenetom • Razvoj WEB-a započeo je 1989 u CERN-u gde je Tim Berners-Lee sa kolegama kreirao protokol koji je standardizovao komunikaciju između servera i klijenata (HTTP) • WEBdobijavelikupopularnostpojavomgrafičkog pretraživača Mosaickoji je uveo novi način pristupa WEB informacijama po principu “uperi i klikni” • Ubrzo zatim pojavljuju se i čuveni Netscape Navigator, a nedugo za njim i Internet Explorer • Od tada pa do danas WEB je nastavioda raste eksponencijalnom progresijom • Tradicionalne tehnike pronalaženja informacija morale su biti testirane i modifikovane kako bi se mogle primenjivati za indeksiranje i pronalaženje WEB dokumenata Mina Milić - Pronalaženje informacija na WEB-u

  3. Tradicionalno nasuprot WEB pronalaženju informacija • WEB pretraživanje se značajno razlikuje od tradicionalnih sistema za pretraživanje teksta, a to je precizno oslikano kroz deset ključnih razlika: • Distribuiranapriroda WEB-a • WEB sadržaji su rašireni širom sveta i smešteni na raznovrsnim platformama koje se međusobno razlikuju, kako hardverski tako i softverski, što značajno otežava indeksiranje i pronalaženje istih • Sa druge strane, sistemi za pretraživanje teksta uglavnom pretražuju komplete informacija znatno manjeg obima, a dokumenta su uglavnom kreirana prema određenom skupu standardizovanih pravila (npr. OPAC) • Veličina i rast WEB-a • Od svog postanka, WEB je rastao eksponencijalno i bilo je potrebno prilagoditi tradicionlalne tekst pretraživače za rad sa velikim količinama podataka na WEB-u • Duboki nasuprot površinskom WEB-u • Postoji razlika između lako dostupnih površinskih inofmacija i dublje uskladištenih informacija kojih ima znatno više, ali kojima se pristupa isključivo putem posebno ovlašćenih kanala (često zaštićenih šiframa) ili specijalnih programa Mina Milić - Pronalaženje informacija na WEB-u

  4. Tradicionalno nasuprot WEB pronalaženju informacija • Vrste i formati dokumenata • Sistemi za pronalaženje teksta rade isključivo sa tekstualnim podacima dok se na WEB-u mogu pronaći raznovrsni podaci (od tekstualnih do multimedijalnih) što je znatno teže za indeksiranje i pronalaženje • Kvalitet informacija • WEB sadržaji dolaze iz raznih proverenih i neproverenih izvora što značajno otežava pronalaženje kvalitetnih informacija za razliku od sistema za pretraživanje teksta koji rade sa kontrolisanim izvorima informacija • Frekventnost promena • Indeksiranje i pretraživanje WEB-a je značajno otežano konstantnim promenama i pomeranjima sadržaja za razliku od sistema za pretraživanje teksta gde se jednom unet tekst gotovo nikad ne menja, a u najgorem slučaju jedino u potpunosti ukloni iz sistema • Vlasništvo • Jedan od ključnih problema u pronalaženju informacija na WEB-u su prava pristupa istim, dok su neke potpuno besplatne, za druge se mora platiti naknada Mina Milić - Pronalaženje informacija na WEB-u

  5. Tradicionalno nasuprot WEB pronalaženju informacija • Distribuirani korisnici • Korisnici WEB informacija su locirani širom sveta što značajno otežava dizajniranje sistema za pronalaženje informacija na WEB-u usled nedostatka informacija o tipu korisnika, navikama pri pretraživanju, lokaciji itd. • Nasuprot WEB-u, većina sistema za pronalažanje tekstualnih informacija su dizajnirani prema potrebama određene ciljne grupe korisnika čije su potrebe, navike i lokacije unapred poznate • Jezička raznolikost • Uprkos jezičkoj raznolikosti prisutnoj na WEB-u, sistemi za WEB pretraživanje bi trebalo da daju unificirane rezultate bez obzira na jezik na kom je upit postavljen, što značajno otežava dizajniranje istih • Problemi finansiranja • Za kreiranje i održavanje efektnog i efikasnog sistema za WEB pretraživanje neophodni su ogromni materijalni resursi i problem predstavlja činjenica da ne postoji jedinstven izvor finansiranja za poduhvate te vrste, a sa druge strane svima je neophodan što bolji i efikasniji sistem Mina Milić - Pronalaženje informacija na WEB-u

  6. WEB informacije: veličinairast • Merenje veličine i rasta WEB-a je težak zadatak i postoje dva pristupa: premabroju WEB sajtova na odgovarajućim IP adresamaipremabrojupojedinačnih WEB stranica na svim sajtovima • Prema procenama, 2002. godine je postojalo preko devet miliona WEB sajtova • Znatno teže je prebrojati WEB stranice, a procenjuje se da je Google, kao najveći zvanični pretraživač, imao preko 3,8 milijardi indeksiranih stranica još 2003. godine • Postojedvekategorijeinformacijana WEB-u: • Informacije koje su dostupne korišćenjem alata za pretraživanje WEB-a i koje spadaju u takozvani površinski WEB lako dostupan svim korisnicima • Informacije kojima se može pristupiti isključivo pomoću posebnih programa koji se aktiviraju na WEB stranicama i koje spadajau u takozvani duboki WEB. Informacije ovog tipa smeštene su u odgovarajućim bazama podataka dostupnim za pretraživanje isključivo na direktan zahtev Mina Milić - Pronalaženje informacija na WEB-u

  7. WEB informacije: veličinairast • Istraživanja iz 2000. godine pokazuju da je još tada odnos između količine podataka površinskog i dubinskog WEB-a bio 1:500 • Potrebno je naglasitidaukupanbrojindeksiranihstranicaveomavarirameđu pretraživačima, ali je činjenica da nijedan od pretraživača ne indeksira više od 16% površinskog WEB-a • Ako se uzme u obzir da se uopšte ne vrši indeksiranje dubinskog WEB-a usled tehnologije pretrage WEB pretraživača, dolazi se do zaključka da današnji pretraživači indeksiraju svega 0.03% dostupnih WEB stranica • Bez obzira na ovako male cifre, indeksirati 4 milijarde WEB stranica (Google) podrazumeva skladištenje ogromne količine dokumenata, znatno veće nego što je bilo koja preko interneta dostupna baza podataka • Dodatni problem čine i konstantne promene sadržaja WEB stranica pa čak i brisanja kompletnih stranica, te stoga, prema Rasmusenu, dinamička priroda WEB-a čini ključnu razliku između tradicionalnih i WEB tehnika pronalaženja informacija • Postoji još jedna ključna razlika, a to je broj izvršenih dnevnihpretraga. Dizajn konvencionalnih sistema za pronalaženje informacija jednostavno ne dozvoljava toliko ogroman broj dnevnih pretraga koliko se izvrši na bilo kom od svetski poznatih WEB pretraživača Mina Milić - Pronalaženje informacija na WEB-u

  8. Alati za pristup informacijama na WEB-u • Korisnik pristupa internetu unošenjem URL-a u odgovarajući kompjuterski program, takozvani WEB pretraživač (Mozilla, Netscape...) koji u osnovi ima dva glavna zadatka: • Pristupa WEB serveru i iz mreže “dovlači” odgovarajuću stranicu na ekran vašeg računara • Interpretira HTML kod na odgovarajući način tako da stranica izgleda onako kako je njen autor zamislio • Iako korisnici mogu na jednostavan način pretraživati WEB ukucavanjem URL-a i praćenjem linkova, problem nastaje kada se traži specifična informacija u moru WEB sajtova i WEB stranica • Da bi se prevazišao ovaj problem, dizajnirano je nekoliko alata za pretraživanje što je omogućilo da pretraživanje konkretnih informacija na WEB-u bude krajnje jednostavno • U osnovi, postoje dva načina traženja informacija • Praćenjem linkova u specijalnoj listi zvanoj direktorijum • Korišćenjem pretraživača koji pretražuju redovno ažuriranu, ali fiksnu bazu podataka (koju kreira alat zvani Pauk) na odgovarajuću reč ili frazu koju korisnik unosi i prezentuju odgovarajuće WEB stranice iz te baze Mina Milić - Pronalaženje informacija na WEB-u

  9. Kako rade pretraživači • Iakosvi pretraživači, u osnovi, imaju isti cilj, u mnogome se međusobno razlikuju – prema brzini pretrage, načinu prikazivanja podataka, veličini baze podataka, frkvenciji njenog osvežavanja kao i kriterijumima indeksiranja stranica • Bez obzira na razlike među pretraživačima, svi oni, u osnovi, imaju sledeće tri osnovne funkcije: • Pretraživanje interneta prema određenom kompletu kriterijuma • Čuvanje indeksa pronađenih reči i fraza, njihovih adresa, broja pristupa itd. • Omogućavaju korisnicima pretragu na reči, fraze ili kombinacije istih prema već formiranom indeksu • Tri osnovne komponente svakog pretraživača su: • Pauk • Softversainterfejsomzapretraživanje • Indeks Mina Milić - Pronalaženje informacija na WEB-u

  10. Pauk • Pauk je program koji automatski donosi WEB stranice pretraživačima • Pauk tretira WEB kao graf i na osnovu unesenog URL-a on redom iščitava stranice prateći sve linkove bilo po dubini (prateći jedan link do kraja) ili po širini (posećujući redom sve linkove sa jedne strane) čime odaje utisak puzanja po WEB-u • Osnovni problem pauka je odluka o indeksiranju stranice - kvalitet WEB stranice koja će biti indeksirana može da se odredi na osnovu broja poseta toj stranici što baš i nije jednostavno izračunati ili na osnovu broja linkova ka toj stranici što je, generalno, mnogo češći kriterijum indeksiranja programa ovog tipa • Drugi značajan problem je određivanje frekvencije ponovnog posećivanja stranica koje su već indeksirane i proveravanje da li je došlo do izmena njihovih sadržaja Mina Milić - Pronalaženje informacija na WEB-u

  11. Softver za pretraživanje • Softver za pretraživanje je program za pronalaženje informacija koji ima dva osnovna zadatka: • Poređenje unosa sa milionima zapisa sačuvanih u indeksu • Rangiranje pronađenih zapisa (WEB stranica) prema određenom redosledu • Svaki pretraživač ima sopstveni kriterijum čuvanja ili odbacivanja ključnih reči pretrage prema tome gde se ta reč pojavljuje (naslov stranice, link, meta-tag...) ili koliko često se ta reč pojavljuje itd. • Prema tome, različiti pretraživači daju različite rezultate na istu reč pretrage ili različit redosled istih rezultata (pronađenih WEB stranica) itd. • Google koristi princip rangiranja stranica za određivanje važnosti stranice tako što vrši analizu citiranja te stranice tj. najvažnije i time prvorangirane na listi rezultata su one stranice na koje ukazuje najveći broj linkova Mina Milić - Pronalaženje informacija na WEB-u

  12. Indeksiranje • Stariji pretraživači su indeksirali samo pojedine komponente svake WEB stranice, ali se sve češće indeksiraju kompletni tekstovi sa WEB stranica • WEB pretraživači uglavnom čuvaju u tajnosti algoritme koje koriste za pretraživanje (uglavnom su to varijacije Bulovogi modela vektosrkog prostora) • Jednoodglavnihpravilakojim se algoritmivodeprirangiranju je lokacijaifrekventnostključnih reči na WEB stranici • Bitna je lokacija termina pretrage na samoj stranici, pa ako se on nalazi u naslovu HTML koda tretiraće se važnijim nego ostali ili ako se pojavljuje u paragrafima bližim naslovu itd. • Stranice na kojima se termini pretrage često pojavljuju tretiraju se važnijim od drugih WEB stranica Mina Milić - Pronalaženje informacija na WEB-u

  13. Proces • Pretraživači uglavnom drže u tajnosti svoje procese “puzanja” iindeksiranja, ali Google javno objavljuje svoju metodologiju koja se sastoji od sledećih koraka: • Puzanje po WEB-u (skidanje WEB stranica) radi se pomoću nekoliko distribuiranih paukova • URL server šalje paucima listu URL-ova • Dohvaćene WEB stranice se šalju serveru za skladištenje podataka gde se kompresuju i odlažu u skladište • Svakoj od tih WEB stranica se dodeljuje identifikacija (docID) čim se njen URL isparsira • Funkciju indeksiranja vrše indekser i sorter • Indekser čita materijal iz skladišta, dekompresuje dokumenta i parsira ih Mina Milić - Pronalaženje informacija na WEB-u

  14. Proces • Svaki dokument se konvertuje u komplet takozvanih pogodaka (pojavljivanja specifičnih reči), a pogotci dokumentuju reč, njenu poziciju u dokumentu, aproksimaciju veličine fonta, prisustvo velikih slova • Indekser distribuira pogotke u takozvane komplete barela i kreira delimično sortirani indeks • Indekser takođe parsira linkove sa svake WEB stranice i važne informacije o njima smešta u tzv. sidarni fajl koji sadrži dovoljno informacija da odredi izvor i odredište svakog linka kao i njegov tekst • Razrešivač URL-ova čita sidarne fajlove i konvertuje relativne URL-ove u apsolutne URL-ove, a zatim u docID. On vezuje tekst iz sidarnog falja i odgovarajući docID i smešta ih u indeks. Razrešivač takođe kreira bazu linkova uparenih sa docID za kasnije izračunavanje ranga stranice za sve dokumente • Sorter uzima barele (sortirane prema docID) i kreira invertovan indeks sortiran prema wordID, a pored toga kreira i listu wordID • Program DumpLexicon sastvalja ovu listu sa leksikonom koji je kreirao indekser i kreira novi leksikon koji će koristiti tragač • Tragača pokreće WEB server i on koristi gore kreirani leksikon zajedno sa invertovanim indeksom i rangom stranica da da konačan odgovor na upit Mina Milić - Pronalaženje informacija na WEB-u

  15. Tipovi pretraživača • Rezultati WEB pretrage zavise od izbora samog pretraživača usled razlike u indeksiranju, osvežavanju indeksiranih stranica, a i po različitim mogućnostima pretraživača • Najgrublja podela pretraživača je na klasične i meta pretraživače – alati koji omogućavaju korisnicima da vrše paralelnu pretragu preko više pretraživača • Neki ih dele prema karakteristikama indeksiranja, a Saliven sa Searchenginewatch.com je podelio pretraživače na sedam kategorija: • Generalni pretraživači (http://www.google.com) • Pretraživači novina (http://news.altavista.com) • Specijalizovani pretraživači (http://www.askjeeves.com) • Pretraživači za decu (http://www.yahooligans.com) • Meta-puzači poput Dogpile (http://www.dogpile.com/info.dogpl/) • Multimedijalnipretraživači (http://images.google.com) • Regionalni i državni pretraživači poput Evropskih ili Japanskih pretraživača (http://www.webmasterworld.com/forum18/544.htm) Mina Milić - Pronalaženje informacija na WEB-u

  16. Zajedničke karakteristike pretraživanja WEB pretraživača • Skoro svi pretraživači poseduju osnovne karakteristike tekstualne pretrage: • Bulova pretragakroz tri glavnapristupa: • Korišćenjem AND, OR i NOT • Korišćenjem ‘+’ i ‘-’ ispredterminapretrage • Korišćenjem opcija poput ‘sve reči’, ‘neka od reči’ ili ‘nijedno od reči’ • Približna pretraga uz primenu odgovarajućeg operatora tipa ‘NEAR’ • Pretraga po polju tj pretraga naslova korišćenjem termina ‘u naslovu’ ispred termina pretrage • Pretraga fraza unošenjem odgovarajuće fraze u duple navode • Ograničavajuća pretraga (po vremenu, datumu, tipu fajla, jeziku pretrage itd.) • Ovo su neke od tradicionalnih metoda pretraživanja koje su prisutne u modernim WEB pretraživačima, a možemo im vrlo jednostavno pristupiti preko naprednih funkcija pretraživanja koje dodatno omogućavaju korisnicima vrlo naprednu i kompleksnu pretragu na krajnje pojednostavljen način Mina Milić - Pronalaženje informacija na WEB-u

  17. Intefejs za naprednu pretragu Goolge pretraživača Mina Milić - Pronalaženje informacija na WEB-u

  18. Zajedničke karakteristike pretraživanja WEB pretraživača • Pored tradicionalnih tehnika pretraživanja, napredne opcije pretrage kod popularnih pretraživača nude i neke metode pretrage optimizovane isključivo za pretragu WEB sadržaja kojegeneralnonazivamospecijalnim funkcijama pretraživača: • Pretraživanje domaćina/domena – korisnici Googla mogu uneti ime domena (URL), a zatim izabrati da li da dobijusadržaj tog domena ili ne • Pretraživanje URL-a – korisnici mogu u polje za pretragu direktno uneti URL • Pretraživanje linka – u naprednim opcijama korisnici mogu uneti URL da otkriju koje stranice imaju link ka njemu • Ograničena pretraga – limitirana izabranim faktorima poput jezika pretrage, formata fajla, datuma, pojavljivanja i domena • Pronađi slično – opcija koja pronalazi stranice slične unetoj • Pretraga prema jeziku • Filtriranje – opcija koja ne dozvoljava da pretraživač prikazuje neželjeni sadržaj • Prevođenje stranice – mogućnost prevoda unetog teksta na željeni jezik • Prikaz rezultata – korisnici mogu da izaberu broj prikazanih stranica na ekranu prilikom pretrage Mina Milić - Pronalaženje informacija na WEB-u

  19. Zajedničke karakteristikepretraživanja WEB pretraživača • Uzevši u obzir da je Google trenutno najpopularniji pretraživač na internetu, evo još nekoliko specijalnih opcija koje on nudi korisnicima: • “I’m Feeling Lucky” – učitava prvu stranicu iz rezultata pretrage • Google Toolbar – omogućava korisnicima da instaliraju polje za pretragu pomoću Googla direktno na svoj internet pretraživač • TouchGraf GoogleBrowser – prikazuje korisniku kako WEB izgleda kroz linkove među korisnikovim omiljenim sajtovima Mina Milić - Pronalaženje informacija na WEB-u

  20. Specijalizovani pretraživači • Pored pretrage teksta, pretraživači omogućavaju i pronalaženjemultimedijalnih informacija, međutim, postoje i specijalizovani pretraživači koji pružaju mogućnost da sam upit bude nekonvencionalan • Upit prirodnim jezikom • Pretraživači poput Askjeeves.com omogućavaju korisnicima da upit unose kao što bi to činili sa nekom osobom u svakodnevnom govoru – prirodnim jezikom. To znači da korisnik ne mora da razmišlja o Bulovimoperatorima već jednostavno može uneti kompletnu rečenicu kao upit i dobiti odgovor u formi upita odnosno direktne smernice ka sajtovima koji sadrže odgovor • Vizuelizacija • Pretraživači poput Kartoo.com ili TouchGrapf GoogleBrowser-a prezentuju rezultate pretrage na drugačiji način. Oni grafički odnosno vizuelno prikazuju rezultate pretrage na ekranu za razliku od standardne tekstualne liste Mina Milić - Pronalaženje informacija na WEB-u

  21. Rezultati pretrage sajta Kartoo Mina Milić - Pronalaženje informacija na WEB-u

  22. Rezultati pretrage sajta TouchGraph GoogleBrowser Mina Milić - Pronalaženje informacija na WEB-u

  23. Zaključak • Mnogobrojnim statističkim analizama, stručnjaci su došli do veoma važnih zaključaka kada je u pitanju korišćenje WEB pretraživača i kvalitet pronalaženja odgovarajućih informacija: • Većina upita su kratki, nemodifikovani i veoma proste strukture • Veoma su retke pretrage koje uključuju napredne metode, a i polovina takvih pretraga su pogrešne • Iako svaka pretraga pruži ogroman broj sajtova kao odgovor na upit, ljudi najčešće ne pogledaju dalje od prve eventualno druge stranice izlistanih sajtova • Korisnike ne zanima previše značaj povratnih informacija • Korisnici imaju poteškoća oko formulisanja svojih upita • Generalno, korisnici provode malo vremena pretražujući baze podataka WEB pretraživača Mina Milić - Pronalaženje informacija na WEB-u

More Related