Analiza tokova dokumenata u kompleksnim mre ama
This presentation is the property of its rightful owner.
Sponsored Links
1 / 21

Analiza tokova dokumenata u kompleksnim mrežama PowerPoint PPT Presentation


  • 87 Views
  • Uploaded on
  • Presentation posted in: General

Univerzitet u Novom Sadu Fakultet Tehničkih Nauka Saobraćajni odsek Poštanski saobraćaj i telekomunikacije. Analiza tokova dokumenata u kompleksnim mrežama. Diplomski rad. Radić Milorad 3557. Mentor: prof. Dr Milorad K. Banjanin. TEKST ZADATKA.

Download Presentation

Analiza tokova dokumenata u kompleksnim mrežama

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Analiza tokova dokumenata u kompleksnim mre ama

Univerzitet u Novom SaduFakultet Tehničkih NaukaSaobraćajni odsekPoštanski saobraćaj i telekomunikacije

Analiza tokova dokumenata u kompleksnim mrežama

Diplomski rad

Radić Milorad 3557

Mentor: prof. Dr Milorad K. Banjanin


Analiza tokova dokumenata u kompleksnim mre ama

TEKST ZADATKA

Mrežaje sistem čvorova i linkova koji ih povezuju, pri čemu broj linkova vezanih za jedan čvor definišestepen čvora

Kod kompleksnih mreža te međupovezanosti nisu slučajne već su opisane zakonima, tako da kompleksna mreža ili grafima specifične topološke karakteristike.

Osnovna svrha mreže je prenošenje informacija najčešće organizovanih u dokumentima- osnovnim informacionim jedinicama koje se prenose kroz mrežu.

Mreže se predstavljaju u procesu vizuelizacije informacija, koji se sastoji od strukturnog modelovanja i grafičkog predstavljanja.


Analiza tokova dokumenata u kompleksnim mre ama

U istraživačko-analitičkoj obradi tematskog zadatka ovog rada potrebno je :

ISTRAŽITI i OBRAZLOŽITI identifikovane koncepte koji figurišu u naslovu i tekstu zadatka sa posebnim osvrtom na algoritamsku vizuelizaciju velikih mreža i različitih dinamičkih procesa u kompleksnim mrežama.

1

OPSERVIRATI integrisane rezultate prethodnih istraživanja sa analizom modela sličnosti među dokumentima i otkrivanjem orijentira u web lokalitetu.

2

ANALIZIRATI i KOMPARIRATI osobine i primere algoritama za vizuelizacije struktura i velikih mreža i ulogu virtuelnih struktura u povezivanju dokumenata u mrežnim tokovima.

3

PRIMENITI metodološku proceduru, tehničke, tehnološke, opšte lingvističke i jezičke standarde i kriterijume u izradi rada kao i TQM standarde FTN-a.

4


Analiza tokova dokumenata u kompleksnim mre ama

METODOLOŠKE OSNOVE RADA

Problem istraživanja

Preopterećenje mreža dokumentima

Kako predstaviti i analizirati kompleksne mreže?

Predmet istraživanja

Modeli kompleksnih mreža

Dokumenti u mrežnim tokovima

Cilj istraživanja

Eficijentno vizuelizovanje mreža

Optimizacija tokova dokumenata

Hipoteze u istraživanja

Aktuelnost i primenljivost analize kompleksnih mreža

Povezanost čvorova linkovima u kompleksnim mrežama nije slučajna

Način istraživanja

Desk metode

Opravdanostistraživanja

Timske interakcije

Primenljivost na mreže realnog sveta

Primenom se ubrazavaju mnogi procesi


Analiza tokova dokumenata u kompleksnim mre ama

Dokument je osnovna

jedinicainformacija

koja seprenosi kroz mrežu

U mrežama se pojavljuje sve veći broj dokumenata, pa one nužno postaju nužno sve kompleksnije i komplikovanije.

Sistem ili grupa međusobno povezanih elemenata.

mreža

čvorovi

linkovi

Dokument je fajl

kreirankorišćenjem

neke aplikacije

Word

hiperlink

grafika

multimedijalni sadržaj

tekst

zvuk


Analiza tokova dokumenata u kompleksnim mre ama

Kompleksna

mreža

npr.

Slučajna raspodela čvorova?

Hijerarhijska struktura

Klasifikacija čvorova

j

Visok koeficijent grupisanja

k

i

Veza j-k

hub

Stepen čvora i

Broj linkova koji su povezani na čvor i

Specifična raspodela stepena čvora

Kompleksnost mreže predstavlja broj čvorova i alternativnih staza koje postoje u okviru mreže, kao i raznovrsnost prenosnih medija, opreme, protokola, te hardverske i softverske opreme koja se koristi u mreži.

Struktura zajednice na više nivoa


Analiza tokova dokumenata u kompleksnim mre ama

Neskalirane mreže

(scale-free networks)

karakterišu se kosom raspodelom

koja se matematički može opisati

zakonom snage(power law)

5 hub-ova povezano sa 60% čvorova

εskup svih linkova, a i i j čvorovi

Verovatnoća pronalaženja čvora sa

k linkova prema drugim čvorovima je k-y

Web

eksponent y se dobija empirijski (1.5 za mreže reči, 2.5 za kolaborativne mreže...)

Naučne kolaborativne mreže

stepen čvora

S(g) → 1 neskalirani graf

Neskalirani parametar


Analiza tokova dokumenata u kompleksnim mre ama

Mreže malog sveta

(small-world networks)

Klasa grafova u kojoj većina čvorova nisu u susedstvu, ali se iz svakog od njih do nekog drugog može doći malim brojem koraka

Mala prosečna staza između dva čvora

Visok koeficijent grupisanja


Analiza tokova dokumenata u kompleksnim mre ama

Geometrijske mreže

(geometric networks)

Geometrijski graf sa radijusom r je graf sa skupom čvorova V i skupom linkova

Kompletan graf – direktna veza između svih tačaka

težina linka d(u,v)

Cilj – proređena mreža male dilatacije

rastojanje grafa dg(u,v)

dilatacija max (dg-d)


Dizajniranje mre e

!

bez prioriteta

Dizajniranje mreže

a) neskalirane i mreže malog sveta

1

dodavanje jednog novog čvora u jednom trenutku i njegovo povezivanje sa slučajno izabranim čvorom iz postojeće mreže

Rezultujuće mreže teže da imaju eksponencijalnu raspodelu, pa se nazivaju se eksponencijalno rastuće mreže!

2

rich-get-richer efekat (obogaćivanje bogatog ; Matthew-ov efekat ili kumulativna prednost)

prioritetno dodavanje

novi link se ne dodaje proizvoljnom čvoru već čvoru koji već ima najviše linkova

Koristi se za neskalirane mreže – eksponent y=3 (k-y)

3

good-get-richer efekat (obogaćivanje dobrog)

Oslanja se na pogodnost čvora da primi novi čvor, a ne na popularnost čvorova


Analiza tokova dokumenata u kompleksnim mre ama

4

4

9

1

5

2

9

3

7

9

10

4

8

6

9

3

9

8

18

9

b) geometrijske mreže

Dizajniranje mreže u formi razgranatih stabala!

Za dati graf, razgranato stablo je podgraf, koji predstavlja stablo koje povezuje sve čvorove zajedno.

Prvo se pronalaži Planarno MST (u ravni), a zatim se generalizuje kao Višedimenzionalno MST

Isti graf može imati mnogo različitih razgranatih stabala.

Ukupna dužina svih linkova u mreži

težina

dijametar

Najveća udaljenost između dva čvora u mreži

dilatacija

Najveći odnos mrežne i Euklidove udaljenosti

Minimum spanning tree (MST) Minimalno razgranato stablo

Stablo sa minimalnom težinom


Analiza tokova dokumenata u kompleksnim mre ama

Skalabilnost mreže

Dva aspekta skalabilnosti mreže

Skalabilnost je sposobnost za očuvanje originalnog integriteta, konzistentnosti i semantičke povezanosti sa mrežnom predstavom implicitne strukture.

gustina mreže

veličina mreže

broj linkova

broj čvorova

Mnogo zahtevnija

velika mreža se može

podeliti na veći broj manjih

mreža algoritmima

dinamičkog grupisanja

N čvorova

N2linkova

!

Mreže sa velikom gustinom je jako teško vizuelizovati i analizirati.

Najpopularniji načini za redukciju broja linkova su:

postavljanje praga težine linka

i zadržavanje samo linkova sa većom težinom od praga

1

Ekstrakcija minimalnog razgranatog stabla

(MST – Minimum Spanning Tree)iz mreže sa N čvorova

2

ne obuhvata unutrašnju strukturu mreže

jednostavan

suština originalne mreženeće biti očuvana

!

Skaliranje Pathfinder mreže (PFNET)

3

laka implementacija

zadržavamo N-1 linkova


Analiza tokova dokumenata u kompleksnim mre ama

PFNET (Pathfinder mreža)

Cilj primene Pathfinder algoritma je da skrati gustu mrežu na njenu osnovnu strukturu.

Pathfinder smanjuje broj linkova originalne mreže, a pri tome svi čvorovi ostaju netaknuti

To je mehanizam redukcije linkova koji čuva najvažnije semantičke relacije. Ključna pretpostavka je uslov nejednakosti trougla.

B

Nejednakost trougla se matematički definiše:

A

C

wij težina direktne staze između i i j

Topologija PFNET-a je određena sa dva parametra q iri odgovarajuća mreža je označena kao PFNET (r,q).

wk,k+1 je težina staze između k i k+1.

Parametar q specificira

maksimalnu dužinu staze

koja učestvuje u testu

nejednakosti trougla.

Parametar r je Minkovski

metrički parametar za

izračunavanje dužine staze

Vrednost q može biti bilo koji ceo broj između 2 i N-1, gde je N broj čvorova u mreži


Analiza tokova dokumenata u kompleksnim mre ama

Rešenje:

Vizuelizacija

2

1

Grafičko predstavljanje

Strukturno modeliranje

Transformiše inicijalnu predstavu strukture u grafičku.

detektuje

izvlači

pojednostavljuje

Algoritmi za crtanje grafova

Šta čini osnovnu strukturu kompleksne mreže i kolekcije dokumenata?


Analiza tokova dokumenata u kompleksnim mre ama

Odgovor na pretragu

Zahtev za pretragom

Strukturno modeliranje

OSNOVNI KONCEPTI:

Semantičko rastojanje

Relevantnost ispitujemo Modelom semantičkog rastojanja

Sličnost

relevantnost?

Semantičko rastojanje između dva entiteta (u konkretnom slučaju – dokumenta) definisano je kao broj koraka od jednog do drugog duž postojećih linkova(veza) u strukturi.

relevantnost

semantičko rastojanje


Analiza tokova dokumenata u kompleksnim mre ama

n

m

m

m

D

C

Neophodno odrediti rastojanjeizmeđu dve tačke podataka.

sličnost!

Prema nekim merilima sličnosti dokumenti su grupisani.

Koncept pokrivenog koeficijenta (CC) omogućava merenje sličnosti između dokumenata.

Grafo-teoretski algoritmi

Algoritam inkrementalnog grupisanja kontinualno ažurira postojeće grupe.

Jednosmerni algoritmi

Iterativni algoritmi

Svako cij (i<j, j<m) u matrici C označava verovatnoću selekcije bilo kog pojma koji se pojavljuje u dokumentu di iz dokumenta dj. Verovatnoća je definisana sledećom relacijom:

sličnost

αi i βk su recipročne vrednosti sume i-te vrste i sume k-te kolone, respektivno.

!

Rastavljajući koeficijent predstavlja meru koliko je dokument dirazličit od svih drugih dokumenata


Analiza tokova dokumenata u kompleksnim mre ama

VIRTUELNE STRUKTURE

Virtuelna struktura ima za cilj da vizuelizaciju informacija predstavi korisnicima u grafičkoj i vizuelno razumljivoj formi.

Termin „virtuelna“naglašava da struktura ne postoji u originalnom podatku u lako dostupnoj formi.

Dva dokumenta su povezana...

Automatski hipertekst linkovi

Vektorski prostor

Dokumenti su predstavljeni kao vektori.

Semantički prostor

je zasnovan na velikoj matrici termin × dokument.

Svaki element matrice je broj pojavljivanja

termina u dokumentu.

Moguće je izračunati relevantnost dokument-dokument, korišćenjem termina koji se u njima pojavljuju. Težina termina Tk u dokumentu Dije definisana kao wik sledećim relacijama:

Leksički lanac

je niz semantički povezanih reči koje se pojavljuju u dokumentu

Blizina dokumenta je definisana na osnovu sličnosti između dokumenata. Sličnost dokumenata povezivanjem hiperlinkovima je definisana sledećom relacijom:

broj hiperlinkova od dokumenta Di do Dj u kolekciji od N dokumenata

gde je N broj dokumenata u kolekciji, tfik je broj pojavljanja termina Tk

u dokumentu Di, a nkje broj dokumenata u kojima se termin pojavljuje.


Analiza tokova dokumenata u kompleksnim mre ama

Web lokalitet

kolekcija Web dokumenata

Dokumenti na određenom HTTP serveru, rezultati pretrage nekog Web pretraživača...

Čvorovi koji su važni za lokalitet nazivaju se ORIJENTIRI u Web lokalitetu.

Čvor sa visokim stepenom povezivosti treba da bude označen kao orijentir.

povezivost

frekvencija pristupa

Frekventniji čvorovi su posećeni, i verovatnije je da takav čvor treba da bude orijentir.

dubina u hijerarhiji

http://en.wikipedia.org/wiki/Complex_network

3

1

2

Definisana brojem čvorova koji se mogu dostići iz određenog čvora sa ne više od dva linka.

drugostepena povezivost


Analiza tokova dokumenata u kompleksnim mre ama

Grafičko predstavljanje

OSNOVNI KONCEPTI:

Najtradicionalniji način za predstavljanja mreže je korišćenje čvor-i-link grafičkih predstava.

Prostorni raspored (layout)

Algoritamsko crtanje mreža uz pridržavanje estetskih kriterijuma. Velika pažnja se poklanja eficijentnosti algoritama i jasnoći krajnjih rezultata.

Algoritmi za crtanje grafova

Problemi pri predstavljanju mreža:

Estetski kriterijumi koje treba uvažiti pri grafičkom predstavljanju:

skriveni čvorovi i linkovi

nejasne granice između mreže i njene okoline

Simetričnost

strukturne izmene i izmene u čvorovima i linkovima

Ravnomerna distribucija čvorova

značaj slabih veza

Uniformna dužina linkova

strukturne rupe u mreži

Minimizacija preklapanja linkova


Analiza tokova dokumenata u kompleksnim mre ama

Najpoznatije tehnike za crtanje grafova su:

algoritmi za crtanje usmerenih grafova

algoritmi sa ugrađenom oprugom

Sile odbijanja

Dobar estetski izgled layouta

Za neusmerene grafove

Prema udaljenosti i osobinama povezujućeg prostora.

Primarni cilj ovog tipa tehnika je da algoritamski optimizuje uređenje čvorova mreže, tako da u konačnom geometrijskom modelu snažno povezani čvorovi budu bliži jedni drugima, a slabije povezani čvorovi udaljeni.

dobro slaganje vizuelizovanog modela i podataka osnovne mreže

Layout proces

Brži

Čvorovi kao čelični prstenovi

Skalabilniji

Nedovoljno skalabilni

Linkovi - opruge

Snaga veze između dva čvora obično se meri konceptualnom sličnošću, računskom povezanošću ili uslovnim verovatnoćama.

Kamada-Kawai algoritam

Minimizuje broj preklapanja među linkovima

Sile privlačenja

Čvorovi i linkovi uniformno distribuirani

Sa smanjenjem energije sistema opruga, graf se približava optimumu

Fruchterman i Reingold

Uniformna dužina linkova


Analiza tokova dokumenata u kompleksnim mre ama

Hvala na pažnji !


  • Login