Uvod u Data Warehousing i OLAP

1. OLTP sistemi Data Warehousing Razvoj skladi�ta podataka Arhitektura dimenzionog modela OLAP sistemi Uvod u Data Warehousing i OLAP

2. Pregled sadr�aja Uvod u Data Warehousing Razumevanje data warehouse sistema je veoma bitno kada se projektuju i implementiraju sistemi za podr�ku odlucivanju. Projektovanje Data Warehouse Pre nego �to se kreira OLAP baza podataka, neophodno je razumeti komponente data warehouse-a koje se koriste pri izgradnji OLAP baze podataka. Definisanje OLAP re�enja OLAP tehnologija predstavlja jednu alternativu tehnologiji relacione baze podataka. OLAP nudi brzi i fleksibilan pregled podataka, analizu i navigaciju. Razumevanje OLAP modela i primena OLAP kocke Kako primeniti koncepte projektovanja Data Warehouse-a da bi se projektovali i kreirali OLAP modeli. Opisuju se osnove OLAP kocke demonstriranjem metoda za vizuelizaciju multidimenzionalnih baza podataka.

3. Sirovi podaci vs. poslovne informacije Kompanija svakodnevno prikuplja velike kolicine podataka. Ti podaci su cesto sirove cinjenice koje odra�avaju tekuce stanje poslovanja. Sirov podatak: Maloprodajni lanac prodavnica internacionalne muzicke kuce prikuplja podatke o prodaji za svaki kupljeni proizvod, podatke o obrtu kapitala i dr. Sirov podatak opisuje na primer, da lanac prodavnica u Beogradu prodaje 10000 evra vrednosti prodate robe u Junu 2003. Finansijska institucija prikuplja podatke o svim racunima i u�tedevinama klijenata. Sirov podatak na primer, mo�e pokazati da je Sefan M. podigao 50 evra sa svog racuna jutros u Amsterdamu. Izvedene informacije: S obzirom da je vrednost prodate robe u 2002. godini iznosio 15.000 evra, a postavljen cilj za 2003. godinu je bio 20.000 evra, ocigledno je da lanac prodavnica u Beogradu nije ispunio �eljeni cilj. Analiza poslovanja treba da odredi posledice pada prodaje. Pitanja koja se postavljaju su: Koji se proizvodi prodaju, a koji ne?, Koji je efekat promocije proizvoda?. Stefan �ivi u Beogradu, ali u proteklih pet meseci, Stefan je podizao novac u Londonu, Oslo-u, Stockolm-u, �to dovodi do zakljucka da on cesto putuje po Evropi. S toga bi mo�da on bio zainteresovan za specijalnu kreditnu karticu koji mu omogucava neogranicen pristup svom racunu u 16 razlicitih zemalja uz odgovarajucu godi�nju clanarinu. Pitanja koja se postavljaju nakon ove analize su: Koji je prosecan dnevni bilans njegovog racuna?, Za koje proizvode bi bio zainteresovan?

4. OLTP sistemi OLTP (on-line transaction processing) sistemi su operacioni sistemi koji prikupljaju poslovne transakcije i snabdevaju podacima data warehouse ili data mart. Skladi�te podataka (Data Warehouse � DW) je analiticka baza podataka namenjena samo za citanje i koristi se kao osnova sistema za podr�ku odlucivanju. Primeri OLTP operacionih sistema: aplikacije pracenja porud�bina, aplikacije usluga klijenata (npr., otvaranje racuna klijentima), bankarske funkcije (npr, depoziti) itd. Jedna od karakteristika koja razdvaja transakcione sisteme od analitickih jeste dizajn baze podataka: Transakcioni sistemi su dizajnirani tako da preuzimaju podatke, vr�e izmene nad postojecim podacima, daju izve�taje, odr�avaju integritet podataka i upravljaju transakcijama �to je br�e moguce. Analiticki sistemi nisu predvideni da obavljaju ove poslove. Oni se dizajniraju za veliki broj podataka namenjenih samo za citanje, obezbedujuci informacije koje se koriste za dono�enje odluka.

5. Data Warehousing (DW) Skladi�tenje podataka - DW je proces integracije podataka u jedan repozitorijum iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izve�taje. Karakteristike DW: Organizacija. Podaci su organizovani po predmetu i sadr�e relevantne informacije za podr�ku odlucivanju. Konzistentnost. Podaci u razlicitim operacionim bazama podataka se drugacije �ifriraju. U DW ti podaci ce biti �ifrovani na konzistentan nacin. Vremenski. Podaci se cuvaju mnogo godina kako bi se iskoristili za pracenje trendova, prognoze i vremensko poredenje. Multidimenzionalni. Obicno data warehouse koristi multidimenzionalnu strukturu. Web-zasnovani. Danas je DW dizajniran tako da obezbedi jedno efikasno okru�enje za web zasnovane aplikacije. Warehousing koncept je skladi�tenje agregiranih, ekstrahovanih i filtriranih podataka u meta baze, koje omogucavaju slojevit, multidimenzionalni pristup podacima, kakav je potreban za dono�enje odluka najvi�eg strate�kog nivoa. Skladi�te podataka je informaciona baza podataka dizajnirana za podr�ku jedne ili vi�e klasa analitickih zadataka, kao �to su nadgledanje i izve�tavanje, analiza i dijagnoza i simulacija i planiranje.

6. Komponente DW sistema DW sistem sadr�i mnoge komponente koje prenose podatke sa izvornih sistema do korisnika koji izvr�avaju analizu podataka: Izvori podataka � Izvorni sistemi su operacioni sistemi, npr. OLTP sistemi koji mogu biti relacioni. Oblast za pripremu podataka � skup procesa koji cisti, transformi�e, povezuje i priprema izvorne podatke za kori�cenje u DW. Podaci se transformi�u u konzistente formate. Oblast za pripremu podataka se nalazi na jednom ili nekoliko kompjutera, ne mora da bude zasnovana na relacionoj tehnologiji, ne podr�ava koristnicke izve�taje. Data Mart � je podskup DW koji sadr�i podatke specificne za odredenu poslovnu aktivnost kao �to su finansije ili analiza klijenata. Data martovi mogu biti ukljuceni u DW, mogu se izgraditi u relacionim ili OLAP bazama podataka i mogu detaljne ili sumarne podatke koje se mogu ili ne deliti kroz data mart-ove. Data Warehouse � mo�e se definisati i kao virtuelna unija data mart-ova sa integrisanim informacijama koje su deljive kroz data mart-ove ili kao centralizovano, integrisano skladi�te podataka koje obezbeduje podatke data mart-ovima.

7. Komponente DW sistema

8. Razvoj skladi�ta podataka Pri izgradnji skladi�ta podataka najbitniji su sami podaci, a ne poslovni procesi i funkcije, kao �to je to slucaj sa transakcionim sistemima. Za razvoj skladi�ta podataka potrebno je: izvr�iti analizu izvora podataka, pripremiti podatake, izgraditi skladi�te podataka.

9. Razvoj skladi�ta podataka

10. 1. Analiza izvora podataka Osnovni izvori podataka za koncept skladi�ta podataka su operativni (transakcioni), tzv. OLTP (On-Line Transaction Processing) podaci, kao i spoljne informacije nastale kao istorija poslovanja ili industrijski i demografski podaci uzeti iz velikih javnih baza podataka. Analiza izvornih podataka se smatra kljucnim elementom i oduzima 80% vremena, jer je potrebno definisati odgovarajuca pravila za preuzimanje podataka iz izvornih podataka. Znanja vezana za ovu oblast su najce�ce u glavama onih koji treba da koriste skladi�te podataka. Analiza izvora podataka prolazi kroz sledece faze: 1.1. Prikupljanje zahteva, 1.2. Planiranje skladi�ta podataka, 1.3. Izbor tehnike analize podataka.

11. 1.1. Prikupljanje zahteva U ovoj fazi razvoja skladi�ta podataka, razmatraju se poslovne potrebe i zahtevi buducih korisnika sistema. Prikupljanje izvornih (source-driven) zahteva Metoda bazirana na definisanju zahteva kori�cenjem izvornih podataka u proizvodno-operativnim sistemima. Ovo se radi analiziranjem ER-modela izvornih podataka. Glavna prednost: podr�avanje svih podataka, svodenje na minimum vreme potrebno korisniku u ranim fazama (stanjima) projekta. Nedostaci: umanjivanjem kosrisnikovog uce�ca povecava se rizik od proma�aja ispunjenja zahteva korisnika, oduzima dosta vremena.

12. 1.1. Prikupljanje zahteva (nastavak) Prikupljanje korisnickih (User-Driven) zahteva Prikupljanje korisnickih zahteva je metoda koja se bazira na definisanju zahteva istra�ivanjem funkcija kojima korisnik te�i, odnosno koje korisnik izvr�ava. Ovo se obicno posti�e kroz seriju sastanaka i/ili intervjua sa korisnikom. Glavna prednost ovog pristupa je �to se koncentri�e na ono �to je potrebno, a ne na ono �to je dostupno. Ovaj pristup proizvodi upotrebljivo skladi�te podataka u kracem vremenskom periodu. Postupak prikupljanja zahteva: Intervjuisanje kljucnih ljudi u organizaciji, npr: analiticari, menad�eri i izvr�ioci. Utvrditi protok informacija u i iz svakog odelenja (koji izve�taji i dokumentacija pristi�u u odelenje, kako se koriste, ko ih koristi, koliko cesto pristi�u itd. Dobijene podatke organizovati u nekoliko sekcija, kao �to su: Podaci o analizi (podaci o svim vrstama analiza koje se trentuno koriste) i Zahtevi vezani za podatke (opis svih polja podataka koja se koriste, novi detalja, izvori). Organizovane podatke proslediti svim ucesnicima intervjua radi mi�ljenja i eventualnih korekcija.

13. 1.2. Planiranje skladi�ta podataka

14. 1.3. Izbor tehnike analize podataka

15. b. Vi�edimenzionalna analiza Vi�edimezionalna analiza - je nacin da se pro�ire mogucnosti upita i izve�taja. Ovo znaci da se umesto izvr�avanja vi�estrukih upita podaci struktuiraju da bi se omogucio brz i lak pristup odgovorima na pitanja koja se tipicno postavljaju. Na primer, interesuje vas koliko je odredenih proizvoda prodato odredenog dana, u odredenoj prodavnici i u odredenom rasponu cena. Onda za dalju analizu �elite da znate koliko prodavnica je prodalo odredeni proizvod, u odredenom rasponu cena, odredenog dana. Ova dva pitanja zahtevaju slicne informacije, ali jedna posmatrane iz ugla proizvoda, a druga iz ugla prodavnice. Vi�edimenzionalna analiza zahteva model podataka koji ce omoguciti da se podaci lako i brzo mogu pogledati iz bilo koje moguce perspektive ili dimenzije. Po�to se koristi vi�e dimenzija, model mora da obezbedi nacin da se podacima brzo pristupa (ako se koriste visoko normalizovane strukture podataka, bice potrebno mnogo grupisanja izmedu tabela koje sadr�e razlicite dimenzije podataka i mogu znacajno uticati na performanse).

16. c. Tehnika analize podataka � Data mining Data mining je relativno nova tehnika analize podataka. Tehnika otkrivanja - Veoma je razlicita od upita i izve�taja, kao i od vi�edimenzionalnih analiza, po tome �to koristi tehniku otkrivanja. Ovo znaci da ne pitate odredeno pitanje vec koristite odredene algoritme koji analiziraju podatke i izve�tavaju �ta su otkrili. Za razliku od upita, izve�taja i vi�edimenzionalnih analiza, gde je korisnik morao da kreira i izvr�ava upite zasnovane na hipotezama, data mining tra�i odgovore na pitanja koja ne moraju biti prethodno postavljana. Otkrivanje mo�e imati formu pronala�enja znacaja u vezama izmedu odredenih elemenata podataka, klasterisanja odredenih elemenata podataka ili neki drugi obrazac u kori�cenju odredenih skupova elemenata podataka. Nakon iznala�enja ovih obrazaca, algoritmi mogu da iz njih izvedu pravila. Ova pravila tada mogu biti kori�cena da se generi�e model koji ima �eljeno pona�anje, identifikuje veze medu podacima, otkriva obrasce i grupi�e klastere zapisa sa slicnim atributima.

17. 2. Priprema podataka U procesu razvoja skladi�ta podataka priprema podataka je jedna od najbitnijih aktivnosti. Dalji proces razvoja skladi�ta podataka bice uspe�an samo ako je ova aktivnost uspe�no zavr�ena. ETL (Ekstrakcija/Transformacija/Punjenje) je najkoplikovaniji proces u citavom projektu. Izvori podataka se nalaze na razlicitim platformama, koje su upravljane razlicitim operativnim sistemima i aplikacijama. Svrha ETL procesa je da spoji podatke iz heterogenih platformi u standardni format (slika). ETL proces pocinje sa reformatiranjem podataka koji treba da unificira formate podatka sa razlicitih izvora. U drugom koraku se re�ava problem konzistentnosti koji se javlja usled redundantnosti podataka. Na kraju se pristupa ci�cenju onih podataka koji naru�avaju poslovna pravila.

18. Heterogeni izvori podataka

19. Tipicni problemi izvora podataka nekonzistentnost primarnih kljuceva � cesto se primarni kljucevi izvornih zapisa podataka ne poklapaju. Na primer, mo�e postojati pet fajlova o klijentima, gde svaki od njih ima razliciti atribut kao primarni kljuc klijenta. Ovi razliciti kljucevi klijenata se moraju konsolidovati ili transformisati u jedan standardizovani kljuc klijenta (Slika).

20. Tipicni problemi izvora podataka nekonzistentnost vrednosti podataka � mnoge organizacije dupliciraju svoje podatke. Termin dupliciranje se odnosi na elemente podataka koji su kopija originalnog podatka. Tokom vremena, usled anomalija a�uriranja, ovi duplicirani podaci imaju totalno razlicite vrednosti. razliciti formati podataka � elementi podataka kao �to su datumi i novcani podaci (currencies) mogu biti uskladi�teni u totalno razlicitim formatima. netacne vrednosti podataka � da bi se korigovale netacne vrednosti podataka, mora se definisati logicko ci�cenje. ETL algoritmi ci�cenja podataka treba da se aktiviraju svaki put kada se podatak puni. Stoga, programi transformacije ne smeju biti pisani na brzinu, vec se moraju razviti na jedan struktuiran nacin.

21. Tipicni problemi izvora podataka sinonimi i homonimi � redundantne podatke nije uvek lako prepoznati usled toga �to isti elementi podataka imaju razlicite nazive. S obzirom da sinonimi i homonimi[1] ne smeju postojati u okru�enju, neophodno je preimenovati date elemente podataka. ugradena logika procesa � neki operacioni sistemi su ekstremno stari. Oni cesto sadr�e nedokumentovane i arhaicne relacije izmedu pojedinih elemenata podataka. Takode, obicno koriste i neke kodove, kao na primer, vrednost �00� podrazumeva da je po�iljka vracena, dok �FF� znaci da je prosledena na kraju meseca. Specifikacije procesa transformacije moraju da reflektuju ovu logiku. [1] Homonimi (homonym) su reci koje se isto pi�u i izgovaraju, ali imaju razlicita znacenja (cest slucaj u engleskom jeziku).

22. ETL proces Generalno, prvi zadatak je proces konverzije sistema gde se mapiraju najpogodniji elementi podataka u ciljne fajlove ili baze podataka. Kada se ka�e �najpogodniji elementi podataka� misli se na one podatke koji su najslicniji po imenu, definiciji, velicini, du�ini i funkcionalnosti. Drugi zadatak je pisanje programa konverzije (transformacije) kako bi se transformisali izvorni podaci. Ovi programi moraju da re�e probleme dupliciranih zapisa, prilagodavanja primarnih kljuceva i odsecanja ili povecavanja velicine elemenata podataka. Ono �to uglavnom nedostaje ETL programima su ci�cenje i uskladivanje podataka, na koje treba obratiti pa�nju kod projektovanja procesa punjenja. Kod procesa punjenja istorijskih podataka koji su obicno staticni, treba obratiti pa�nju na one podatke koji nisu vi�e u upotrebi i novih podataka koji se dodaju tokom godina.

23. 2.1. Ekstrakcija podataka Programi ekstrakcije podataka treba da vr�e sortiranje, filtriranje, ci�cenje i da agregiraju sve zahtevane podatke. Programi ekstrakcije moraju da prepoznaju koji od redundantnih izvornih fajlova ili baza podataka su zapisi sistema. Na primer, isti izvorni element podatka kao �to je Naziv klijenta mo�e da postoji u nekoliko izvornih fajlova i baza podataka. Ova redundantnost treba da se sortira i konsoliduje, �to ukljucuje korake sortiranja i spajanja, preko odredenih kljuceva i vrednosti podataka.

24. Ekstrakcija i ci�cenje podataka Ova faza se sastoji od sledecih zadataka: a. razvoj procedura za ekstrakciju podataka, b. razvoj procedura za ci�cenje podataka. a. Razvoj procedura za ekstrakciju podataka Podaci koji ce se koristiti u skladi�tu podataka moraju se ekstrahovati iz transakcionih sistema (baza podataka u okviru nekog sistema) koji sadr�e te podatke. Podaci se inicijalno ekstrahuju u procesu kreiranja skladi�ta podataka, a kasnije se na osnovu odrednih procedura vr�i dodavanje novih podataka u skladi�te podataka. Ekstrakcija podataka je vrlo jednostavna operacija, ako se potrebni podaci nalaze u jednoj relacionoj bazi, ali mo�e da bude i veoma kompleksna operacija, ako su podaci sme�teni u vi�estrukim heterogenim transakcionim sistemima. Cilj procesa ekstrakcije podataka je da sve potrebne podatke, u pogodnom i konzistentnom formatu, pripremi za ucitavanje u skladi�te podataka.

25. b. Razvoj procedura za ci�cenje podataka Zbog problema koji se prilikom ekstrakcije podataka javljaju, podaci dobijeni ekstrakcijom se moraju "cistiti". Ci�cenje podataka podrazumeva: proveru postojanja logickih gre�aka, "pobolj�anje" podataka i eliminisanje ostalih gre�aka. Provera logickih gre�aka ukljucuje proveru vrednosti atributa usled razlicitog oznacavanja pojmova, proveru atributa u kontekstu ostalih podataka u redu, proveru atributa u kontekstu redova druge tabele koja je povezana, proveru veza izmedu redova iste ili povezanih tabela (provera prenesenih kljuceva). "Pobolj�anje" podataka je proces ci�cenja kojim se te�i da podaci dobiju puno znacenje. Primer za ovo su podaci o imenima i adresama. Eliminisanje ostalih gre�aka je proces u kome se odlucuje o sudbini podataka koji su nepotpuni ili nemaju veliko znacenje. Ovi podaci se mogu odbaciti, privremeno smestiti i popraviti ili smestiti u skladi�te podataka sa tim svojim nesavr�enostima.

26. 2.2. Transformacija podataka Koristeci pravilo 80/20, 80% ETL procesa je transformacija podataka, dok je ostalih 20% ekstrakcija i punjenje. Projektovanje programa transformacije je veoma komplikovano, narocito kada su podaci ekstrakovani iz heterogenih operativnih okru�enja. Pored transformisanja izvornih podataka zbog nekompatibilnosti tipa podataka, du�ine ili netacnosti, najveci deo transformacione logike ce ukljucivati i preracunavanje podataka za multidimenzionalno skladi�tenje.

27. Transformacija podataka U ovoj fazi potrebno je: definisati izvore podataka i tipove transformacija koje treba izvr�iti nad podacima i ostvariti mapiranje podataka iz izvori�ta u odredi�ta. Pre pocetka procesa transformacije podataka, tim strucnjaka koji radi na projektu dizajniranja skladi�ta podataka defini�e fizicki model podataka za skladi�te podataka i generi�e �eme. Faza mapiranja i transformacije podataka sastoji se od sledecih zadataka: kreiranje plana transformacije podataka, razvoj procedura za transformaciju podataka, razvoj procedura za ucitavanje podataka, testiranje procedura, generisanje meta podataka.

28. a. Kreiranje plana transformacije podataka Planom je potrebno odrediti najbolji put migracije izvornih podataka do skladi�ta podataka. Analiziraju se raspolo�ivi resursi, kolicina izvornih podataka, razlicite izvorne �eme, razliciti nacini pristupanja podacima, struktura skladi�ta podataka i potreban broj agregacija. Planom se dokumentuju sve izvorne platforme, metode pristupa i programski jezik koji je potreban za ekstrakciju podataka. Prelazne �eme - Obicno se izvorni podaci prvo sme�taju u prelazne �eme. Prelazne �eme su zajednicki interfejs za sve izvorne sisteme. One se ne podudaraju u potpunosti ni sa izvornim ni sa odredi�nim �emama. Koriste se da bi se pobolj�ali procesi "ci�cenja" i transformacije podataka. Analiza izvora podataka - Nakon kreiranja plana transformacije podataka, prelazi se na analizu izvora podataka. Potrebno je odrediti koji ce se podaci mapirati u odredi�ni sistem i koja je to logika potrebna da bi se izvr�ila migracija podataka.

29. b. Razvoj procedura za transformaciju podataka Pod transformacijom podataka se podrazumeva proces kojim se uskladuju razliciti nacini prikazivanja podataka razlicitih sistema u jedinstveni oblik. Na primer, neki sistemi mogu oznacavati pol ljudi sa 1 za mu�ki pol i 2 za �enski pol. Ako se u skladi�tu podataka ovo oznacavanje vr�i sa M i Z, onda mora postojati proces koji ce transformisati 1 u M i 2 u Z. Transformacija podataka je kritican korak u razvoju skladi�ta podataka. U okviru procesa transformacije vr�i se poslednja priprema podataka pre ucitavanja. Tipicna transformacija podataka ukljucuje: prevodenje polja sa vi�e imena u jedno polje, razbijanje polja sa datumom u posebna polja za godinu, mesec i dan, prevodenje polja sa jednom reprezentacijom u drugu (npr. sa 1 i 0 u DA i NE), kreiranje i dodavanje kljuceva za tabele dimenzija.

30. c. Punjenje podataka Finalni korak kod ETL procesa je punjenje ciljnog skladi�ta podataka, koja se posti�e na dva nacina, i to: uno�ejem novih redova u tabele ili koristeci DBMS-ov alat za punjenje. Kod projektovanja programa za punjenje treba obratiti pa�nju na referencijalni integritet i indeksiranje.

31. Razvoj procedura za ucitavanje podataka Procedure za ucitavanje podataka treba da izvr�avaju sledece aktivnosti: Kreiranje formata podataka. Za sve podatke iz starijih sistema moraju se obezbediti formati pogodni za sme�tanje u skladi�te podataka. Preno�enje podataka iz starijih sistema u skladi�te podataka. Vr�i se raspakivanje podataka, njihovo poredenje, kombinovanje i transformacija u oblik pogodan za skladi�te podataka. Kreiranje agregacija (sumiranih podataka). Kreiranje agregacija je postupak sortiranja podataka po odredenim atributima na osnovu kojih se, zatim, vr�i sumiranje. Tako sumirani podaci se sme�taju u skladi�te podataka. Kreiranje kljuceva za agregacione zapise. Svi zapisi u tabelama, a samim tim i agregacije, moraju imati kljuceve. Ovaj korak se razlikuje od prethodnog jer su kljucevi za agregacione zapise u potpunosti ve�tacki i ne smeju biti identicni primarnim kljucevima tabele cinjenica. Prema tome, strucni tim mora dizajnirati aplikaciju koja ce generisati takve kljuceve. Obrada neucitanih podataka. Pri procesu sme�tanja podataka u skladi�te podataka cesto se de�ava da se neki podaci ipak ne ucitaju, najce�ce zbog referencijalnog integriteta. Takvi podaci se moraju obraditi u posebnoj aplikaciji, koja ce obezbedivati referencijalni integritet podataka. Indeksiranje podataka. Po zavr�enom procesu sme�tanja podataka u skladi�te podataka, svi indeksi se moraju a�urirati.

32. Primer dokumenta mapiranja izvora-ka-cilju Na kraju je neophodno dokumentovati ETL specifikacije transformacije pomocu dokumenta mapiranja izvora-ka-cilju (source-to-target mapping document) koji treba da lista sve tabele i kolone sa njihovim tipovima i du�inama podataka (Tabela). Takode, treba prikazati ETL dijagram toka procesa (ETL process flow diagram) koji prikazuje zavisnosti procesa izmedu ekstrakovanja, sortiranja i spajanja, transformacije, privremeno kreiranih fajlova i tabela, procesa rukovanja sa gre�kama, aktivnosti uskladivanja nekonzistentnosti i redosleda punjenja podataka.

33. d. Testiranje procedura Da bi se utvrdila ispravnost rada procedura za ekstrakciju i ucitavanje podataka, mora se izvr�iti njihovo testiranje. Provera kvaliteta podataka - Testiranje procedura se, najce�ce, ostvaruje proverom kvaliteta podataka, tako �to se zadaju upiti nad skladi�tem podataka koji prebrojavaju podatke ili ih prikazuju u vidu grafikona sa kojih se mo�e utvrditi da li su podaci u rasponu koji je ocekivan. Po zavr�enoj transformaciji, postoje svi uslovi da se pristupi generisanju meta podataka.

34. e. Izrada meta baze podataka Meta baza podataka, odnosno recnika podataka je baza podataka o bazi podataka. Meta baza podataka cuva sve podatke o podacima mapirajuci izvorni u ciljni sistem i uspostavlja vezu izmedu podataka sa izvora i cilja. Oni cuvaju informacije o transakcionim podacima, definiciju podataka u ciljnoj bazi i transformaciono-integracionu logiku. Tek po postavci meta baze podataka mo�e se krenuti dalje u izdvajanje podataka iz transakcione baze podataka, pa potom sumiranje, sortiranje i organizovanje pre punjenja DW.

35. Skladi�ta meta podataka Skladi�ta meta podataka mogu biti: centralizovana � postoji jedna baza podataka (relaciona ili objektno-orijentisana) i jedna aplikacija za odr�avanje. decentralizovana � skladi�te meta podatke u bazama podataka koje se nalaze na razlicitim lokacijama. distribuirana � preko XML re�enja, meta podaci ostaju na svojim originalnim pozicijama, odnosno na razlicitim alatima.

36. 3. Izgradnja skladi�ta podataka Izgradnja skladi�ta podataka se sastoji od sledecih zadataka: denormalizacija podataka, definisanje hijerarhija, kreiranje agregacija, kreiranje fizickog modela, generisanje baze podataka, ucitavanje podataka.

37. a) Denormalizacija podataka Prvi korak je identifikacija dimenzija i atributa koja podseca na klasicno projektovanje upotrebom ER modela i zove se dimenziono modeliranje. Dimenziono modeliranje je tehnika logickog dizajna ciji je cilj prezentacija podataka u obliku koji obezbeduje visoke performanse sistema radi vr�enja analize podataka. U dimenzionom modeliranju, strukture podataka su tako organizovane da opisuju mere i dimenzije. Mere su numericki podaci sme�teni u centralnoj, takozvanoj tabeli cinjenica (fakt tabela). Dimenzije su standardni poslovni parametri koji defini�u svaku transakciju. Osnovu za izradu dimenzionog modela predstavljaju meta podaci, na osnovu kojih se vr�i definisanje hijerarhija, elemenata i atributa, normalizacija i denormalizacija i definisanje agregacija. Svaka dimenziona tabela ima svoj primarni kljuc, a svi oni ucestvuju u stvaranju primarnog kljuca tabele cinjenica. Ovakvi modeli se nazivaju �emama zvezde. Tabele cinjenica sadr�e podatke koji su, najce�ce, numerickog tipa i mogu sadr�ati veliki broj zapisa.

38. Primeri dvodimenzionih i trodimenzionih modela podataka

39. Razliciti pogledi na iste podatke

40. Primer normalizovane i denormalizovane reprezentacije podataka Sve dimenzione tabele su denormalizovane, �to znaci da se isti podaci cuvaju na vi�e mesta da bi se obezbedila jednostavnost i pobolj�ale performanse.

41. Arhitektura dimenzionog modela Kod denormalizovanog modela dimenzije su organizovane u �emu zvezde, a kod normalizovaog u �emu sne�ne pahuljice. Postoje situacije u kojima �ema zvezde nije pogodna za skladi�tenje podataka. Osnovni razlozi za to su: denormalizovana �ema zvezde mo�e zahtevati previ�e memorijskog kapaciteta, veoma velike dimenzione tabele mogu uticati na pad performansi sistema. Ovi problemi se mogu re�iti normalizacijom dimenzija, cime se �ema zvezde prevodi u �emu pahulje. Glavni nedostatak �eme pahulje je njena slo�enost u odnosu na �emu zvezde, cime se ote�ava odr�avanje skladi�ta podataka. Zato je potrebno vr�iti normalizaciju samo onih dimenzija koje sadr�e mnogo redova podataka i koje imaju mnogo atributa. Najce�ce se posti�u najbolji rezultati ako se izvr�i normalizacija samo par dimenzija, a da se ostale ostave onakve kakve su i bile. Na taj nacin se dolazi do delimicne �eme pahulje. �ema galaksije predstavlja kolekciju �ema zvezda, tj. ako se ne mo�e kreirati model koji bi imao samo jednu cinjenicnu tabelu, tada je potrebno povezati dve �eme zvezde da bi se zadovoljile potrebe korisnika.

42. �ema zvezde, pahulje i galaksije

43. �ema zvezde Fizicka arhitektura dimenzionog modela opisana je pomocu �eme zvezde definisane sa dve vrste tabela � dimenzione tabele (dimension table) i tabele cinjenica (fact table). Tabela cinjenica sadr�i kvantitativne podatke o poslovima koji opisuju specificne dogadaje u poslovanju, kao �to su bankarske transakcije ili prodaja proizvoda, a koje korisnici analiziraju. Mo�e sadr�ati i agregirane podatke, kao �to je npr., mesecna prodaja. Ovi podaci su najce�ce numerickog tipa i mogu se sastojati i od nekoliko miliona redova i kolona. Dimenzione tabele su znatno manje i sadr�e podatke koji opisuju dati posao, tj. one podatke po kojima se vr�i analiziranje. Ti podaci se nazivaju atributi. Na primer, kod maloprodaje dimenzione tabele opisuju kako se izracunavaju podaci o prodaji. Osnovne prednosti �eme zvezde su �to omogucava definisanje slo�enih vi�edimenzionih podataka u vidu jednostavnog modela, smanjuje broj fizickih veza koje se moraju procesirati pri zadavanju upita, cime se posti�e pobolj�anje performansi sistema i omogucava pro�irenje skladi�ta podataka uz relativno jednostavno odr�avanje. Velika mana �eme zvezde je �to se povecava redundantnost podataka.

44. Jednostavna �ema zvezde Svaka tabela mora sadr�ati primarni kljuc ciji sadr�aj jedinstveno identifikuje zapise. Na primeru, primarni kljuc tabele cinjenica je sastavljen od tri spoljna kljuca. Spoljni kljuc je kolona jedne tabele, cija je vrednost definisana kao primarni kljuc druge tabele.

45. �ema zvezde

46. Komponente tabele cinjenica

47. Karakteristike dimenzione tabele Dimenziona tabela predstavlja poslovne entitete (npr. Prozvod, klijent) Sadr�i atribute koji obezbeduju kontekst za numericke podatke koji su uskladi�teni u tabeli cinjenica. Prikazuje podatke organizovane u hijerarhije � omogucava korisnicima pregledanje detaljnih i zbirnih podataka. Svaka dimenziona tabela sadr�i jednu ili vi�e hijerarhija.

48. �ema zvezde na primeru EDIFACT fakture

49. b) Definisanje hijerarhija Dimenzione tabele memori�u sledece elemente: tra�enje hijerarhijskih relacija u svakoj dimenziji, definisanje opisnih atributa svake dimenzije. Dimenzije veoma cesto mogu biti organizovane u hijerarhiji. Na primer, kod dimenzije proizvod, mogu postojati tri dimenziona elementa: prozvod, grupa i vrsta proizvoda. U ovom modelu mo�emo reci da dimenzioni element "proizvod" predstavlja najni�i hijerarhijski nivo u dimenziji proizvod, dok vrsta proizvoda predstavlja najvi�i nivo. Posmatranje podataka iz razlicitih, ali blisko povezanih perspektiva omogucava da korisnik analizira podatke na razlicitim nivoima detalja. Drill-down - Postupak prelaska sa nivoa sa manjim brojem detalja na nivo sa vecim brojem detalja naziva se spu�tanje u dubinu (drill down) i predstavlja zahtev korisnika da mu se prika�e vi�e detalja. Na primer, po�to se pronade podatak o prodaji nekog regiona, spu�ta se nani�e da bi se saznalo kako se prodaja odvija po op�tinama. Geografski podaci vezani za prodaju mogli bi se organizovati u sledecu hijerarhiju: SVET �> KONTINENT �> DR�AVA �> OBLAST �> GRAD Drill-up - Postupak prelaska sa nivoa sa vecim brojem detalja na nivo sa manjim brojem detalja, na tzv. sumarne podatke, naziva se dizanje navi�e (drill up). Na primer, upit bi mogao prezentovati prodaju u odnosu na neke regione. Drill across � koristi se za povezivanje dve ili vi�e cinjenicnih tabela na istom nivou hijerarhije.

50. �ema pahulje Defini�e hijerarhiju koristeci vi�edimenzione tabele - �ema pahulje je varijacija �eme zvezda u kojoj su hijerarhija dimenzije skladi�tene u vi�edimenzione tabele. Na primer, dimenzija Proizvod je skladi�tena u tri tabele: kategorija proizvoda, podkategorija proizvoda i proizvod. Normalizovana je. Podr�ana je unutar analitickih usluga. (samo jedna dimenziona tabela se pridru�uje tabeli cinjenica, dok su ostale dimenzione tabele povezane sa spoljnim kljucem).

51. c) Kreiranje agregacija Agregacijama se sumiraju detalji podataka i sme�taju u posebne tabele. Na primer, moguce je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajuci ih iz svake prodavnice, tj. najni�eg nivoa detalja. Glavni razlozi kreiranja agregacija su da se pobolj�aju performanse upita, tj. da se smanji vreme odziva na upit, kao i da se smanji broj resursa potrebnih za izvr�enje upita. Agregacije zasnovane na SQL naredbama Jedan od nacina na koji se mogu kreirati agregacije jeste kori�cenje SQL naredbi. Iako ovaj nacin nije najbolji po pitanju performansi sistema, on je najjednostavniji. Agregacije koje nisu zasnovane na SQL naredbama U slucaju kreiranja agregacija koje nisu zasnovane na SQL naredbama, potrebno je razviti specijalizovane programe, �to uslo�njava procese razvoja i odr�avanja skladi�ta podataka. Na primer, ako se izvr�i sortiranje redova podataka po dimenziji Vreme, u tabeli ce se prvo nalaziti redovi podataka koji se odnose na Dan, iza njih ce biti redovi podataka koji se odnose na Nedelju itd. Zatim se na svakom mestu prelaza sa jednog nivoa dimenzije na drugi (na primer, sa Dana na Nedelju) kreiraju podzbirovi za taj nivo dimenzije. Pri tome je moguce iskoristiti prednosti paralelnog procesiranja jer su podaci podeljeni po grupama (jedan proces mo�e racunati podzbirove vezane za nivo Dan, a drugi za nivo Nedelja). Tako dobijene podzbirove treba ucitati i izvr�iti agregaciju. Time je proces agregacije podataka zavr�en.

52. d) Kreiranje fizickog modela U okviru kreiranja fizickog modela baze podataka, izvodi se postupak prevodenja logickog modela u fizicki model prikazan preko dijagrama entiteti � veze koji fokusira podatke. Neposredno pre kreiranja modela treba izabrati sistem za upravljanje bazama podataka na kome ce biti implementirana baza podataka. Generisanje fizickog modela treba da re�i probleme: Multiplikativnosti - defini�e broj instanci jednog entiteta (buduca tabela u bazi) u relaciji sa jednom instancom drugog entiteta. Referencijalnog integriteta - zahteva da unesena vrednost atributa odgovara vrednosti atributa koji je primarni kljuc druge tabele. Referenacijalni integritet se defini�e za operacije ubacivanja, brisanja i a�uriranja. Kreiranja indeksa - je izvr�eno automatski za sve primarne kljuceve u entitetima i za prenesene kljuceve u entitetu Ispit. Ovo se radi iz razloga �to ce se buduca pretra�ivanja u okviru skladi�ta podataka vr�iti na osnovu ovih polja.

53. Fizicki model �eme zvezde za primer EDIFACT fakture

54. e) Generisanje baze podataka Aktivnost generisanja baze podataka vr�i se kori�cenjem SQL jezika. Naime, alat u kome je izvr�eno kreiranje fizickog modela (npr. ERWin) omogucava automatsko generisanje koda preko takozvanih DDL (Data Definition Language) datoteka. U sledecem koraku se vr�i izvr�avanje DDL datoteka pomocu Query Analyzer-a, alata koji je sastavni deo SQL Servera 2005. Ovaj alat omogucava direktno zadavanje SQL naredbi i njihovo izvr�avanje u cilju generisanja baze podataka. Kada se svi ovi poslovi uspe�no urade, baza (skladi�te) podataka je generisana. f) Ucitavanje podataka U toku ucitavanja se mogu eventalno izvr�iti jo� neke transformacije, mada bi sa transformacijama podataka trebalo zavr�iti pre ucitavanja zbog problema konzistentnosti baze. Za ucitavanje podataka mo�e se koristiti alat MS SQL Server-a DTS (Data Transformation Services) i njegova procedura ucitavanja podataka pomocu takozvanih DTS paketa.

55. Pregled procesa razvoja skladi�ta podataka

56. Izgradnja Data Warehouse-a

57. OLAP sistemi OLAP re�enja omogucavaju korisnicima brz i fleksibilan pristup podacima i predstavljaju nadgradnju skladi�ta podataka. Interaktivno analiticko procesiranje (On line Analytical Processing � OLAP) namenjeno je on-line analizama i izve�tavanjima. Krajnjem korisniku je neophodno sledece: da mo�e da postavi bilo koje poslovno pitanje, da bilo koji podatak iz preduzeca koristi za analizu, mogucnost neogranicenog izve�tavanja. U tu svrhu se koriste analiticki OLAP sistemi koji obezbeduju informacije koje se koriste za analizu problema ili situacija. Analiticko procesiranje se primarno vr�i kori�cenjem poredenja ili analiziranjem �ablona i trendova. Na primer, analiticki sistem bi mogao da prika�e kako se odredena vrsta �tampaca prodaje u razlicitim delovima zemlje. Takode, mogao bi da prika�e i kako se jedna vrsta proizvoda trenutno prodaje u odnosu na period kada se proizvod prvi put pojavio na tr�i�tu.

58. OLAP sistemi omogucavaju jednostavnu sintezu, analizu i konsolidaciju (agregacija podataka po zadatom kriterijumu) podataka. Koriste se za intuitivnu, brzu i fleksibilnu manipulaciju transakcionim podacima. OLAP sistemi podr�avaju kompleksne analize koje sprovode analiticari i omogucavaju analizu podataka iz razlicitih perspektiva (poslovnih dimenzija). OLAP sistemi kao skladi�ta podataka koriste multidimenzionalnost i denormalizaciju. Osnovni elementi OLAP sistema su: baza podataka, koja slu�i kao osnova za analizu, OLAP server, za upravljanje i manipulaciju podacima, interfejs sistem, prema korisniku i prema drugim aplikacijama, alati za administriranje. OLAP sistemi

59. OLAP serveri OLAP pristup mora od hardvera da poseduje poseban racunar, tzv. OLAP server, na koji se povezuju relacione BP, eksterni izvori podataka i ostali interni podaci, koji su podr�ani grafickim interfejsima, radnim tabelama i ostalim PC alatima. OLAP serveri koriste vi�edimenzione strukture za cuvanje podataka i veza izmedu njih. Vi�edimenzione strukture se najbolje vizuelizuju kao kocke podataka i kao kocke u kockama podataka. Svaka strana kocke se naziva dimenzijom. Dimenzija predstavlja kategoriju podataka, kao �to su tip proizvoda, region, vreme itd. Svaka celija kocke sadr�i agregirane podatke koji su u vezi sa dimenzijama. Na primer, jedna celija mo�e sadr�ati podatke o ukupnoj prodaji za dati proizvod i region u toku jednog meseca. OLAP serveri podr�avaju tipicne analiticke operacije: konsolidacija � ovom operacijom se vr�i agregacija podataka po zadatom kriterijumu, drill down/up � ove operacije omogucavaju prikazivanje vi�e ili manje detalja podataka, isecanje (slice & dice) � ove operacije obezbeduju prikazivanje podataka iz razlicitih perspektiva, pri cemu se isecanje najce�ce vr�i po vremenskoj dimenziji da bi se analizirali trendovi (na primer, jedan isecak kocke mo�e prikazivati sve podatke o prodaji za zadati tip proizvoda za sve regione, a drugi isecak mo�e prikazivati sve podatke o prodaji po kanalima za svaki tip proizvoda).

60. Zahtevi OLAP sistema Interfejs OLAP sistema treba da omoguci korisniku komforan rad, samostalno izvodenje analitickih operacija i dobijanje pregleda i poslovne grafike, bez znanja programiranja i strukture baze podataka. Zahtevi koje OLAP mora da ispuni su: mogucnost rada sa velikim skupom podataka i velikim brojem korisnika, kratko vreme odziva na upit, mogucnost rada sa podacima sa razlicitim nivoima detalja, sposobnost proracuna slo�enih matematickih funkcija, podr�ka za �ta-ako analizu, modelovanje i planiranje, jednostavnost uvodenja i odr�avanja sistema, za�tita podataka, mogucnost rada sa velikim brojema alata pomocu kojih ce se pristupati podacima, vr�iti analiza i prikazivati podaci.

61. Komponente OLAP baze podataka OLAP baza podataka je definisana sledecim komponentama: Numericke mere � Mere su vrednosti podataka ili cinjenice koje korisnici analiziraju. Primeri mera su Prodaja, Jedinice, Tro�kovi prodate robe itd. Dimenzije � dimenzije predstavljaju poslovne kategorije koje obezbeduju kontekst numerickim merama. Dimenzijama OLAP je lak�e navigirati nego dimenzijama �eme zvezde. Kocke � Kocke kombinuju sve dimenzije i sve mere u jedan konceptualni model.

62. OLAP dimenzije vs. Relacione dimenzije

63. Osnove dimenzija

64. Definisanje kocke Kocka je logicka struktura skladi�tenja OLAP baze podataka. Kocka kombinuje dimenzije i mere kako bi korisnici mogli da prave upite. Kocka defini�e skup povezanih dimenzija koje formiraju jednu n-dimenzionalnu mre�u: Svaka celija kocke sadr�i jednu vrednost; Vrednost svake celije je presek dimenzije. Mere su numericke vrednosti koje korisnici analiziraju. Svaka kocka mora da sadr�i barem jednu meru, ali ne mo�e da ima vi�e od 1024 mera. Karakteristike mere su: Mere su numericke; Mere odgovaraju cinjenicama u tabeli cinjenica. Samo jedna tabela cinjenica se mo�e koristiti za kreiranje kocke; Mere su preseci svih dimenzija i nivoa ...

65. Definisanje kocke

66. Pravljenje upita nad kockom

67. Definisanje �kri�ke� (engl. slice) ili podskupa kocke

68. Rad sa dimenzijama i hijerarhijama Glavna svrha OLAP baza podataka je da obezbede fleksibilne modele za pronala�enje podataka. Dimenzije i hijerarhije omogucavaju tu fleksibilnost. Dimenzije omogucavaju slice i dice: Slice - izbor jednog clana iz dimenzije. Na primer: ukoliko �elite da se fokusirate na samo jedan proizvod, slice vam omogucava da ignori�ete sve osim �eljenog proizvoda. Dice � kada primenjujete dice na kocki, onda postavljate vi�e clanova iz jedne dimenzije na jednu osu i vi�e clanova druge dimenzije na drugu osu. Ovakav nacin vam omogucava da sagledate meduodnose clanova razlicitih dimenzija. Hijerarhija vam omogucava drill down i drill up: Drill Down - Sve dimenzije sadr�e hijerarhiju i za vecinu dimenzija hijerarhija se sastoji od vi�e nivoa. Vi�e nivoa hijerarhije omogucava drill down po jednom clanu hijerarhije. Drill down omogucava da se fokusirate samo na odredene podatke ili oblast problema. Drill Up � Vide se samo zbirne informacije clanova. Omogucava da se sagleda op�ta slika.

69. Rad sa dimenzijama i hijerarhijama Dimenzije vam dozvoljavaju Slice

70. Arhitekture OLAP sistema Postoje sledece arhitekture OLAP sistema: vi�edimenzioni OLAP (MOLAP), relacioni OLAP (ROLAP), hibridni OLAP (HOLAP). MOLAP i ROLAP se razlikuju po nacinu fizickog cuvanja podataka. Kod MOLAP sistema podaci se cuvaju u vi�edimenzionoj strukturi, a u slucaju ROLAP sistema podaci se cuvaju u relacionim bazama podataka.

71. a. Vi�edimenzioni OLAP (MOLAP) MOLAP baze podataka imaju sledeca ogranicenja: ogranicenje fizicke velicine skupa podataka sa kojima mogu da barataju. ogranicenje na broj dimenzija koje jo� uvek obezbeduju dobre performanse sistema. da bi se vr�ila bilo kakva analiza, potrebno je prvo ucitati podatke u vi�edimenzione strukture. Pri tome se vr�e razni proracuni da bi se kreirale agregacije i popunili podaci, �to vremenski mo�e trajati relativno dugo. Po zavr�enom procesu, korisnik mo�e zapoceti analizu. Prednost MOLAP sistema je �to obezbeduju odlicne performanse sistema kada se radi sa vec sracunatim podacima (agregacijama). Nedostatak MOLAP sistema je te�koca dodavanja novih dimenzija.

72. Arhitektura MOLAP sistema

73. b. Relacioni OLAP (ROLAP) ROLAP sistemi pristupaju podacima direktno iz skladi�ta podataka i rade sa relacionim bazama podataka. ROLAP sistemi mogu da rade sa velikim skupovima podataka. Cim se odredi izvor podataka, korisnik mo�e zapoceti analizu. S obzirom da se radi direktno nad bazom podataka, korisniku su uvek na raspolaganju tekuci podaci. Kod ROLAP sistema ne postoje ogranicenja po pitanju broja dimenzija koja postoje u slucaju MOLAP sistema.

74. Karakteristike ROLAP i MOLAP sistema Neke karakteristike MOLAP i ROLAP sistema: ROLAP sistemi su optimizovani za pristupanje podacima, dok su MOLAP sistemi optimizovani za prikupljanje podataka. Prednost ROLAP sistema je �to su sumarne tabele kreirane direktno u RSUBP-u, cime se obezbeduje kratko vreme odziva sistema na upit i �to su tabele veoma citljive. Vi�edimenziona analiza moguca je kori�cenjem ROLAP i MOLAP sistema, Za manje kolicine podataka ROLAP sistemi imaju skoro iste performanse kao i MOLAP sistemi, MOLAP sistemi nisu pogodni za rad sa velikim skupom podataka, MOLAP sistemi su manji od ROLAP sistema, te je potrebno manje U/I operacija pri pribavljanju podataka, �to uslovljava da su MOLAP sistemi br�i.

75. c. Hibridni OLAP (HOLAP) HOLAP alati mogu pristupati i relacionim i vi�edimenzionim bazama podataka. Cilj kori�cenja HOLAP alata jeste da se iskoriste prednosti MOLAP alata (kratko vreme odziva sistema i analiticke mogucnosti) i ROLAP alata (dinamicki pristup podacima). Pri tome se ne mo�e reci da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je zapravo ROLAP koji ima mogucnost izvr�avanja vrlo slo�enih SQL naredbi. Cilj je bio da se zadr�e sve prednosti ROLAP-a, ali da se pri tome dodaju i neke nove mogucnosti za rad sa vi�edimenzionim bazama podataka. Potrebe korisnika su: vi�edimenzioni pogled na podatke � ovu mogucnost poseduju i MOLAP i ROLAP alati, odlicne performanse sistema � ovu mogucnost poseduju MOLAP alati, analiticka fleksibilnost (za potrebe simulacija) � ovu mogucnost poseduju MOLAP alati, pristup podacima u realnom vremenu � ovu mogucnost poseduju ROLAP alati, veliki kapacitet podataka � ovu mogucnost poseduju ROLAP alati.

76. Vendori OLAP-a http://www.olapreport.com These charts from the Olap Report show the impact that Microsoft has had in completely redefining the market and the near exit of some of its major competitors. This has a beneficial result in terms of creating a critical mass for an OLAP platform that smaller ISV�s can target with additional tools to extend functional in specialist areas and for vertical markets such as Manufacturing & Healthcare. SQL Server 2005 delivers such a broad range of new functionality that the value proposition of the Microsoft platform will increase even further.These charts from the Olap Report show the impact that Microsoft has had in completely redefining the market and the near exit of some of its major competitors. This has a beneficial result in terms of creating a critical mass for an OLAP platform that smaller ISV�s can target with additional tools to extend functional in specialist areas and for vertical markets such as Manufacturing & Healthcare. SQL Server 2005 delivers such a broad range of new functionality that the value proposition of the Microsoft platform will increase even further.

77. Evaluacija

78. Uvod u Data mining Otkrivanje znanja (Knowledge Discovering) Definisanje Data mininga Primene Data mininga Data mining modeli Koraci kod izgradnje DM modela OLAP data mining

79. Data mining i otkrivanje znanja Korisnici informacionih sistema s pravom zakljucuju da su im uvodenjem automatizovanog informacionog sistema obecavali sve i sva�ta, a dobili su samo gomilu podataka. Cak i najboljem analiticaru je te�ko da identifikuje kljucne informacije koje su relevantne za upravljanje poslovanjem. Data mining je automatski ili poluautomatski proces koji izvodi znacajna pravila ili obrasce iz ogromne kolicine podataka. Data mining programi analiziraju delove podataka da bi identifikovali veze izmedu naizgled "nepovezanih podataka". Data mining je proces otkrivanja znanja (Knowledge Discovery in Databases - KDD). koji omogucuje korisnicima da shvate sisteme i veze izmedu njihovih podataka. Data mining otkriva oblike i trendove u sadr�aju ove informacije. Data mining otkriva relacije na�eg svakodnevnog komuniciranja sa podacima.

80. Definisanje Data mininga Osnovna poruka data mininga jeste da je potrebno da iz ogromne kolicine operativnih podataka i veza koje se ne mogu odmah sagledati defini�u odgovarajuce relacije, obrasci pona�anja, �to u krajnjem slucaju treba da od podataka da potrebne informacije. Data mining se mo�e definisati kao proces podr�ke odlucivanju u kojem se tra�e �abloni infomacija u podacima. Osnovni cilj data mininga jeste otkrivanje skrivenih veza, predvidivih sekvenci i tacnih klasifikacija. Ovo pretra�ivanje mo�e vr�iti korisnik, na primer izvodenjem upita (tada je to zaista te�ko) ili ga mo�e vr�iti neki "pametni" program koji automatski pretra�uje bazu umesto korisnika i nalazi znacajne �ablone. Kada se ona nade, informacija treba da se prezentuje na odgovarajuci nacin, sa grafikonima, izve�tajima itd.

81. Primene Data mininga Reklamiranje na Internetu Data mining se mo�e koristiti za klasifikovanje grupa klijenata sa slicnim informacijama, kako bi se ciljno reklamiralo. Kada se korisnik na primer registruje na e-commerce Web sajt koji prodaje sportsku opremu tada DBMS prikuplja informacije o klijentu, kao �to su pol, godine, omiljeni sport i dr. Kori�cenjem tehnika data mininga, web sajt ce prikazivati baner sa motivima golfa za mu�karce i dr. Kada kupujete putem Interneta, ponekad vam se ponude i dodatni proizvodi za koje je Web sajt predvideo da cete mo�da biti zainteresovani. Takva preporuka se zasniva na tehnikama data mininga koji pretra�uje obrasce klijenata koji su na primer kupili istu knjigu koju vi sada kupujete. Sistem preporucuje: �Ukoliko vam se dopada x knjiga, proverite i sledece ponudene knjige�. Upravljanje kreditnim rizikom Kada uzimate kredit, banka prikuplja �irok opseg informacija o vama, kao na primer prihodi, godine sta�a, bracni status, kreditna sposobnost itd. Kori�cenjem data mining tehnika, banka mo�e da predvidi da li ste dobar ili rizican klijent za davanje kredita i takva informacija ce odlucivati o odobravanju kredita.

82. Data mining modeli Nekoliko tehnika data mininga vam omogucava identifikovanje obrazaca u ogromnim broju podataka. Modeli Analysis Services SQL Servera su Drvo odlucivanja (Decision Trees) � popularan metod za klasifikaciju i predvidanje. Kori�cenjem serije pitanja i pravila za kategorizaciju podataka, mogu se predvideti da ce izvesni tipovi imati specificne ishode. Na primer, osoba u starosnom dobu izmedu 25-35 godina koja zaraduje 60.000�/godi�nje, najverovatnije ce biti zainteresovana da podigne kredit za stan nego neko u starosnoj grupi od 15-24 godina. Na osnovu godina, dohotka i dr. istorijskih cinjenica, algoritam drveta odlucivanja ce izracunati izglede da nekoj osobi trebaju neke odredene usluge. Pravila asocijacije (Association Rules) � ovaj algoritam poma�e u identifikovanju relacija izmedu razlicitih elemenata. On grupi�e po slicnosti, odnosno koristi se za pronala�enje grupe artikala koji se najce�ce zajedno dogadaju u jednoj transakciji. Na primer, koristi se kod unakrsne prodaje gde se bele�e veze izmedu artikala i predvida za koji proizvod ce jo� biti zainteresovan da kupi. Ovaj algoritam mo�e da radi sa enormno velikim katalozima. Bio je testiran na pola miliona artikala. Naive Bayes � ovaj algoritam se koristi da jasno poka�e razlicitosti u odredenim promenljivama kod razlicitih elemenata podataka. Na primer, promenljiva: dohodak jednog domacinstva se razlikuje za svakog klijenta u bazi podataka i mo�e da poslu�i kao predskazatelj za buduce kupovine. Sequence Clustering � tehnika klasteringa omogucava grupisanje zapisa podataka koji su slicni na osnovu sekvenci prethodnih dogadaja. Na primer, sa klasteringom mo�ete segmentirati klijente sa slicnim karakteristikama u grupe. Korisnici Web aplikacije cesto prate razlicite putanje kroz sajt. Ovaj algoritam mo�e da grupi�e klijente prema njihovom redosledu otvaranja stranica na sajtu kako bi pomogli u analizi korisnika i u odredivanju koje su putanje profitabilnije od drugih. Ovaj algoritam se takode mo�e koristiti u predvidanju koju ce sledecu stranicu korisnik posetiti. Vremenske serije (Time Series) � ovaj algoritam se koristi za analizu i prognozu vremenski zasnovanih podataka. Prodaje su najce�ce analiziran i prognoziran podatak. Ovaj algoritam tra�i �ablone prolazeci kroz vi�estruke serije podataka tako da poslovanje mo�e da odredi kako razliciti elementi uticu na analiziranu seriju. Neuronske mre�e (Neural Nets) � kao �to covek uci na osnovu iskustva tako mo�e i racunar. Neuronske mre�e modeluju neuronske veze u ljudskom mozgu i na taj nacin simuliraju ucenje. Ukoliko sastavljate podatke gde su ulazne i izlazne cinjenice poznate, racunar mo�e da nauci iz tih obrazaca i postavi pravila i matematicke faktore kako bi npr., pomogao izracunavanje ili predvideo izlaznu vrednost. Pretpostavimo da �elite da prodate kola, nekoliko faktora utice na prodajnu cenu kao �to su godine, stanje, proizvodac, model itd. Analizirajuci cene kola, neuronske mre�e mogu da kreiraju seriju ulaznih i izlaznih faktora kako bi predvideli cenu prodaje. Text Mining � ovaj algoritam analizira nestruktuirane tekstualne podatke. Na primer, kompanije mogu da analiziraju nestruktuirani podatak kao �to je deo za komentare gde klijenti unose svoje utiske, zadovoljstvo o proizvodu i druge komentare. Memorijsko zasnovano prosudivanje � Memory-based reasoning (MBR) je tehnika data mininga koja se koristi za predvidanje i klasifikaciju. Na primer, ukoliko pacijent ima nekoliko simptoma, doktor ce na osnovu iskustva sa slicnim pacijentima dati dijagnozu. Doktor izvr�ava dijagnozu koristeci oblik MBR-a.

83. Algoritmi Data Mining-a All data mining tools, including Microsoft SQL Server 2005 Analysis Services, use multiple algorithms. Analysis Services, of course, is extensible; third party ISVs can develop algorithms that snap in seamlessly to the Analysis Services data mining framework. Depending on the data and the goals, different algorithms are preferred, and each algorithm can be used for multiple problems. All data mining tools, including Microsoft SQL Server 2005 Analysis Services, use multiple algorithms. Analysis Services, of course, is extensible; third party ISVs can develop algorithms that snap in seamlessly to the Analysis Services data mining framework. Depending on the data and the goals, different algorithms are preferred, and each algorithm can be used for multiple problems.

84. Uvodni primer Koji je kljucni atribut za predvidanje da li ce svr�eni srednjo�kolci upisati fakultet ili ne? Postavljana su im sledeca pitanja: Kog su pola? Koliki je prihod njihovih roditelja? Koliki im je IQ? Da li ih roditelji ohrabruju da nastave studiranje ili ne? Da li planiraju da upi�u fakultet? Da bi na osnovu prikupljenih podataka utvrdili koliko studenata ce nastaviti �kolovanje, neophodno je da se postavi upit koji broji zapise studenata koji �ele i onih koji ne �ele da nastave �kolovanje.

85. Pretpostavimo da ste zainteresovani da odredite koji atribut ili kombinacija atributa imaju najveci uticaj da predvidi verovatnocu studenata koji ce upisati fakultet. Ovo je slo�eniji upit i zahteva kori�cenje tehnika data mininga. Primenjujuci algoritam drveta odlucivanja otkrivene su sledece relacije: Najuticajniji atribut je ohrabrivanje njihovih roditelja da upi�u fakultet. Oni studenti koje roditelji ohrabruju da upi�u fakultet, 60 % planira da upi�e fakultet i to uglavnom oni sa visokim IQ.. Uvodni primer (nastavak)

86. Drvo odlucivanja

87. Koraci kod izgradnje DM modela Izbor tehnike data mininga Identifikovanje slucaja (case) Izbor entiteta koji treba da se predvidi Identifikovanje podataka za analizu Opciono kreiranje dimenzije i virtuelne kocke iz rezultujuceg modela Obrada modela i prikupljanje rezultata.

88. Metodologija kreiranja Data Mining modela

89. Integracija data mininga sa skladi�tem podataka Danas se radi na integraciji data mining alata sa skladi�tem podataka. Postoji vi�e razloga za ovu integraciju. Prvo, data mining alati zahtevaju postojanje "preci�cenih" i integrisanih podataka. Tradicionalni data mining alati bi iz tih razloga prvo izvr�ili transfer podataka (mo�da i stotine gigabajta) putem mre�e. Nakon zavr�enog rada cesto se javlja potreba za novim podacima, �to bi znacilo da bi se ceo proces transfera morao ponoviti. Pri ovome se neprestano moralo voditi racuna o za�titi podataka i gre�kama pri prenosu. Drugi razlog za integraciju data mining alata sa skladi�tem podataka jeste pobolj�ani korisnicki interfejs. Stariji data mining alati su zahtevali postojanje niza strucnjaka da bi se postigli zadovoljavajuci rezultati. Danas, svaki poznavalac SQL jezika mo�e koristiti mogucnosti data mininga. Treci razlog za integraciju su performanse sistema i mogucnost pro�irivanja koje obezbeduje skladi�te podataka, a koje su potrebne za data mining alate.

90. Tradicionalni i integrisani prilaz

91. OLAP data mining OLAP i data mining ne bi trebalo razmatrati kao odvojene procese vec da ih treba u potpunosti spojiti. Komponente OLAP data mininga su: relaciona baza podataka koja sadr�i granularne podatke (ne mora biti skladi�te podataka), OLAP koji obezbeduje brz pristup sumarnim podacima izmedu vi�e dimenzija, vi�edimenzioni proces otkrivanja koji ce vr�iti otkrivanje izmedu dimenzija i spajati rezultate. Bez upotrebe OLAP data mininga, moguce je izostaviti kljucne informacije ili se mogu dobiti netacni rezultati.

92. Izgradnja Data Mining modela sa OLAP podacima Uvod u scenario Clanske kartice Izbor Data Mining tehnike Izbor slucaja (case) Selekcija entiteta za predvidanje Selekcija podataka za analizu (training data) Kreiranje dimenzije i virtuelne kocke Ispitivanje Data Mining modela

93. Uvod u scenario Clanske kartice Direktor marketinga �eli da oceni trenutni program clanskih kartica. Da bi zadr�ao postojece klijente i ispunio njihova ocekivanja, �eli da identifikuje mogucnosti kako bi povecao nivo usluga kod svih kartica: zlatna, srebrna, bronzana i obicna. Raspolo�ive informacije od klijenata su pol, bracni status, godi�nji prihodi, nivo obrazovanja. Da bi predvideli faktore koji uticu na izbor odgovarajuce kartice koristicemo Data mining: Koristicemo tehniku drveta odlucivanja da bi prona�li obrazac za izbor clanske kartice. Odabracemo Klijente kao dimenziju slucaja (case dimension). Odabracemo Clansku kartu kao informaciju koju ce koristiti algoritam DM da bi identifikovao obrasce. Iskoristice se raspolo�ive informacije o klijentima kako bi se prona�ao obrazac. Ispitati drvo odlucivanja.

94. Izbor tehnike Data Mininga

95. Izbor slucaja (case)

96. Selektovanje entiteta za predvidanje

97. Selektovanje podataka za analizu (training data)

98. Kreiranje dimenzije i virtuelne kocke

99. Ispitivanje Data Mining modela

100. Ispitivanje zavisnosti mre�e

Uvod u Data Warehousing i OLAP

Uvod u Data Warehousing i OLAP

Presentation Transcript

Data Warehousing and OLAP

Data Warehousing: Data Models and OLAP operations

Data Warehousing and OLAP

Data Warehousing & OLAP

Data Warehousing and OLAP

Data Warehousing & OLAP

Data Warehousing: Data Models and OLAP operations

Data Warehousing and OLAP

Data Warehousing & OLAP

Decision Support, Data Warehousing, and OLAP

Data Warehousing & OLAP

Data Warehousing and OLAP

Methodology for Data warehousing with OLAP

Data Warehousing & OLAP

Decision Support, Data Warehousing, and OLAP

Data Warehousing: Data Models and OLAP operations

Data Warehousing and OLAP Technology

Uvod u Data Warehousing i OLAP