Ma insko u enje
This presentation is the property of its rightful owner.
Sponsored Links
1 / 37

Ma šinsko učenje PowerPoint PPT Presentation


  • 75 Views
  • Uploaded on
  • Presentation posted in: General

Ma šinsko učenje. Mladen Nikolić. Šta je mašinsko učenje ?. Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem.

Download Presentation

Ma šinsko učenje

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Ma insko u enje

Mašinsko učenje

Mladen Nikolić


Ta je ma insko u enje

Šta je mašinsko učenje?

  • Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem.

  • Disciplina koja se bavi proučavanjem generalizacije i konstrukcijom i analizom algoritama koji generalizuju.


Podaci

Podaci

  • Podaci na osnovu kojih se generalizuje se nezivaju podacima za trening, a njihov skup trening skup.

  • Podaci na kojima se vrši generalizacija najčešće se nazivaju podaci za testiranje, a njihov skup test skup.

  • Pojedinačne podatke nazivamo instancama.

  • Instance ćemo označavati promenljivom x.


Primer

Primer

  • Naučiti kakvi dani su pogodni za bavljenje vodenim sportovima.

  • Podatci se,na primer, mogu pretstaviti kao konjunkcije uslova nad nekim promenljivim koje smatramo relevantnim. Na primer

    • Oblačnost {Vedro, Oblačno}

    • Temperatura vazduha {Toplo, Hladno}

    • Vlažnost {Normalna, Visoka}

    • Vetar {Jak, Slab}

    • Temperatura vode {Toplo, Hladno}

    • Prognoza {Promenljivo, Stabilno}

  • U ovakvom slučaju jedna intanca može da bude

    • (Toplo, Normalna, Slab, Toplo, Promenljivo)


Dizajn sistema koji u i

Dizajn sistema koji uči

  • Prilikom dizajna sistema koji uči bitno je učiniti sledeće izbore:

    • Izbor formulacije problema učenja

    • Definisanje ciljne funkcije

    • Definisanje prostora hipoteza

    • Izbor mere efikasnosti

    • Izbor algoritma koji uči


Osnovne formulacije problema u enja

Osnovne formulacije problema učenja

  • Nadgledano učenje

    • Zajedno sa trening podacima algoritmu koji uči pružaju se i željeni izlazi.

  • Nenadgledano učenje

    • Algoritmu koji uči se daju samo podaci bez izlaza.


Primer1

Primer


U enje kao aproksimiranje funkcija

Učenje kao aproksimiranje funkcija

  • Učenje se najčešće može videti kao vid aproksimacije funkcija.

  • Funkcija koju treba aproksimirati se naziva ciljna funkcija.

  • Funkciju kojom aproksimiramo ciljnu, nazivamo hipotezom ili modelom podataka.

  • Ciljnu funkciju ćemo označavati sa c.

  • Hipotezu ćemo označavati sa h.


Prostor hipoteza

Prostor hipoteza

  • Prostor hipoteza je skup svih dopustivih hipoteza.

  • Izbor prostora hipoteza je presudan za kvalitet procesa učenja.

  • Učenje se može videti kao pretraga prostora hipoteza vođena podacima.

  • Prostor hipoteza ćemo označavati sa H.


Primer2

Primer

  • Ciljna funkcija, na primer, može biti zadata tabelom.

  • Hipoteze mogu biti vektori vrednosti promenljivih kojima opisujemo dane.

  • Dodaćemo dve specijalne vrednosti

    • ? – svaka vrednost je prihvatljiva

    • Ø – nijedna vrednost nije prihvatljiva

  • Primer hipoteze koja kaže da je hladno vreme sa visokomvlažnošću pogodno za bavljenje vodenim sportovima

    • <?,Hladno,Visoka,?,?,?>


Mera efikasnosti

Mera efikasnosti

  • Mogući su različiti izbori.

  • Od tog izbora dosta zavisi šta je to što će biti naučeno.


Primer3

Primer

  • Smatraćemo da je hipoteza koja se slaže sa svim podacima za trening dobra, a hipoteza koja se ne slaže sa bilo kojom instancom iz trening skupa, loša.


Algoritam u enja

Algoritam učenja

  • Postoji veliki broj algoritama učenja.

  • Razlikuju se po domenima na koje su primenljivi, performansama, načinu pružanja podataka i slično.


Primer4

Primer

  • Koristićemo algoritam koji nalazi najspecifičniju hipotezu koja odgovara podacima.

  • Find-S:

    • Inicijalizovati hna < Ø, Ø, Ø, Ø, Ø, Ø>

    • Za svaku pozitivnu instancu iz trening skupa

      • Za svaku promenljivu Ai u h

        • Ako uslov za Ai nije zadovoljen, zamenitipostojeću vrednost sledećom opštijom vrednošću tako da x zadovoljava h.

    • Vratiti h.


Primer5

Primer


Neki problemi u enja

Neki problemi učenja

  • Klasifikacija

  • Regresija

  • Odlučivanje

  • Učenje jezika


Primer6

Primer

  • Problem određivanja da li je dan pogodan za vodene sportove je problem klasifikacije. Postoje dve klase

    • 1 – Dan je pogodan

    • 2 – Dan nije pogodan


Teorijski modeli u enja

Teorijski modeli učenja

  • Algoritmi su dugo privlačili više pažnje od teorijskih modela.

  • Teorijski modeli pokušavaju da odgovore pre svega na sledeća pitanja:

    • Šta se može naučiti, koliko dobro i pod kojim uslovima?

    • Kako se menja kvalitet učenja u zavisnosti od obima trening podataka?


Neki poznatiji modeli u enja

Neki poznatiji modeli učenja

  • Glodov model “graničnog učenja” (1964)

  • Valiantov PAC model (1984)

  • Statistička teorija učenja (Vapnik i drugi od šezdesetih do kraja devedesetih)


Pac model

PAC model

  • PAC – Probably approximately correct.

  • Aproksimativnost podrazumeva definisanje greške.

  • Greška hipoteze h u odnosu na ciljnu funkciju c i raspodelu D je verovatnoća da će h dodeliti pogrešnu vrednost instanci xizabranoj prema raspodeli D.

    • E(h|D)=P(c(x)≠h(x))


Pac model1

PAC model

  • C – skup ciljnih funkcija

  • X – skup instanci kardinalnosti n

  • L – algoritam koji uči

  • Kažemo da je skup C PAC naučiv (PAC learnable) koristeći algoritam L i prostor hipoteza H ako za sve

    • funkcije c iz skupa C,

    • raspodele D nad X,

    • 0<ε<½,

    • 0< δ <½,

      L sa verovatnoćom bar 1-δ vraća hipotezu h iz H takvu da je E(h|D)≤ε u vremenu koje je polinomijalno u odnosu na 1/ε, 1/δ, n i složenost funkcije c.

  • Složenost funkcije c je dužina njenog kodiranja u skupu C uzevši u obzir neku reprezentaciju.


Pac model2

PAC model

  • Očigledno se zahteva da prostor hipoteza H sadrži hipotezu sa proizvoljno malom greškom za svaku ciljnu funkciju.

  • To nije uvek moguće obezbediti.

  • U tom slučaju od algoritma možemo zahtevati da nađe hipotezu sa najmanjom greškom.


Obim podataka za trening

Obim podataka za trening

  • Podaci za trening često nisu lako dostupni.

  • Stoga je zahtevnost za takvim podacima vrlo bitna.

  • Pokazuje se da je za PAC učenje dovoljan broj instanci m dat sa:

    • m≥(ln|H|+ln(1/δ))/2ε()

  • Obično je dovoljno i mnogo manje instanci.

  • Ova ocena je neprimenljiva u slučaju beskonačnog prostora hipoteza.


Primer7

Primer

  • S obzirom na moguće vrednosti koje možemo dodeliti promenljivim veličina prostora hipoteza je 4n gde je n broj promenljivih koje smatramo bitnim. Stoga je

    • m≥(n*ln4+ln(1/δ))/2ε

  • Ova ocena je polinomijalna u zavisnosti od n, 1/δ, 1/ε i nezavisna od složenosti ciljne funkcije.


Primer8

Primer

  • Vremenska složenost algoritma Find-S je linearna u odnosu na obim podataka za trening, a nezavisna od 1/δ, 1/ε i složenosti ciljne funkcije.

  • Stoga je skup ciljnih funkcija u našem problemu PAC naučiv koristeći algoritam Find-S i odabrani prostor hipoteza.


Slo enost prostora funkcija

Složenost prostora funkcija

  • U formuli za veličinu uzorka složenost prostora funkcija se ogledala preko njegove kardinalnosti.

  • Druga mera bi mogla biti njegova dimenzionalnost.

  • Postoji bolja mera složenosti od obe pomenute koja potiče iz statističke teorije učenja.


Vc dimenzija

VC dimenzija

  • VC – Vapnik-Červonenkis

  • X – skup svih mogućih instanci.

  • S – skup instanci koje posmatramo.

  • Neka su hipoteze diskretne funkcije koje uzimaju vrednosti iz skupa {0,1}.

  • Moguća su uopštenja na proizvoljne funkcije.

  • Svaka hipoteza indukuje jednu dihotomiju skupa S:

    • {x iz S | h(x)=1}

    • {x iz S | h(x)=0}


Vc dimenzija1

VC dimenzija

  • Skup hipoteza H razbija skup instanci S ako i samo ako za svaku dihotomiju skupa S postoji neka hipoteza iz H koja je indukuje.

  • VC dimenzija skupa hipoteza H definisanih nad skupom instanci X je veličina najvećeg konačnog podskupa od X koga H razbija.

  • Ako se proizvoljno veliki podskupovi od X mogu razbiti pomoću H, onda je VC dimenzija skupa H beskonačna.


Primer9

Primer

  • X=R

  • H={A<x<B | A,B iz R}

  • VC(H)=2

  • X=R

  • H={Ax+By+C>0 | A,B,C iz R}

  • VC(H)=3


Primer10

Primer

  • H={x iz S | S iz P(X)}

  • VC(H)=∞


Overfitting

Overfitting

  • Visoka VC dimenzija skupa hipoteza znači veliku prilagodljivost hipoteza podacima.

  • Ukoliko je VC(H) mala, nemamo dovoljno bogat skup hipoteza i pravi se značajna greška već na trening skupu.


Overfitting1

Overfitting

  • Ukoliko je VC(H) velika, skup je bogat i vrlo lako se nalazi hipoteza koja se dobro slaže sa podacima za trening.

  • Hipoteza koja je previše prilagođena podacima za trening često ne generalizuje dobro, odnosno pravi veliku grešku na podacima koji su nepoznati u vreme treninga. Mogući razlozi

    • Hipoteza je prilagođena šumu u podacima

    • Hipoteza je prilagođena uzorku koji ne oslikava dovoljno dobro stvarnu distribuciju podatka (sampling bias)

  • Ovaj problem je poznat pod nazivom overfitting.


Pristrasnost u indukciji

Pristrasnost u indukciji

  • Da VC dimenzija prostora hipoteza ne bi bila prevelika potrebno je napraviti neke dodatne pretpostavke o prostoru hipoteza.

  • Algoritam koji uči može napraviti dodatne pretpostavke.

  • Ove pretpostavke dovode do takozvane pristrasnosti u indukciji (inductibe bias).


Primer11

Primer

  • Prilikom opisivanja dana koji su pogodni za bavljenje vodenim sportovima pretpostavljali smo da se dani mogu opisati konjunkcijama uslova nad određenim promenljivim.

  • Algoritam Find-S pretpostavlja da je najspecifičnija hipoteza najbolja.

  • Da smo dozvolili

    • proizvoljne kombinacije konjunkcija, disjunkcija i negacija i

    • da sve hipoteze koje su konzistentne sa podacima za trening glasaju o vrednosti ciljne funkcije

      potpuno bismo izgubili moć generalizacije.


Vc dimenzija2

VC dimenzija

  • Koristeći VC dimenziju moguće je izvesti značajno bolje granice za broj primera za trening, koja je pri tom upotrebljiva i u slučaju beskonačnih prostora hipoteza.


Generalizacija

Generalizacija

  • Koristeći VC dimenziju moguće je i izvesti gornju granicu mogućnosti generalizacije koristeći neki prostor hipoteza.

  • R(h) – Stvarni rizik, odnosno očekivanje greške generalizacije

  • Remp (h)–Empirijski rizik, odnosno greška na trening skpu

  • E – Širina intervala poverenja kada se statistika Rempuzme za ocenu vrednosti R.

  • β – zahtevano poverenje.

  • Gornja granica greške generalizacije može da se zapiše kao

    • R<Remp+E(VC(H),β;n)

  • Princip strukturalne minimizacije rizika kaže da hipotezu treba birati iz prostora hipoteza što manje VC dimenzije, a da se pri tom ne napravi prevelika greška na trening skupu.


Strukturalna minimizacija rizika

Strukturalna minimizacija rizika


  • Login