Ma insko u enje
Download
1 / 37

Ma šinsko učenje - PowerPoint PPT Presentation


  • 117 Views
  • Uploaded on

Ma šinsko učenje. Mladen Nikolić. Šta je mašinsko učenje ?. Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Ma šinsko učenje' - minda


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Ma insko u enje

Mašinsko učenje

Mladen Nikolić


Ta je ma insko u enje
Šta je mašinsko učenje?

  • Disciplina koja se bavi izgradnjom prilagodljivih računarskih sistema koji su sposobni da poboljšavaju svoje performanse učenjem.

  • Disciplina koja se bavi proučavanjem generalizacije i konstrukcijom i analizom algoritama koji generalizuju.


Podaci
Podaci

  • Podaci na osnovu kojih se generalizuje se nezivaju podacima za trening, a njihov skup trening skup.

  • Podaci na kojima se vrši generalizacija najčešće se nazivaju podaci za testiranje, a njihov skup test skup.

  • Pojedinačne podatke nazivamo instancama.

  • Instance ćemo označavati promenljivom x.


Primer
Primer

  • Naučiti kakvi dani su pogodni za bavljenje vodenim sportovima.

  • Podatci se,na primer, mogu pretstaviti kao konjunkcije uslova nad nekim promenljivim koje smatramo relevantnim. Na primer

    • Oblačnost {Vedro, Oblačno}

    • Temperatura vazduha {Toplo, Hladno}

    • Vlažnost {Normalna, Visoka}

    • Vetar {Jak, Slab}

    • Temperatura vode {Toplo, Hladno}

    • Prognoza {Promenljivo, Stabilno}

  • U ovakvom slučaju jedna intanca može da bude

    • (Toplo, Normalna, Slab, Toplo, Promenljivo)


Dizajn sistema koji u i
Dizajn sistema koji uči

  • Prilikom dizajna sistema koji uči bitno je učiniti sledeće izbore:

    • Izbor formulacije problema učenja

    • Definisanje ciljne funkcije

    • Definisanje prostora hipoteza

    • Izbor mere efikasnosti

    • Izbor algoritma koji uči


Osnovne formulacije problema u enja
Osnovne formulacije problema učenja

  • Nadgledano učenje

    • Zajedno sa trening podacima algoritmu koji uči pružaju se i željeni izlazi.

  • Nenadgledano učenje

    • Algoritmu koji uči se daju samo podaci bez izlaza.



U enje kao aproksimiranje funkcija
Učenje kao aproksimiranje funkcija

  • Učenje se najčešće može videti kao vid aproksimacije funkcija.

  • Funkcija koju treba aproksimirati se naziva ciljna funkcija.

  • Funkciju kojom aproksimiramo ciljnu, nazivamo hipotezom ili modelom podataka.

  • Ciljnu funkciju ćemo označavati sa c.

  • Hipotezu ćemo označavati sa h.


Prostor hipoteza
Prostor hipoteza

  • Prostor hipoteza je skup svih dopustivih hipoteza.

  • Izbor prostora hipoteza je presudan za kvalitet procesa učenja.

  • Učenje se može videti kao pretraga prostora hipoteza vođena podacima.

  • Prostor hipoteza ćemo označavati sa H.


Primer2
Primer

  • Ciljna funkcija, na primer, može biti zadata tabelom.

  • Hipoteze mogu biti vektori vrednosti promenljivih kojima opisujemo dane.

  • Dodaćemo dve specijalne vrednosti

    • ? – svaka vrednost je prihvatljiva

    • Ø – nijedna vrednost nije prihvatljiva

  • Primer hipoteze koja kaže da je hladno vreme sa visokomvlažnošću pogodno za bavljenje vodenim sportovima

    • <?,Hladno,Visoka,?,?,?>


Mera efikasnosti
Mera efikasnosti

  • Mogući su različiti izbori.

  • Od tog izbora dosta zavisi šta je to što će biti naučeno.


Primer3
Primer

  • Smatraćemo da je hipoteza koja se slaže sa svim podacima za trening dobra, a hipoteza koja se ne slaže sa bilo kojom instancom iz trening skupa, loša.


Algoritam u enja
Algoritam učenja

  • Postoji veliki broj algoritama učenja.

  • Razlikuju se po domenima na koje su primenljivi, performansama, načinu pružanja podataka i slično.


Primer4
Primer

  • Koristićemo algoritam koji nalazi najspecifičniju hipotezu koja odgovara podacima.

  • Find-S:

    • Inicijalizovati hna < Ø, Ø, Ø, Ø, Ø, Ø>

    • Za svaku pozitivnu instancu iz trening skupa

      • Za svaku promenljivu Ai u h

        • Ako uslov za Ai nije zadovoljen, zamenitipostojeću vrednost sledećom opštijom vrednošću tako da x zadovoljava h.

    • Vratiti h.



Neki problemi u enja
Neki problemi učenja

  • Klasifikacija

  • Regresija

  • Odlučivanje

  • Učenje jezika


Primer6
Primer

  • Problem određivanja da li je dan pogodan za vodene sportove je problem klasifikacije. Postoje dve klase

    • 1 – Dan je pogodan

    • 2 – Dan nije pogodan


Teorijski modeli u enja
Teorijski modeli učenja

  • Algoritmi su dugo privlačili više pažnje od teorijskih modela.

  • Teorijski modeli pokušavaju da odgovore pre svega na sledeća pitanja:

    • Šta se može naučiti, koliko dobro i pod kojim uslovima?

    • Kako se menja kvalitet učenja u zavisnosti od obima trening podataka?


Neki poznatiji modeli u enja
Neki poznatiji modeli učenja

  • Glodov model “graničnog učenja” (1964)

  • Valiantov PAC model (1984)

  • Statistička teorija učenja (Vapnik i drugi od šezdesetih do kraja devedesetih)


Pac model
PAC model

  • PAC – Probably approximately correct.

  • Aproksimativnost podrazumeva definisanje greške.

  • Greška hipoteze h u odnosu na ciljnu funkciju c i raspodelu D je verovatnoća da će h dodeliti pogrešnu vrednost instanci xizabranoj prema raspodeli D.

    • E(h|D)=P(c(x)≠h(x))


Pac model1
PAC model

  • C – skup ciljnih funkcija

  • X – skup instanci kardinalnosti n

  • L – algoritam koji uči

  • Kažemo da je skup C PAC naučiv (PAC learnable) koristeći algoritam L i prostor hipoteza H ako za sve

    • funkcije c iz skupa C,

    • raspodele D nad X,

    • 0<ε<½,

    • 0< δ <½,

      L sa verovatnoćom bar 1-δ vraća hipotezu h iz H takvu da je E(h|D)≤ε u vremenu koje je polinomijalno u odnosu na 1/ε, 1/δ, n i složenost funkcije c.

  • Složenost funkcije c je dužina njenog kodiranja u skupu C uzevši u obzir neku reprezentaciju.


Pac model2
PAC model

  • Očigledno se zahteva da prostor hipoteza H sadrži hipotezu sa proizvoljno malom greškom za svaku ciljnu funkciju.

  • To nije uvek moguće obezbediti.

  • U tom slučaju od algoritma možemo zahtevati da nađe hipotezu sa najmanjom greškom.


Obim podataka za trening
Obim podataka za trening

  • Podaci za trening često nisu lako dostupni.

  • Stoga je zahtevnost za takvim podacima vrlo bitna.

  • Pokazuje se da je za PAC učenje dovoljan broj instanci m dat sa:

    • m≥(ln|H|+ln(1/δ))/2ε()

  • Obično je dovoljno i mnogo manje instanci.

  • Ova ocena je neprimenljiva u slučaju beskonačnog prostora hipoteza.


Primer7
Primer

  • S obzirom na moguće vrednosti koje možemo dodeliti promenljivim veličina prostora hipoteza je 4n gde je n broj promenljivih koje smatramo bitnim. Stoga je

    • m≥(n*ln4+ln(1/δ))/2ε

  • Ova ocena je polinomijalna u zavisnosti od n, 1/δ, 1/ε i nezavisna od složenosti ciljne funkcije.


Primer8
Primer

  • Vremenska složenost algoritma Find-S je linearna u odnosu na obim podataka za trening, a nezavisna od 1/δ, 1/ε i složenosti ciljne funkcije.

  • Stoga je skup ciljnih funkcija u našem problemu PAC naučiv koristeći algoritam Find-S i odabrani prostor hipoteza.


Slo enost prostora funkcija
Složenost prostora funkcija

  • U formuli za veličinu uzorka složenost prostora funkcija se ogledala preko njegove kardinalnosti.

  • Druga mera bi mogla biti njegova dimenzionalnost.

  • Postoji bolja mera složenosti od obe pomenute koja potiče iz statističke teorije učenja.


Vc dimenzija
VC dimenzija

  • VC – Vapnik-Červonenkis

  • X – skup svih mogućih instanci.

  • S – skup instanci koje posmatramo.

  • Neka su hipoteze diskretne funkcije koje uzimaju vrednosti iz skupa {0,1}.

  • Moguća su uopštenja na proizvoljne funkcije.

  • Svaka hipoteza indukuje jednu dihotomiju skupa S:

    • {x iz S | h(x)=1}

    • {x iz S | h(x)=0}


Vc dimenzija1
VC dimenzija

  • Skup hipoteza H razbija skup instanci S ako i samo ako za svaku dihotomiju skupa S postoji neka hipoteza iz H koja je indukuje.

  • VC dimenzija skupa hipoteza H definisanih nad skupom instanci X je veličina najvećeg konačnog podskupa od X koga H razbija.

  • Ako se proizvoljno veliki podskupovi od X mogu razbiti pomoću H, onda je VC dimenzija skupa H beskonačna.


Primer9
Primer

  • X=R

  • H={A<x<B | A,B iz R}

  • VC(H)=2

  • X=R

  • H={Ax+By+C>0 | A,B,C iz R}

  • VC(H)=3


Primer10
Primer

  • H={x iz S | S iz P(X)}

  • VC(H)=∞


Overfitting
Overfitting

  • Visoka VC dimenzija skupa hipoteza znači veliku prilagodljivost hipoteza podacima.

  • Ukoliko je VC(H) mala, nemamo dovoljno bogat skup hipoteza i pravi se značajna greška već na trening skupu.


Overfitting1
Overfitting

  • Ukoliko je VC(H) velika, skup je bogat i vrlo lako se nalazi hipoteza koja se dobro slaže sa podacima za trening.

  • Hipoteza koja je previše prilagođena podacima za trening često ne generalizuje dobro, odnosno pravi veliku grešku na podacima koji su nepoznati u vreme treninga. Mogući razlozi

    • Hipoteza je prilagođena šumu u podacima

    • Hipoteza je prilagođena uzorku koji ne oslikava dovoljno dobro stvarnu distribuciju podatka (sampling bias)

  • Ovaj problem je poznat pod nazivom overfitting.


Pristrasnost u indukciji
Pristrasnost u indukciji

  • Da VC dimenzija prostora hipoteza ne bi bila prevelika potrebno je napraviti neke dodatne pretpostavke o prostoru hipoteza.

  • Algoritam koji uči može napraviti dodatne pretpostavke.

  • Ove pretpostavke dovode do takozvane pristrasnosti u indukciji (inductibe bias).


Primer11
Primer

  • Prilikom opisivanja dana koji su pogodni za bavljenje vodenim sportovima pretpostavljali smo da se dani mogu opisati konjunkcijama uslova nad određenim promenljivim.

  • Algoritam Find-S pretpostavlja da je najspecifičnija hipoteza najbolja.

  • Da smo dozvolili

    • proizvoljne kombinacije konjunkcija, disjunkcija i negacija i

    • da sve hipoteze koje su konzistentne sa podacima za trening glasaju o vrednosti ciljne funkcije

      potpuno bismo izgubili moć generalizacije.


Vc dimenzija2
VC dimenzija

  • Koristeći VC dimenziju moguće je izvesti značajno bolje granice za broj primera za trening, koja je pri tom upotrebljiva i u slučaju beskonačnih prostora hipoteza.


Generalizacija
Generalizacija

  • Koristeći VC dimenziju moguće je i izvesti gornju granicu mogućnosti generalizacije koristeći neki prostor hipoteza.

  • R(h) – Stvarni rizik, odnosno očekivanje greške generalizacije

  • Remp (h)–Empirijski rizik, odnosno greška na trening skpu

  • E – Širina intervala poverenja kada se statistika Rempuzme za ocenu vrednosti R.

  • β – zahtevano poverenje.

  • Gornja granica greške generalizacije može da se zapiše kao

    • R<Remp+E(VC(H),β;n)

  • Princip strukturalne minimizacije rizika kaže da hipotezu treba birati iz prostora hipoteza što manje VC dimenzije, a da se pri tom ne napravi prevelika greška na trening skupu.



ad