u enje iz podataka sa grani nom nekonzistentno u n.
Download
Skip this Video
Download Presentation

Loading in 2 Seconds...

play fullscreen
1 / 20

- PowerPoint PPT Presentation


  • 67 Views
  • Uploaded on

Učenje iz podataka sa graničnom nekonzistentnošću. Nekonzistentnost podataka U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno Greška kod algoritma eliminacije kandidata

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - amity-riley


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
u enje iz podataka sa grani nom nekonzistentno u
Učenje iz podataka sa graničnom nekonzistentnošću
  • Nekonzistentnost podataka
    • U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere
    • Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno
  • Greška kod algoritma eliminacije kandidata
    • Uklanja se korektni ciljni koncept
    • Ako ima dovoljno primjera prostor inačica konvergira u prazni skup
grani na nekonzistentnost
Granična nekonzistentnost
  • Slikovni opis granične nekonzistentnosti
  • Primjer: nepreciznost mjernih uređaja daje podatke koji mogu biti granično nekonzistentni
  • Cilj: proširiti algoritam tako da bude otporan na podatke koji nisu konzistentni na granici
pristup
Pristup
  • Ideja:
    • Reći da svi primjeri koji su blizu zadanom primjeru imaju istu klasifikaciju
  • Algoritam
    • Zadano:
      • Primjeri za treniranje
      • Definicija bliskosti
      • Konceptno opisni jezik
    • Odrediti:
      • Skup koncepata konzistentnih sa podacima ili bliskim susjednim podacima
pristup1
Pristup
  • Algoritam napreduje na sljedeći način
    • 1. a) Odrediti skup primjera blizu zadanog primjera

b) Oblikovati prostor inačica sa svim konceptima konzistentnim sa nekim primjerima iz ovog skupa

    • 2. Naći presjek ovog prostora inačica sa prostorom inačica generiranom u prošlom primjeru
    • 3. Vratiti se na prvi korak za sljedeći primjer
pretra ivanje prostora ina ica
Pretraživanje prostora inačica
  • Idealni rezultat:
    • jedinstveni prostor inačica sa određenim konceptom
    • ako nema dovoljno testnih primjera konačni prostor inačica ima više od jednog koncepta
    • ovisnost o definiciji bliskosti
  • Dugi proces
    • moguće da nema na računalu dovoljno resursa
1 primjer
1. PRIMJER
  • Fischerovi podaci o irisima
    • nekonzistentni podaci
    • klasificiranje u 3 klase (setosa, versicolor i viginica)
    • 50 primjera za svaku klasu
    • svaki primjer opisan sa 4 obilježja (širina i duljina lapa čaške, širina i duljina latice)
  • Konceptno opisni jezik
    • Konjukcija poluzatvorenih intervala ax<b za svako obilježje, gdje su a i b višekratnici od 8 mm
1 primjer1
1. PRIMJER
    • definirana duljina koja obuhvaća susjedne primjere je 3 mm (ovisno kolika je pogreška rađena tijekom mjerenja)
    • inicijaliziran je prostor inačica za svaku klasu
  • karakteristike ovakvog opisnog konceptnog jezika
    • svaki primjer može biti susjed konačnom broju primjera
    • mnogi primjeri su jednaki jer su im vrijednosti u istom intervalu
    • svaki prostor inačica zadani primjer u procesu učenja uzima kao negativni ili pozitivni
1 primjer2
1. PRIMJER
  • Rezultati
    • Primjeri su podijeljeni u 10 skupova po 15 primjera, 5 primjera za svaki cvijet
    • 9 skupova se koristilo za učenje, a 10. skup korišten je za testiranje
    • Tipični konačni rezultat nakon učenja
      • setosa: [dužina latice<2.4cm]
      • versicolor: [dužina latice>=4cm] i [širina latice<1.6cm]
      • viginica: [dužina latice>=2.4cm] i [širina latice>=1.6cm]
1 primjer3
1. PRIMJER
  • Testiranje i usporedba sa drugim metodama
    • Setosa je prepoznata jer je klasifikacijski odvojiva
2 primjer
2. PRIMJER
  • Tri obilježja sa realnim vrijednostima iz intervala [0,9]
  • Konceptno opisni jezik dijeli obilježja u tri intervala [0,3>,[3,6> i [6,9]
  • Konjukcija atributa
  • Generirano 80 slučajnih trojki brojeva iz tog intervala i svakom je zbrojena vrijednost slučajno odabrana iz intervala <-1,1>
    • Podaci imaju graničnu nekonzistentnost
    • neispravan primjer nikad nije dalje od jedinične vrijednosti
  • Oblikovana je definicija bliskosti koja kaže da je susjed maksimalno udaljen za jediničnu vrijednost
2 primjer1
2. PRIMJER
  • Rezultati testiranja:
2 primjer2
2. PRIMJER
  • Ovaj primjer pokazuje da je ovaj algoritam ispravan kada se radi sa podacima koji imaju malu pogrešku zbog mjerenja i kada znamo točno kolika je ta pogreška
  • Čak je dozvoljeno da svi podaci budu neispravni (ali unutar poznatih granica)
rasprava
RASPRAVA
  • ovaj algoritam jako je osjetljiv na konceptno opisni jezik i definiciju bliskosti
    • ako je granica susjedstva jako mala ruši se prostor inačica kao da nije ni uvedena
    • ako je granica susjedstva prevelika svaki primjer će imati puno susjeda i postupak postaje presložen i neizračunljiv
    • ako je jezik za opis koncepata previše grub primjeri neće imati susjede (npr. kod irisa je to broj decimala)
    • ako je jezik prefin onda primjeri imaju previše susjeda
    • bitno za brzinu konvergencije ka konačnom konceptu
rasprava1
RASPRAVA
  • Idealna situacija:
    • točno se zna definicija susjedstva
    • dobro odabran konceptni jezik
    • 2. primjer je nekakva idealna situacija
  • Realnost:
    • ne zna se ni jedno ni drugo ili samo jedno
  • Primjer sa irisima:
    • u početku nije bio dobar ni konceptni jezik ni definicija bliskosti, tek su se nakon par izvođenja algoritma odredili konceptni jezik i def. bliskosti
3 primjer
3. PRIMJER
  • poboljšanje 2. primjera
    • svim se primjerima dodaje slučajna vrijednost iz intervala <-1,1>
    • mijenja se definicija bliskosti (0-3)
    • 3 atributa
    • 216 koncepata
3 primjer1
3. PRIMJER
  • k obilježja, m intervala veličine w, iznos šuma d<=w, očekivani broj susjeda je
  • ovo pokazuje da def. bliskosti ne smije biti prefina, a ni pregruba
formalni rezultati
FORMALNI REZULTATI
  • nedavni teorijski rad nad konceptima: kako dobiti kvalitetne rezultate s obzirom na ulazne podatke
  • Potrebno uvesti definicije:
    • Definicija 4.1

Susjed(x)={y|y je blizu x}

Dobije se skup primjera koji su susjedi od x

    • Definicija 4.2

Za primjer x kaže se da je konzistentan sa konceptom C (piše se Konzistentan(x,C)) ako, kada je x pozitivan, p  Susjed(x) i pC, i kada je x negativan, n  Susjed(x) i nC (kada je pC to znači da ga koncept C klasificira kao pozitivnog, i nC znači da koncept C klasificira n kao negativni primjer)

formalni rezultati1
FORMALNI REZULTATI
  • Definicija 4.3

Greška(h,C)=vjerojatnost da se slučajno odabran primjer x klasificira kao pozitivni ili negativni primjer od C, tako da ne vrijedi Konzistentan(x,h)

  • Lema 4.1

Vjerojatnost da neki element prostora inačica generiran od m primjera iz C ima grešku veću od  je manja od |H|e-m, gdje je |H| broj izraza u konceptnom opisnom jeziku H korištenom u inkrementalnom spajanju prostora inačica.

formalni rezultati2
FORMALNI REZULTATI

Dokaz:

Pretpostavimo da neki skup hipoteza h1,...,hn u konceptnom opisnom jeziku H ima grešku veću od  s obzirom na koncept C. Ovo znači da je vjerojatnost da je primjer iz C konzistentan sa hipotezom hi manja od (1-). Vjerojatnost da je hi konzistentna sa m neovisnih primjera iz C je zbog toga manja od (1-)m.

Konačno, vjerojatnost da je neka hih1,...,hk konzistentna sa m primjera je ograničena sa sumom njihovih pojedinačnih vjerojatnosti, tako da vjerojatnost da neka hi sa greškom većom od  (s obzirom na C) je konzistentna sa m primjera iz C je manja od k(1-)m.

Budući da je k<=|H| i (1-)m<=e-m, vjerojatnost dobivanja neke hipoteze sa greškom većom od  konzistentne sa m neovisnih primjera iz C je manja od |H|e-m.

formalni rezultati3
FORMALNI REZULTATI

Korolar 4.1

Vjerojatnost da svi elementi skupa inačica generirani od najmanje

primjera iz skupa C imaju grešku manju od  je 1 - .

Dokaz:

Rješavanje  < |H|e-m po m daje traženi rezultat.

ad