U enje iz podataka sa grani nom nekonzistentno u
This presentation is the property of its rightful owner.
Sponsored Links
1 / 20

Učenje iz podataka sa graničnom nekonzistentnošću PowerPoint PPT Presentation


  • 44 Views
  • Uploaded on
  • Presentation posted in: General

Učenje iz podataka sa graničnom nekonzistentnošću. Nekonzistentnost podataka U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno Greška kod algoritma eliminacije kandidata

Download Presentation

Učenje iz podataka sa graničnom nekonzistentnošću

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


U enje iz podataka sa grani nom nekonzistentno u

Učenje iz podataka sa graničnom nekonzistentnošću

  • Nekonzistentnost podataka

    • U opisnom jeziku nema koncepta koji razlikuje sve pozitivne i negativne primjere

    • Nemoguće pronaći algoritam koji će sve primjere klasificirati ispravno

  • Greška kod algoritma eliminacije kandidata

    • Uklanja se korektni ciljni koncept

    • Ako ima dovoljno primjera prostor inačica konvergira u prazni skup


Grani na nekonzistentnost

Granična nekonzistentnost

  • Slikovni opis granične nekonzistentnosti

  • Primjer: nepreciznost mjernih uređaja daje podatke koji mogu biti granično nekonzistentni

  • Cilj: proširiti algoritam tako da bude otporan na podatke koji nisu konzistentni na granici


Pristup

Pristup

  • Ideja:

    • Reći da svi primjeri koji su blizu zadanom primjeru imaju istu klasifikaciju

  • Algoritam

    • Zadano:

      • Primjeri za treniranje

      • Definicija bliskosti

      • Konceptno opisni jezik

    • Odrediti:

      • Skup koncepata konzistentnih sa podacima ili bliskim susjednim podacima


Pristup1

Pristup

  • Algoritam napreduje na sljedeći način

    • 1. a) Odrediti skup primjera blizu zadanog primjera

      b) Oblikovati prostor inačica sa svim konceptima konzistentnim sa nekim primjerima iz ovog skupa

    • 2. Naći presjek ovog prostora inačica sa prostorom inačica generiranom u prošlom primjeru

    • 3. Vratiti se na prvi korak za sljedeći primjer


Pretra ivanje prostora ina ica

Pretraživanje prostora inačica

  • Idealni rezultat:

    • jedinstveni prostor inačica sa određenim konceptom

    • ako nema dovoljno testnih primjera konačni prostor inačica ima više od jednog koncepta

    • ovisnost o definiciji bliskosti

  • Dugi proces

    • moguće da nema na računalu dovoljno resursa


1 primjer

1. PRIMJER

  • Fischerovi podaci o irisima

    • nekonzistentni podaci

    • klasificiranje u 3 klase (setosa, versicolor i viginica)

    • 50 primjera za svaku klasu

    • svaki primjer opisan sa 4 obilježja (širina i duljina lapa čaške, širina i duljina latice)

  • Konceptno opisni jezik

    • Konjukcija poluzatvorenih intervala ax<b za svako obilježje, gdje su a i b višekratnici od 8 mm


1 primjer1

1. PRIMJER

  • definirana duljina koja obuhvaća susjedne primjere je 3 mm (ovisno kolika je pogreška rađena tijekom mjerenja)

  • inicijaliziran je prostor inačica za svaku klasu

  • karakteristike ovakvog opisnog konceptnog jezika

    • svaki primjer može biti susjed konačnom broju primjera

    • mnogi primjeri su jednaki jer su im vrijednosti u istom intervalu

    • svaki prostor inačica zadani primjer u procesu učenja uzima kao negativni ili pozitivni


  • 1 primjer2

    1. PRIMJER

    • Rezultati

      • Primjeri su podijeljeni u 10 skupova po 15 primjera, 5 primjera za svaki cvijet

      • 9 skupova se koristilo za učenje, a 10. skup korišten je za testiranje

      • Tipični konačni rezultat nakon učenja

        • setosa: [dužina latice<2.4cm]

        • versicolor: [dužina latice>=4cm] i [širina latice<1.6cm]

        • viginica: [dužina latice>=2.4cm] i [širina latice>=1.6cm]


    1 primjer3

    1. PRIMJER

    • Testiranje i usporedba sa drugim metodama

      • Setosa je prepoznata jer je klasifikacijski odvojiva


    2 primjer

    2. PRIMJER

    • Tri obilježja sa realnim vrijednostima iz intervala [0,9]

    • Konceptno opisni jezik dijeli obilježja u tri intervala [0,3>,[3,6> i [6,9]

    • Konjukcija atributa

    • Generirano 80 slučajnih trojki brojeva iz tog intervala i svakom je zbrojena vrijednost slučajno odabrana iz intervala <-1,1>

      • Podaci imaju graničnu nekonzistentnost

      • neispravan primjer nikad nije dalje od jedinične vrijednosti

    • Oblikovana je definicija bliskosti koja kaže da je susjed maksimalno udaljen za jediničnu vrijednost


    2 primjer1

    2. PRIMJER

    • Rezultati testiranja:


    2 primjer2

    2. PRIMJER

    • Ovaj primjer pokazuje da je ovaj algoritam ispravan kada se radi sa podacima koji imaju malu pogrešku zbog mjerenja i kada znamo točno kolika je ta pogreška

    • Čak je dozvoljeno da svi podaci budu neispravni (ali unutar poznatih granica)


    Rasprava

    RASPRAVA

    • ovaj algoritam jako je osjetljiv na konceptno opisni jezik i definiciju bliskosti

      • ako je granica susjedstva jako mala ruši se prostor inačica kao da nije ni uvedena

      • ako je granica susjedstva prevelika svaki primjer će imati puno susjeda i postupak postaje presložen i neizračunljiv

      • ako je jezik za opis koncepata previše grub primjeri neće imati susjede (npr. kod irisa je to broj decimala)

      • ako je jezik prefin onda primjeri imaju previše susjeda

      • bitno za brzinu konvergencije ka konačnom konceptu


    Rasprava1

    RASPRAVA

    • Idealna situacija:

      • točno se zna definicija susjedstva

      • dobro odabran konceptni jezik

      • 2. primjer je nekakva idealna situacija

    • Realnost:

      • ne zna se ni jedno ni drugo ili samo jedno

    • Primjer sa irisima:

      • u početku nije bio dobar ni konceptni jezik ni definicija bliskosti, tek su se nakon par izvođenja algoritma odredili konceptni jezik i def. bliskosti


    3 primjer

    3. PRIMJER

    • poboljšanje 2. primjera

      • svim se primjerima dodaje slučajna vrijednost iz intervala <-1,1>

      • mijenja se definicija bliskosti (0-3)

      • 3 atributa

      • 216 koncepata


    3 primjer1

    3. PRIMJER

    • k obilježja, m intervala veličine w, iznos šuma d<=w, očekivani broj susjeda je

    • ovo pokazuje da def. bliskosti ne smije biti prefina, a ni pregruba


    Formalni rezultati

    FORMALNI REZULTATI

    • nedavni teorijski rad nad konceptima: kako dobiti kvalitetne rezultate s obzirom na ulazne podatke

    • Potrebno uvesti definicije:

      • Definicija 4.1

        Susjed(x)={y|y je blizu x}

        Dobije se skup primjera koji su susjedi od x

      • Definicija 4.2

        Za primjer x kaže se da je konzistentan sa konceptom C (piše se Konzistentan(x,C)) ako, kada je x pozitivan, p  Susjed(x) i pC, i kada je x negativan, n  Susjed(x) i nC (kada je pC to znači da ga koncept C klasificira kao pozitivnog, i nC znači da koncept C klasificira n kao negativni primjer)


    Formalni rezultati1

    FORMALNI REZULTATI

    • Definicija 4.3

      Greška(h,C)=vjerojatnost da se slučajno odabran primjer x klasificira kao pozitivni ili negativni primjer od C, tako da ne vrijedi Konzistentan(x,h)

    • Lema 4.1

      Vjerojatnost da neki element prostora inačica generiran od m primjera iz C ima grešku veću od  je manja od |H|e-m, gdje je |H| broj izraza u konceptnom opisnom jeziku H korištenom u inkrementalnom spajanju prostora inačica.


    Formalni rezultati2

    FORMALNI REZULTATI

    Dokaz:

    Pretpostavimo da neki skup hipoteza h1,...,hn u konceptnom opisnom jeziku H ima grešku veću od  s obzirom na koncept C. Ovo znači da je vjerojatnost da je primjer iz C konzistentan sa hipotezom hi manja od (1-). Vjerojatnost da je hi konzistentna sa m neovisnih primjera iz C je zbog toga manja od (1-)m.

    Konačno, vjerojatnost da je neka hih1,...,hk konzistentna sa m primjera je ograničena sa sumom njihovih pojedinačnih vjerojatnosti, tako da vjerojatnost da neka hi sa greškom većom od  (s obzirom na C) je konzistentna sa m primjera iz C je manja od k(1-)m.

    Budući da je k<=|H| i (1-)m<=e-m, vjerojatnost dobivanja neke hipoteze sa greškom većom od  konzistentne sa m neovisnih primjera iz C je manja od |H|e-m.


    Formalni rezultati3

    FORMALNI REZULTATI

    Korolar 4.1

    Vjerojatnost da svi elementi skupa inačica generirani od najmanje

    primjera iz skupa C imaju grešku manju od  je 1 - .

    Dokaz:

    Rješavanje  < |H|e-m po m daje traženi rezultat.


  • Login