pr prava d t klasifik cia n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Príprava dát + Klasifikácia PowerPoint Presentation
Download Presentation
Príprava dát + Klasifikácia

Loading in 2 Seconds...

play fullscreen
1 / 52

Príprava dát + Klasifikácia - PowerPoint PPT Presentation


  • 114 Views
  • Uploaded on

Príprava dát + Klasifikácia. Michal Kompan Objavovanie znalostí G.Kosková. Dáta. inštancie pozorovania, príklady vstupné dáta záznamy v databáze atribúty každá inštancia je charakterizovaná hodnotami fixnej predefinovanej množiny atribútov. atribút. Dáta. inštancia.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

Príprava dát + Klasifikácia


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
pr prava d t klasifik cia

Príprava dát +Klasifikácia

Michal Kompan

Objavovanie znalostí G.Kosková

slide2
Dáta
  • inštancie
    • pozorovania, príklady
    • vstupné dáta
    • záznamy v databáze
  • atribúty
    • každá inštancia je charakterizovaná hodnotami fixnej predefinovanej množiny atribútov
slide3

atribút

Dáta

inštancia

Sepal.L. Sepal.WPetal.LPetal.W Species

15.13.51.40.2setosa

24.93.01.40.2setosa

34.73.21.3 0.2 setosa

44.63.11.50.2setosa

55.03.61.40.2setosa

517.03.24.71.4versicolor

526.43.24.51.5versicolor

536.93.14.91.5versicolor

545.52.34.01.3versicolor

556.52.84.61.5versicolor

1016.33.36.02.5virginica

1025.82.7 5.11.9virginica

1037.13.05.92.1virginica

1046.32.95.61.8virginica

1056.53.05.82.2virginica

typy atrib tov
Typy atribútov
  • numerické
    • spojité (napr. vzdialenosti)
    • diskrétne (napr. vek v rokoch)
  • ordinálne - je možné ich usporiadať
    • napr. horúci > teplý > vlažný > chladný > studený
    • napr. starý > v stredných rokoch > mladý
  • nominálne = kategorické
    • napr. setosa, versicolor, virginica
    • nominálne vs. ordinálne (slnečno, zamračené, daždivo)
    • špeciálny prípad: dichotomické (boolovské, binárne)
z kladn charakteristiky d t
Základné charakteristiky dát
  • Poznajte svoje dáta!
  • objem dát je veľký na to, aby sa stačilo pozrieť do databázy
  • charakteristiky
    • jednotlivých atribútov
    • závislosť medzi atribútmi
charakteristiky atrib tu
Charakteristiky atribútu
  • Početnosť výskytu hodnôt atribútu
  • f(a) - koľkokrát sa hodnota a vyskytla v rámci jednohoatribútu
    • klasifikácia: pre rôzne triedy zvlášť
    • pre nominálne hodnoty:

jedniný spôsob ako

zistiť charakter dát

  • histogram
boxplot
Boxplot
  • Cieľ:sumarizovať dáta a rýchlo zobraziť, či sú dáta symetrické, či majú outliery
  • 5-číselná sumarizácia
    • rámček: dolný kvantil, medián, horný kvantil
      • medián: v zoradnených hodnotách - prostredná
      • dolný kvantil: medián ľavej polovice čísel po medián (vrt.)
      • horný kvantil: medián pravej polovice čísel od mediánu (vrt.)
    • zarážky ("fúzy"): vyjadrujúce minimum a maximum (max 1,5x šírka rámčeka)
    • kolieska: outliery
z vislos medzi atrib tmi s numerick mi hodnotami

n

(xi- x) (yi- y)

i=1

rxy =

n

n

(yi - y)2

(xi - x)2

i=1

i=1

Závislosť medzi atribútmi s numerickými hodnotami
  • korelačný koeficient
    • rxy <-1,1>
      • záporné hodnoty: negatívna korelácia
      • kladné hodnoty: pozitívna korelácia
      • rxy = 0: hodnoty sú nekorelované
pr prava vstupu
Príprava vstupu
  • predspracovanie
    • integrácia dát z rôznych zdrojov
    • čistenie dát
    • vysporiadanie sa s chýbajúcimi dátami
  • transformácia
  • veľká časť z celého získavania znalostí
integr cia d t
Integrácia dát
  • vytvorenie jednej množiny inštancií
  • dáta z rôznych zdrojov (napr. z rôznych oddelení)
    • rôzne štýly ukladania záznamov
    • rôzne konvencie
    • rôzne časové obdobia
    • rôzne agregácie, rôzne primárne kľúče
    • rôzne typy chýb
  • dátový sklad (datawarehouse)
    • integrácia databáz v jednej spoločnosti
    • nemusí však obsahovať všetky potrebné dáta
integr cia d t1
Integrácia dát
  • identifikovanie rovnakých entít
    • rôzne identifikátory (napr. ID_custormer, cust_num)
    • metadáta
  • redundancia
    • atribút môže byť nadbytočný - dá sa vypočítať z iných atribútov
  • rozdiel v dátach spôsobený meraním v iných veličinách
  • rôzne formáty
ch baj ce hodnoty
Chýbajúce hodnoty
  • dôvody:
    • nefunkčné meracie zariadenie
    • zmena kolekcie atribútov v databáze
    • spojenie podobných, neidentických databáz
    • odmietnutie respondenta odpovedať
    • nebolo potrebné zisťovať hodnotu (napr. vyšetrenie)
  • nevieme rozlíšiť, či sa nepodarilo zistiť hodnotu, alebo bolo irelevantné hodnotu zisťovať
ch baj ce hodnoty1
Chýbajúce hodnoty
  • niektoré hodnoty chýbajú lebo
    • sú nerelevantné (Jane)
    • neaplikovateľné (Joe, 2-ročná Anna)

Name Age Sex Pregnant?

Mary 25FN

Jane 27F ?

Joe 30M ?

Anna 2F ?

vysporiadanie sa s ch baj cimi hodnotami
Vysporiadanie sa s chýbajúcimi hodnotami
  • ignorovať záznam
    • problém ak je veľa takých záznamov
  • vyplniť manuálne
    • dá sa ak je málo takých záznamov
  • použiť konštantnú hodnotu
    • napr. hodnotu "neznáme"
  • použiť aritmetický priemer hodnôt
  • použiť aritmetický priemer hodnôt patriacich do tej istej triedy
    • klasifikácia (poznáme priradenie do tried)
v ber atrib tov
Výber atribútov
  • výber atribútov na redukciu dimenzionality
    • vybratie minimálnej podmnožiny atribútov tak aby sa zachovalo rozdelenie dát
  • spôsoby
    • manuálne (ak dátam rozumieme)
    • automatické metódy
      • niektoré algoritmy sa učia, ktoré atribúty sú najrelevantnejšie (napr. rozhodovacie stromy)
      • všeobecné algoritmy
riedke d ta
Riedke dáta
  • väčšina dát v matici je 0
  • napr. marketbasketdata
    • matica - riadky: zákazníci, stĺpce: produkty
    • zákazník kúpi len veľmi malú časť z množiny všetkých produktov
  • reprezentácia:

{1 26, 6 63, 10 A}

{3 42, 10 B}

0 26 0 000 63 0 00 A

0 0 42 0 000000 B

klasifik cia
Klasifikácia
  • zobrazuje dáta do predefinovaných skupín - tried
  • učenie s učiteľom
  • algoritmus sa učí charakteristiku tried na základe dát, pre ktoré poznáme príslušnosť ku skupinám - trénovacia množina
pr kl a dy klasifik cie
Príklady klasifikácie
  • rozpoznávanie vzorov
  • diagnostikovanie
  • rozhodovanie o udelení úverov
  • detekovanie chýb v aplikáciách
  • klasifikácia finančných a obchodných trendov
  • klasifikácia dokumentov (mail, správy...)
klasifik cia pr klad
Klasifikácia: príklad
  • Trieda "rodinné auto"
    • cieľ - predikovanie: Je auto x rodinným autom?
    • naučiť sa rozlišovať vzor "rodinné auto" - čo od neho ľudia očakávajú?
    • trénovacia množina: pozitívne a negatívne príklady
    • atribúty:
      • x1: cena
      • x2: sila motora
defin cia
Definícia
  • pre danú množinu dát D={d1, ..., dn} a množinu tried C={C1, ..., Cm}, klasifikačný probém je definovať zobrazenie f:D  C, kde pre každé dije definovaná práve jedna trieda. Trieda Cjobsahuje práve tie prvky, ktoré sa pomocou funkcie f zobrazia do tejto triedy, t.j.

Cj= {di| f(di) = Cj, pre všetkydiD}

modely a reprezent cia znalost
Modely a reprezentácia znalostí
  • rozhodovacie stromy
    • algoritmy na tvorbu

rozhodovacích stromov

(napr. ID3, C4.5)

  • klasifikačné pravidlá
    • rozhodovacie stromy -> klasifikačné pravidlá
    • jednoduchý algoritmus 1R
    • napr. if (x = 1) and (y = 0) then class = a
modely a reprezent cia znalost1

nízky

výška

stredný vzrast

pohlavie

vysoký

Modely a reprezentácia znalostí
  • parametre modelov
    • modely + parametre (štatistické modely, neurónové siete)
  • reprezentácia založená na inštanciách
    • učenie založené na vzdialenostiach (k-nearestneighbour)
occamova britva
Occamova britva
  • angl. Occam's razor
    • princíp pomenovaný v 14. storočí ang. logikom Františkánskym mníchom WilliamomOccamom (Ockham)
    • vysvetlenie ľubovoľného fenoménu by malo používať čo najmenej predpokladov ako je možné, eliminovať ("oholiť preč") tie, ktoré nemenia predikcie premenných v hypotéze alebo teórii vysvetľujúcej nejaký fenomén
    • "Ak sú všetky veci rovnaké, jednoduchšie riešenie je lepšie." = ak je niekoľko konkurujúcich teórií rovnakých v ostatných ohľadoch, princíp odporúča zvoliť teóriu, ktorá
      • zavádza menej predpokladov a
      • výsledkom sú menej hypotetické (jednoduchšie) entity
j ednoduch pravidl 1r
Jednoduché pravidlá 1R
  • 1R (1 rule) - jednoduchá klasifikácia inštancií
  • rozhodnutie na základe jedného atribútu
  • postup:
    • pre všetky atribúty
      • vytvorenie množiny pravidiel tak, že každé pravidlo zodpovedá jednej hodnote atribútu
      • priradenie tej triedy, ktorá sa pre danú hodnotu atribútu najčastejšie vyskytuje
    • vypočítanie error rate (1-accurracy)
    • výber stromu s najmenším error rate
n a vny bayesov klasifik tor
NaívnyBayesovklasifikátor
  • angl. NaïveBayes
  • predpoklady
    • všetky atribúty sú rovnako dôležité
    • atribúty sú navzájom nezávislé
  • Bayesovo pravidlo
  • jednoduchá metóda
  • s vhodne vybranou množinou atribútov - často úspešná v praxi
bayesovo pravidlo

P(d|H) P(H)

P(H|d) =

P(d)

Bayesovo pravidlo
  • podmienená pravdepodobosť hypotézy H za pozorovania d
    • P(H) - apriórna pravdepodobnosť H (bez ohľadu na pozorovanie)
    • P(d|H) - vierohodnosť (likelihood) - pravdepodobnosť, že pre danú

hypotézu budeme pozorovať d

    • P(d) - evidence (marginallikelihood) - pravdepodobnosť výskytu

pozorovania d

    • P(H|d) - posteriórna pravdepodobnosť H ak pozorujeme d
bayesovo pravidlo pr klad

P(červené|jablko) P(jablko)

=

P(červené|jablko)P(jablko) + P(červené|hruška)P(hruška)

Bayesovo pravidlo: príklad
  • podmienená pravdepodobosť, že ovocie v komore (H1=jablko, H2=hruška), ktoré je červené, je jablko

apriórna pravdepodobnosť

vierohodnosť

P(červené|jablko) P(jablko)

P(jablko|červené) =

P(červené)

posteriórna pravdepodobnosť

evidence

n a vny bayesov klasifik tor1
NaívnyBayesovklasifikátor
  • klasifikovať nový objekt – červený/ zelený?
  • Zelených je 2x viac ako červených – je 2x väčšia šanca že nový objekt bude zelený (apriórna pravdepodobnosť).
vlastnosti
Vlastnosti
  • obyčajne dáva dobré výsledky aj pri zjednodušujúcich predpokladoch (vhodne zvoliť atribúty)
  • jednoduchý klasifikátor
  • hypotéza je skonštruovaná z parametrov vypočítaných z trénovacích dát, žiadne dodatočné vyhľadávanie v trénovacej množine nie je potrebné
  • nie je potrebné aby presne určil pravdepodobnosti
rozhodovacie stromy
Rozhodovaciestromy
  • rozdeľuj a panuj
  • postup
    • vyber atribút a daj ho do koreňa
    • vytvor vetvy pre rôzne hodnoty atribútu  rozdelí množinu inštancií na podmnožiny
    • rekurzívne aplikuj postup pre každú vetvu
rozhodovacie stromy1
Rozhodovacie stromy
  • problém s počasím
  • vnútorné uzly
    • atribúty
  • listy
    • klasifikácia
  • vetvy
    • hodnoty atribútov, podmienky

počasie

zamra-čené

slnečno

daždivo

vlhkosť

veterno

áno

áno

nie

normálna

vysoká

nie

áno

áno

nie

defin cia1
Definícia
  • pre danú množinu dát D={d1, ..., dn}, kde

di = <di1, ..., dim> sú hodnoty atribútov {A1, ..., Am} jednotlivých inštancií a pre množinu tried C={C1, ..., Cm}, je rozhodovacím stromom strom asociovaný s D tak, že spĺňa nasledujúce vlastnosti:

    • každý vnútorný uzol je označený atribútom Ak
    • každá hrana je označená predikátom aplikovateľným na atribút asociovaný s rodičom
    • každý list je označený triedou Cj
vlastnosti algoritmov na tvorbu rozhod stromov
Vlastnosti algoritmovnatvorburozhod. stromov
  • trénovacie dáta
    • príliš malá: strom nemusí byť správne špecifický
    • príliš veľká: strom môže byť preučený
  • orezávanie (angl. prunning)
    • modifikovanie už skonštruovaného stromu
    • napr. odstránenie nadbytočných porovnávaní, odstránenie podstromu pre dosiahnutie lepších výsledkov
orez vanie
Orezávanie
  • angl. prunning
  • jednoduchšie stromy majú často lepšie výsledky ako zložitejšie
  • pre-prunning
    • v priebehu tvorby stromu - rozhodovanie kedy skončiť s vytváraním stromu
  • post-prunning
    • orezávanie už vytvoreného stromu (častejšie)
    • stratégie
      • nahradenie podstromu (angl.subtree replacement)
      • zdvihnutiepodstromu (angl.subtree raising)
k najbli ch susedov
K-najbližších susedov
  • Nová inštancia je klasifikovaná na základe väčšiny susedných prvkov
    • 1-nearest neighbor – klasifikuje do triedy najbližšieho suseda – inštancie z trénovacej množiny s najmenšou vzdialenosťou
    • K-nearestneighbor – klasifikuje do triedy do ktorej patrí väčšina z k najbližších prvkov
klasifika n pravidl
Klasifikačné pravidlá
  • if (x = 1) and (y = 0) then class = a
  • antecedent(príčina) - konjunkciapodmienok (AND)
  • consequent (dôsledok)
  • viacpravidiel - disjunkcia (OR)
  • konflikt- ak pre jednuinštanciudvepravidláodvodiarôznepriradenietriedy
neur nov siete
Neurónové siete
  • Inšpirované ľudským mozgom
  • model: orientovaný graf
  • uzly - neuróny
  • hrany - prepojenia s asociovanýmiváhami
  • Rozpoznávanie vzorov, reči
neur nov siete2
Neurónové siete
  • Backpropagation – učenie váh
    • Učenie s učiteľom
    • Malé iteratívne kroky
    • Trénovanie :
      • inštancia s triedou klasifikácie je prešírená sieťou
      • Výsledok sa porovná s korektným výsledkom a vypočíta sa kvadratická chyba
      • Chyba sa spätne šíri sieťou pričom sa upravujú váhy v každej vrstve
      • Opakovanie pre všetky inštancie z trénovaciej množiny N krát (N/kým sa chyba nezníži pod požadovanú hranicu)
      • Riešenie sa asymptoticky blíži k „ideálnej rovnici“
zhrnutie
Zhrnutie
  • 1R jednoduché pravidlá
    • Jednoduché
    • 1 atribút
  • NaiveBayes
    • Jednoduché
    • Všetky atribúty rovnako dôležité
    • Nominálne aj numerické
zhrutie
Zhrutie
  • Rozhodovacie stromy
    • Nominálne atribúty
    • Zrozumiteľné
    • Problém opakovania podstromu
  • Neurónové siete
    • Nelineárna klasifikácia
    • Rieši veľa problémov
    • Numerické atribúty
    • Časté preučenie
    • Nezrozumiteľné
zhrnutie1
Zhrnutie
  • K-NN
    • Jednoduché a zrozumiteľné
    • Náročné na pamäť
    • Numerické atribúty
  • Klasifikačné pravidlá
    • Zrozumiteľné
    • Nominálne atribúty