1 / 36

Classificatore bayesiano

Classificatore bayesiano. Date k classi C 1 , C 2 , …, C k e il vettore x delle osservazioni , la probabilità a posteriori vale:. probabilità a priori. densità di probabilità condizionata alla classe. densità di probabilità non condizionata. fattore di normalizzazione.

Download Presentation

Classificatore bayesiano

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classificatorebayesiano Date kclassiC1, C2, …, Ck e ilvettorexdelleosservazioni, la probabilitàa posteriorivale: probabilitàa priori densità di probabilitàcondizionataallaclasse densità di probabilità non condizionata fattore di normalizzazione quando è parametrica è dettafunzione di verosimiglianza(likelihood)

  2. Decisioneottima La probabilità a posteriori P(Ci/x) definisce la probabilità del pattern di appartenereallaclasseCi La probabilità di misclassificazione è minimizzatascegliendo la classeCiche ha la maggioreprobabilità a posteriori, cosicchèil pattern è assegnatoallaclasseCi se: semplificandoilfattore di normalizzazionecomune, si ha: N.B. Il confronto è relativo alle d. p. congiunte

  3. Regioni e superfici di decisione Il classificatorebayesianodefinisceunaregola per assegnareognipuntodellospaziodellevariabili a unadellekclassi Possiamoconcepire lo spaziodellevariabili come diviso in kregioni di decisioneR1, R2, ..., Rktali per cui un puntoappartenente a Rkè assegnatoallaclasseCk R3 R1 R3 R2 R1 R1 R5 R2 R2 R4 Le regionidevonoesseredisgiunte, ma non necessariamentecontigue I confinitra le regionisonodetticonfini o superficie di decisione

  4. Errore di misclassificazione Con riferimento a due sole classi e una sola variable x, si ha:

  5. Correttaclassificazione La probabilitàPcdicorrettaclassificazione, relativa a kclassi e a un vettore d-dimensionaledellevariabili, vale: Il massimo di Pcsi ha scegliendo le Ri per cui le osservazionisonoassegnateallaclassechemassimizzal’integrando. Ciòcorrispondealladecisionediassegnamento del pattern nellaclasse con massimaprobabilità a posteriori.

  6. Funzionidiscriminanti Il classificatorebayesiano è basatosulledistribuzioni di probabilità, ma la decisione di appartenenzaallaclassedipende solo dalledimensioni relative delleprobabilità Ciò conduce allariformulazione del processodiclassificazionenei termini di un insiemedifunzionidiscriminanti: Cosicchéilvettoredelleosservazioni è assegnatoallaclasseCi se: La regoladidecisionecheminimizza la probabilitàdimisclassificazionepuòesserefacilmenteespressaattraversole funzionidiscriminanti, ponendo:

  7. Funzionidiscriminantitrasformate Usandoilteorema di Bayes e semplificandoilfattorecomune di normalizzazione, le funzionidiscriminantipossonoessereriformulate: Poichè per la classificazioneinteressa solo la relativagrandezzadellefunzionidiscriminanti, possiamosostituirle con unaqualsiasitrasformazionemonotona, come per esempioillogaritmo: Le superficididecisione non sonoinfluenzatedallatrasformazionemonotona e valgono:

  8. Funzionidiscriminanti per due classi Nelcaso di due classi, le funzionidiscriminantisono di solitoespresse in forma leggermentediversa: La regoladidecisionequindidiventa: Segue naturalmenteanche:

  9. Minimizzazione del rischio In talunicasi la regola di minimizzazione della probabilità di misclassificazionepuò non essere un criterioappropriato. P.es., nellelesionicutanee, classificare un melanoma come neo è moltopiù grave checlassificare un neo come melanoma Considerandotuttii pattern cheappartengonoallaclasseCi, occorrealloraattribuire un costoalladecisione: Lijsonoglielementi di unamatrice di perditachespecifica la penaleassociata con l’attribuzioneallaclasseCj di un pattern cheappartieneallaclasseCi.

  10. Minimizzazionedel rischio La perditacomplessivaattesa per tuttii pattern ditutte le classi è: Il rischio è minimo se l’integrando è minimizzato per ogni pattern, cioè se le regioniRjsonoscelte in modoche: quando:

  11. Costo della decisione di melanoma Consideriamo le classi: C1 = melanomi; C2 = nei Attribuiamoallamatrice di perditaiseguentivalori: melanomi come nei nei come nei nei come melanomi melanomi come melanomi La lesionesaràalloraassegnataaimelanomi se: N.B. La matrice di perdita determina una penalità nulla nell’assegnare la lesione nella giusta classe e una penalità 10 volte superiore all’errato assegnamento dei melanomi come nei

  12. Soglia di rifiuto In generaleciaspettiamochemoltideglierrori di misclassificazioneavvenganonelleregioni dove la piùgrandetra le probabilità a posteriori è relativamentebassacosicchéc’èampiasovrapposizionetraclassi In alcuneapplicazioni è benestabilireunasoglia di probabilità (nell’intervallo [0,1]) sotto la qualeilclassificatorevienerifiutato, cioè: N.B. Nell’esempio dei melanomi, la soglia potrebbe servire per lasciare la diagnosi di lesioni particolarmente difficili al dermatologo esperto

  13. Stimadelleprobabilitàbayesiane Il classificatorebayesianogarantiscel’errore di classificazioneminimopurchésiano note le probabilitàa priori e le d. p. condizionatealleclassi In pratica le probabilitàa priori e le d. p. vannostimateattraversoidaticampionari del learning set. N.B.La d. p. non condizionataal denominatore(fattore di normalizzazione) puòessereespressa come sommadelled. p. congiuntedi tutte le classi a lorovoltascomponibilinelprodottodiprobabilità a priori e d. p. condizionate

  14. Stimadelleprobabilità a priori In pratica, a fini di classificazione, le probabilità a priori possonoancheessereincognite e stimateessereequiprobabili Impostandoilcosto della decisioneindipendentementedallaprobabilità a priori, possonosempreesserericompresenellamatrice di perdita L

  15. Stimadelledensità di probabilità Le d. p. condizionatevannostimatedalcampione di learning facendoalcuneipotesi circa la lorodistribuzioneparametrica o ricorrendo a tecniche non parametriche Metodi parametrici Metodi non parametrici Distribuzione parametrica Numeroosservazioni in Ci Funzione kernel Vettoredeiparametristimatodalleosservazionicampionarie

  16. Bayesiano lineare Distribuzionegaussiana È l’ipotesiparametricapiùfrequente Bayesiano quadratico x melanomi nei Blue content  = matrice di covarianza (simmetrica) = vettore delle medie d = dimensione delle feature superfici di separazione quadratiche superfici di separazione lineari Area (mm2)

  17. Iperellissoide di confidenza Termine esponenziale (quadrato della distanza di Mahalanobis) 2 costante definisce un iperellissoide a probabilità costante. Gli autovettori uj e gli autovalori j di  definiscono rispettivamente gli assi principali dell’iperellissoide e le varianze (semidiametri al quadrato) x2 u2 La regione di confidenza della media vera, con probabilità (1-), è: u1 n= numerosità campione d = dimensione dello spazio i (F-1)d,n-d= inversa della distribuzione F valutata in (1-), per d e n-d gradi di libertà x1

  18. Classificatore bayesiano naïve Matrice di covarianza diagonale  variabili indipendenti. Direzioni principali degli ellissoidi di uguale probabilità allineate con le coordinate degli assi Riduzione del numero di parametri a 2d , ulteriore semplificazione con d+1 parametri e ipersfere come superfici di ugual probabilità

  19. Proprietà della distribuzione gaussiana Ha proprietà analitiche relativamente semplici Il teorema del limite centrale afferma che la media di N variabili casuali tende alla distribuzione normale per N∞, in pratica già per N>10; molti fenomeni naturali hanno parecchi costituenti casuali che rendono normale la loro distribuzione Qualsiasi trasformazione lineare del sistema di coordinate è ancora gaussiana (con medie e matrice di covarianza diverse) e mantiene 2 di forma quadratica e definita positiva

  20. Proprietà della distribuzione gaussiana Le d. p. marginali, ottenute integrando su qualche variabile, sono ancora gaussiane Le d. p. condizionate, ottenute a valori costanti di alcune variabili, sono ancora gaussiane Esiste una trasformazione lineare che diagonalizza la matrice di covarianza, porta a coordinate basate sugli autovettori, rende le variabili indipendenti e la d. p. si ottiene come prodotto delle d. p. delle singole variabili Ha la massima entropia possibile

  21. Funzionidiscriminanti Passando al logaritmo e semplificandoi termini classi-indipendenti : Si trattaquindidifunzioniquadratichenellospazio a ddimensioni Se le matrici di covarianzasonouguali per tutte le classi, iltermine con || sisemplificacosì come ilterminequadraticoxT-1x; poichè è simmetrica lo saràanche la suainversa e xT-1=T-1x, cosicchè la funzionediscriminantediventalineare: Esercizio: valutare le d. p. con diagonale e P(Ci) tutteuguali

  22. Stimadeiparametri Unavoltasceltoiltipodid. p. parametrica, spessogaussiana, occorrestimarneiparametri. Esistonovarimetodi: Massima verosimiglianza. Stima i parametri che massimizzano una funzione di probabilità determinata dai dati di learning Inferenza bayesiana. I parametri vengono descritti da una distribuzione di probabilità che, tramite l’inferenza bayesiana, passa da una situazione a priori più incerta e con forma più allargata, alla probabilità a posteriori, affinata dai dati campionari, perciò di natura meno incerta con forma più stretta; la d. p. gaussiana relativa alle variabili di ingresso è ottenuta con un integrale fatto rispetto tutti i suoi parametri, pesato per la loro probabilità a posteriori Metodi sequenziali. Tecniche iterative basate sull’aggiornamento del valore dei parametri ad ogni nuovo dato acquisito

  23. Stimadimassimaverosimiglianza Anche se nella classificazione bayesiana si tratta con la d. p. condizionata alle classi, ci riferiamo per semplicità allad. p. non condizionata p(x) che dipende dal vettore dei parametri da stimare = (1,2, …, M)T. Il processo andrà poi ripetuto per ogni classe separatamente. p(x) dipende da  e dall’insieme di apprendimento, costituito dalla matrice dN degli N di vettori delle osservazioni: La verosimiglianza (likelihood) L( ), si ottiene dalla produttoria delle d. p. di ogni singola osservazione poiché esse si considerano indipendenti e, per un dato , è solo funzione di 

  24. Massima verosimiglianza Per molte d. p. l’ottimo di  va cercato con tecniche numeriche di minimizzazione iterative. Nel caso speciale della distribuzione gaussiana multivariata, la soluzione è analitica e vale: Sebbene l’approccio di massima verosimiglianza appaia intuitivamente ragionevole, ha qualche difetto. P.es., nel caso monovariato, la stima della varianza è distorta come segue perché è valutata rispetto alla stima campionaria della media

  25. Inferenzabayesiana La d. p. relativa alle variabili di ingresso non viene calcolata fissando i parametri ad uno specifico valore come accade per il metodo di massima verosimiglianza, ma rappresentandoli attraverso una funzione di probabilità Prima di osservare i dati , i parametri vengono descritti da una d. p. a priori tipicamente piuttosto larga  scarsa conoscenza dei valori che potrebbero assumere Dopo che i dati  sono stati osservati, la d. p. a posteriori si restringe attorno a valori di parametri più compatibili coi dati. posteriori p(/) priori p()  Apprendimento bayesiano

  26. Inferenza bayesiana La d.p. desiderata per il vettore x, una volta noti i dati di learning, si può esprimere come l’integrale della d.p. congiunta: Il primo termine della d.p. congiunta è indipendente da   forma matematica parametrica della d.p. di x, pertanto: N.B. L’approccio bayesiano non trova un preciso valore di , ma effettua una media su tutti i valori  della d.p. p(x,), pesata per la d.p. a posteriori p(/) dei parametri

  27. Inferenza bayesiana La d.p. a posteriori dei parametri può essere valutata attraverso il teorema di Bayes: La d.p. dei dati campionari condizionata ai parametri, p(/), è esprimibile come prodotto di probabilità poiché i dati sono assunti essere estratti dalla popolazione indipendentemente l’uno dall’altro (campionamento casuale): e Cosicchè:

  28. Inferenza bayesiana In generale, gli integrali si risolvono difficilmente in modo analitico. È possibile solo se la d.p. a priori ha la stessa forma funzionale della d.p. a posteriori, detta perciò “coniugata” Usando una successione di N punti è possibile applicare il processo inferenziale bayesiano ripetitivamente  la d.p. a posteriori diventa la d.p. a priori del punto seguente e mantiene la stessa forma funzionale, restringendosi attorno al valore  ‘vero’; tali d.p. sono dette “riproducibili” p(/) Esempio Stima del valor medio , dati 12 punti estratti da una d.p. gaussiana monovariata con =0.8: uso di una d.p. a priori (N=0) di tipo gaussiano con  0=0 e 0=0.3 N=12 N=6 N=1 N=0 

  29. Inferenzabayesiana massimaverosimiglianza Esiste una semplice relazione tra le due tecniche quando il numero delle osservazioni N è sufficientemente alto Trascurando il denominatore, indipendente da , con l’inferenza bayesiana si ha: La verosimiglianza L() ha un massimo per = Per N sufficientemente elevato, la funzione L() è stretta attorno al picco e l’integrale che stima la d.p. con la tecnica bayesiana può essere pertanto approssimato da:

  30. Metodisequenziali Aggiornamento parametri ad ogni nuova osservazione Godono di importanti proprietà: Non richiedono la memorizzazione di tutti i punti osservati  ogni punto può essere scartato una volta usato  utile per grandi quantità di dati Possono essere usati per l’apprendimento “on-line” in sistemi “real-time” adattivi Se il sistema è stazionario, ma con variazioni lente, la stima sequenziale dei parametri può essere usata per inseguire il comportamento del sistema (“tracking on-line”)

  31. Metodi sequenziali In generale, è possibile esprimere una formulasequenziale aggiornabile ad ogni nuovo punto N+1: g è una funzione della variabile aleatoria  I coefficienti aN sono una sequenza di numeri positivi che soddisfano alle seguenti proprietà: Assicura che le successive correzioni tendono a diminuire è il processo converge a un valore limitato Assicura che le correzioni sono sufficientemente ampie da trovare effittivamente la soluzione Assicura che il rumore accumulato si mantenga con varianza limitata, in modo da non compromettere la convergenza

  32. Metodi sequenziali Risolvendo in modo sequenziale la stima ottenuta col metodo della massima verosimiglianza, usando la formula di Robbins-Monro, si può dimostrare che: Per esempio la stima sequenziale della media di una distribuzione gaussiana, si può esprimere come: N.B. È necessariotenere in memoria solo N è ilvalore della media stimata al passoN, cosicchèognipuntovieneusatouna sola volta e poi scartato. Il contributo di ognipuntosuccessivodecresce come conseguenza del coefficiente 1/(N+1)

  33. Metodi non parametrici Stimano le d.p. la cui forma funzionale complessiva non viene definita preliminarmente. Ne esistono diversi tipi: Istogrammi. Si dividono gli assi di ogni variabile in classi, approssimando la d. p. tramite la frazione di dati che cadono in ogni ‘scatola’ (bin). Metodi a kernel. D. p. come somma di funzioni elementari (kernel) tutte uguali, di forma e volume prefissato, centrate su ogni dato. K-nearest-neighbours. Fissate K osservazioni sul totale N (K<N) la d. p. è stimata in rapporto al volume dell’ipersfera che contiene K dati ed è centrata su ogni valore del vettore delle osservazioni. Modelli misti (semi-parametrici). Si combinano un certo numero (<N) di d. p. elementari, i cui parametri (posizione e apertura) sono stimati con tecniche classiche (massima verosimiglianza), oppure più sofisticate (expected-maximization)

  34. Istogrammi • Il numero di classi M va scelto come giusto compromesso (c) tra due opposte rappresentazioni: • troppo rumorosa  varianza elevata; • poco accurata  bias elevato a) M=100 b) M=5 c) M=20

  35. Istogrammi La probabilità che ogni vettore delle osservazioni x, estratto da una d.p. p(x) sia compreso in una regione R dello spazio x è definita come: Presi N valori estratti indipendentemente da p(x), la probabilità che K appartengano alla regione R è data dalla legge binomiale: La frazione media di punti in tale regione è P=E{K/N}, mentre la varianza attorno alla media è uguale a P(1-P)/N

  36. Istogrammi All’aumentare di N (N) la varianza tende a 0 e quindi la frazione media P di punti in R è ≈ K/N Se d’altro canto assumiamo che p(x) sia continua e non vari molto in R, possiamo approssimare in: V è il volume di R e x è un punto generico entro R Si ottiene quindi il risultato intuitivo  N.B. Il risultato dipende due valide approssimazioni contrapposte: R deve essere abbastanza grande affinché si abbia un sufficiente numero di punti K, ma non troppo da poter considerate p(x) costante nel volume di interesse

More Related