slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
1.1 PowerPoint Presentation
Download Presentation
1.1

Loading in 2 Seconds...

play fullscreen
1 / 109

1.1 - PowerPoint PPT Presentation


  • 148 Views
  • Uploaded on

1.1. annata. Possono essere a loro volta considerate : variabili dipendenti (contesto ANOVA, MANOVA, etc.) o variabili di risposta (contesto m.d. regressione) o variabili di analisi (contesto m.d. classificazione) (o specifiche di prodotto) (contesto produttivo/economico/S.Q.).

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '1.1' - liam


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide9

Possono essere a loro volta considerate:

  • variabili dipendenti(contesto ANOVA, MANOVA, etc.)
  • o variabili di risposta(contesto m.d. regressione)
  • o variabili di analisi (contesto m.d. classificazione)
  • (o specifiche di prodotto) (contesto produttivo/economico/S.Q.)

Se una fonte di variazione viene definita in termini qualitativi o ordinali, le modalità che la caratterizzano possono prendere il nome di livelli.

slide13

NO

Talvolta è addirittura impossibile

L’importante è

definire con chiarezza e rigore

l’oggetto di studio anche nel quadro di un approccio meno atomistico e più sistemico al problema e pianificare di conseguenza il campionamento

slide14

Esempio di un tentativo ...

(Alessandri, S.; 2000; "Qualita' e variabilita' degli oli vergini di oliva della Toscana e modelli di classificazione: una discussione metodologica"; Bollettino dei Chimici Igienisti parte scientifica, Vol. 52 1S/2001, pp31-44.)

slide15

1.3

Io era tra color che son sospesi,

e donna mi chiamò beata e bella,

tal che di comandare io la richiesi.

slide23

E’ necessario che un parametro di dispersione divenga unità di misura nella scala delle posizioni, e quindi unità di misura della distanza-diversità.

Particolarmente conveniente risulta essere la

varianza

slide24

Se consideriamo che la differenza (distanza, diversità) tra medie può essere misurata a sua volta come dispersione delle medie stesse attorno alla media delle medie, e quindi associata ad una varianza, allora possiamo interpretare la differenza tra medie come rapporto tra varianze:

Varianza tra i gruppi / Varianza entro i gruppi

slide25

1.5

m u l t i v a r i a t o

slide26

Numerosità , dispersioni posizioni uguali, struttura interna

(co-dispersione) diversa

L'informazione multivariata

è maggiore della somma

delle informazioni univariate

singolarmente prese

slide27

L'informazione multivariata può rivelare

una direzione preferenziale lungo la quale

la dispersione (separazione) delle osservazioni

è maggiore di quella lungo le direzioni delle

variabili considerate separatamente, direzioni

coincidenti con quelle degli assi del sistema

di riferimento.

slide28

L'informazione multivariata può rivelare

una direzione preferenziale lungo la quale

la dispersione (separazione)

dei gruppi di osservazioni

è maggiore di quella lungo le direzioni delle

variabili considerate separatamente, direzioni

coincidenti con quelle degli assi del sistema di riferimento.

slide35

E’ sempre qui che il pensiero razionale si perde facilmente

Stime per intervalli, prova delle ipotesi e concetto di significatività

costituiscono gli strumenti per formulare ed affrontare un (il?)

problema di fondo:

Qual’é la probabilità di ottenere:

  • questo risultato (campionario)
  • questo/i insieme/i di risultati (campionari)
  • questa/e configurazione/i di risultati (campionari)
  • questa/e relazione/i tra risultati (campionari)
  • questa/e variazione/i nei risultati (campionari)

per puro caso ?

slide36

Stime per intervalli, prova delle ipotesi e concetto di significatività

costituiscono gli strumenti per stimare e valutare la diversità-distanza fra popolazioni partendo dalle corrispondenti statistiche campionarie.

(Per i problemi di classificazione sono necessari ANCHE altri strumenti di validazione, per incrementare la rappresentatività )

slide37

critico

La numerosità campionaria gioca sempre un ruolo

per la rappresentatività

slide38

In altri termini, fino a che punto

E’ possibile trascurare o “accorpare” l’ ”effetto-anno” ?

INOLTRE: il “sapere” metodologico maturato in campo agronomico da Fisher in poi, per quanto riguarda in particolare le produzioni agrarie, ed in special modo quelle da colture arboree, fornisce gli strumenti per impostare ed affrontare un problema specifico:

Qual’é l’incidenza della variabilità annuale su:

  • questo risultato
  • questo/i insieme/i di risultati
  • questa/e configurazione/i di risultati
  • questa/e relazione/i tra risultati
  • questa/e variazione/i nei risultati

?

Anche questo è un problema di rappresentatività

slide40

critico

E’ un argomento molto discusso,

che presenta aspetti

estremamente contraddittori

sintetizzati da espressioni

molto suggestive ...

La “numerosità” delle variabili di analisi gioca anch’essa un ruolo

per la rappresentatività

per la computabilità

per la possibilità stessa

di fare inferenze

nel senso della statistica classica

per la predittività

slide41

The blessings of Dimensionality

E’un fatto che le tecniche di

data analisys:

  • hanno molto successo
  • aumentano i loro campi di

applicazione

Tecniche di data analisys applicate a problemi di riconoscimento, basate su “poche” osservazioni descritte da moltissime variabili

The curses of

Dimensionality

Intrattabilità di stime ed inferenze davanti alla proliferazione delle variabili di analisi

slide44

Uno strumento importante per il calcolo di modelli di classificazione è costituito da un insieme di tecniche statistiche genericamente denominate

Analisi Discriminante

Il termine non ha lo stesso univoco significato per tutti gli autori.

slide45

L' Analisi Discriminante tratta insiemi di osservazioni in cui:

-sono definiti dei gruppi o classi

-sono definite una o piu' variabili quantitative

Si distinguono almeno tre tipologie di Analisi Discriminante:

  • l'Analisi Discriminante classificatoria

orientata alla produzione di modelli di classificazione,

  • l'Analisi Discriminante Canonica
  • l'Analisi Discriminante Step-Wise

orientate alla preventiva riduzione

della dimensionalità dei modelli.

Hand, (1981); Lachenbruch e collaboratori (1968); Lachenbruch (1975); Seber (1984),

slide46

L'analisi discriminante classificatoria

(da ora in avanti "Analisi Discriminante")

  • sviluppa una regola matematica (funzione discriminante),
    • basata sulle (funzione delle) variabili quantitative prese in considerazione,
    • che permette di attribuire un'osservazione ad una delle classi (restituisce una probabilità di attribuzione per ciascuna classe),
    • con la minima possibilità di errore.
slide47

L' analisi discriminante classificatoria

Si articola in numerosi metodi, parametrici e non:

funzione discriminante lineare => LDA, da Linear Discriminant Analysis

funzione discriminante quadratica => QDA, da Quadratic Discriminant Analysis

non sono necessarie assunzioni circa l'omogeneità delle matrici di covarianze entro le classi

metodi non parametrici => (kernel, KNN, …)

non sono necessarie assunzioni circa la normalita' delle distribuzioni entro le classi.

slide48

Analisi discriminante canonica

(CDA, da Canonical Discriminant Analysis ")

Obiettivi:

  • determinarele combinazioni lineari (definite Variabili Canoniche, Canonical variables, Canonical variates) delle variabili quantitative considerate, che meglio sintetizzano la variabilità tra le classi
  • selezionare un insieme di poche variabili canoniche, che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte (relativamente a quelle canoniche) variabili quantitative di partenza;

Le variabili canoniche hanno la caratteristica di essere tra loro incorrelate.

Klecka (1980); Seber (1984).

slide49

Analisi discriminante step-wise

Obiettivi:

  • determinarele variabili quantitative più efficaci per una corretta classificazione delle osservazioni
  • selezionare un insieme di poche variabili (originalinoncanoniche), che possano vantaggiosamente sostituire, ai fini della classificazione dei dati, le molte variabili quantitative di partenza
  • L'analisi discriminante step-wise persegue direttamente questo obiettivo con eliminazioni e/o immissioni progressive (passo-passo) di una variabile alla volta nel modello, per mezzo di diversi possibili criteri di valutazione.
  • I metodi step-wise NON garantiscono LA selezione della combinazione OTTIMALE di variabili originali in senso assoluto, ma solamente in senso relativo.
slide51

La crossvalidazione (metodo "Leaving-one-out") e' un procedimento che consiste nel classificare ogni osservazione (di un collettivo di numerosita' n), in base al criterio discriminante tratto dalle altre (n-1) osservazioni.

Richiede quindi che la funzione discriminante sia ricalcolata tante volte quante sono le osservazioni stesse.

La crossvalidazione leaving-one-out evita l'insorgere di errori di attribuzione artificiosamente bassi, che non cosituiscono una buona stima del reale potere discriminatorio del modello.

slide54

Modelli di classificazione

Cenni a tecniche diverse e/o ausiliarie

  • Analisi delle Componenti Principali
  • Analisi dei Cluster
slide55

Componenti Principali

Descrivono in maniera ottimale la variabilita' totale del collettivo in osservazione: la prima PC estratta e' pensabile come la retta meglio adattata allo scatter delle osservazioni nello spazio n-dimensionale delle variabili di analisi considerate, la seconda come quella meglio adattata alla variabilita' residua, e cosi' via.

slide56

Analisi delle Componenti Principali

Scopi

  • esplorare le relazioni tra variabili e tra osservazioni
  • isolare l'informazione utile alla separazione delle osservazioni dal "rumore", all'interno di un gruppo di variabili (tra le quali non viene fatta alcuna suddivisione fra dipendenti ed indipendenti)
  • selezionare un piccolo gruppo di combinazioni lineari (Componenti Principali) da un insieme di variabili (quantitative) di partenza
  • identificare gli "outliers"
slide57

Sulle componenti principali e' poi possibile applicare qualunque analisi statistica appropriata:

  • operare analisi dei cluster
  • determinare modelli di regressione
  • calcolare modelli di classificazione

Le Componenti Principali a differenza delle variabili canoniche, definiscono un sistema di riferimento che massimizza la separazione media tra le singole osservazioni, NONnecessariamente tra le classi.

slide58

Analisi dei Cluster (parametriche e non parametriche)

scopi:

  • esplorare le relazioni tra osservazioni
  • stabilire se e' possibile riconoscere dei raggruppamenti (cluster) in un certo insieme di osservazioni in cui non è nota né definita a priori alcuna classe o gruppo
  • individuare i raggruppamenti stessi in termini di rapporti reciproci (gerarchie, sovrapposizioni, distanze, …)
  • descriverli statisticamente

L’ analisi dei cluster può venire utilizzata per “riscoprire” dei raggruppamenti noti a priori, o per scoprirne di nuovi, magari rivelati dall’analisi di errori di classificazione.