1 / 38

Analisi statistica dei dati sperimentali

Analisi statistica dei dati sperimentali. Contributi casuali. Grandezze d’influenza e condizioni operative. dati di misura aleatori. Incidenti di misura. misurazione. Contributi sistematici. fasce di valori. variabilità. nuvola di valori. Aleatorietà delle misure.

minna
Download Presentation

Analisi statistica dei dati sperimentali

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analisi statistica dei dati sperimentali

  2. Contributi casuali Grandezze d’influenza e condizioni operative dati di misura aleatori Incidenti di misura misurazione Contributi sistematici fasce di valori variabilità nuvola di valori Aleatorietà delle misure Non si ricava un singolo valore numerico deterministicamente individuabile, ma una nuvola di valori Analisi statistica dei dati sperimentali

  3. Le norme richiedono di identificare un valore di misura ed una incertezza… • Data la nuvola di valori, dunque, è necessario stimare un valore centrale e un indice di dispersione (ad esempio rispettivamente media e scarto tipo). • Tuttavia è opportuno porre in atto procedure per individuare ed evidenziare la presenza di errori sistematici e di incidenti di misura! • Al fine di agevolare il trattamento dei dati sarebbe opportuno procedere alla progettazione delle operazioni di sperimentazione (Design of Experiments - DOE); • Tuttavia si procede di solito in maniera completamente casualizzata, ovvero considerando variazioni casuali di tutte le grandezze d’influenza (bisogna fare attenzione a non trascurare la presenza di eventuali effetti sistematici!!!); • Sulla base dell’esperienza si può procedere controllando una o più grandezze d’influenza e considerando variazioni casuali di tutte le altre. Analisi statistica dei dati sperimentali

  4. Esempio: si consideri il caso di una misura dimensionale eseguita da diversi operatori; si consideri che sia posta sotto controllo l’influenza dell’operatore sulle misure. Nuvola di valori! media+sqm media-sqm (media campionaria) (scarto quadratico medio campionario) Analisi statistica dei dati sperimentali

  5. È possibile osservare come la grandezza d’influenza “operatore” agisca sui risultati delle misurazioni. Analisi statistica dei dati sperimentali

  6. Spoglio dei dati e loro presentazione • La presentazione dei dati sperimentali può avvenire: • in forma tabulare  tabella • in forma grafica  grafico (dotplot, istogramma, ecc.) • Tabella Analisi statistica dei dati sperimentali

  7. DotPlot Si tratta di descrivere la frequenza assoluta con cui ogni valore compare su di un opportuno asse. La minima suddivisione sull’asse deve coincidere con la risoluzione secondo cui i dati si presentano. Ritornando all’esempio: se i dati sono in millimetri, consideriamo, per ognuno l’eccesso (delta) rispetto al valore 10.0000 mm; tale valore, moltiplicato per 1000 dà un’indicazione in micron. La tabella diventa dunque: Analisi statistica dei dati sperimentali

  8. I valori da considerarsi (in micron) per costruire l’asse delle ascisse vanno da 1 mm a 10 mm. Di seguito il DOTPLOT... Il numero di crocette per ogni singola ascissa coincide con il numero di volte in cui ogni singolo valore compare. Ad esempio il valore 2.9 mm (10.0029 mm) compare 4 volte! Analisi statistica dei dati sperimentali

  9. Istogramma I dati possono essere raggruppati in classi. L’intervallo coperto dai dati sperimentali viene suddiviso in sottointervalli, ognuno dei quali costituisce una classe. Limite di classe (superiore ed inferiore): valori che definiscono una classe. Ampiezza di classe: ampiezza della classe. Centro di classe: semisomma dei limiti di classe (punto medio della classe). Raggruppando tutti i dati nelle diverse classi si ottiene per ognuna di queste un valore di frequenza assoluta(fa), ovvero un valore indicativo del numero di risultati numerici che sono compresi entro i limiti che la definiscono. A partire dai valori di frequenza assoluta è possibile, per ogni classe, calcolare la frequenza relativa (fr)(= probabilità secondo la definizione frequentistica) Analisi statistica dei dati sperimentali

  10. Il numero opportuno di classi può essere ricavato dalla seguente relazione empirica: dove n è il numero di dati valutati. È buona norma che ogni classe contenga almeno quattro dati! Dunque di solito si agisce modificando l’ampiezza delle classi (accorpandole eventualmente) per rispettare tale condizione. L'istogramma è un diagramma costituito da un numero di barre rettangolari coincidente con il numero di classi considerato; l’area di ogni rettangolo è proporzionale alla probabilità (calcolata a partire dai dati sperimentali), che un dato cada nella specifica classe corrispondente. Analisi statistica dei dati sperimentali

  11. Ritornando all’esempio… I dati considerati sono n = 50  m = 1 + (10/3)Log10 (50) = 6.66  m = 7 Possiamo costruire le sette classi tra i valori 10.0000 e 10.0100… quindi: In questo caso, essendo le ampiezze delle classi uguali, l'istogramma coincide con il diagramma a barre (chiamato erroneamente istogramma in Excel!!!) Analisi statistica dei dati sperimentali

  12. Accorpando le ultime due classi si ottiene: Analisi statistica dei dati sperimentali

  13. Legenda: - fr frequenza relativa - fa  frequenza assoluta - r  densità di frequenza altezza della colonna rettangolare relativa alla i-esima classe di ampiezza ampi Analisi statistica dei dati sperimentali

  14. Tendenza centrale e dispersione Come precedentemente accennato è possibile utilizzare come stimatori di tendenza centrale e di dispersione rispettivamente la media e la deviazione standard campionarie (le cui definizioni sono riportate al lucido 4). Si possono tuttavia utilizzare anche altri indicatori, sia per la tendenza centrale, sia per la dispersione. • Tendenza centrale • Oltre alla media campionaria, si possono utilizzare moda o mediana. • Mediana: è il valore centrale fra i dati sperimentali disposti in maniera ordinata. • Moda: è il valore che compare con frequenza maggiore. • Normalmente si utilizza la media campionaria, perché meglio inquadrata in termini matematici; tuttavia è più sensibile agli incidenti di misura rispetto alla mediana o alla moda. Analisi statistica dei dati sperimentali

  15. Dispersione • In alternativa alla deviazione standard campionaria è possibile utilizzare il range (differenza fra il valore massimo ed il minimo ottenuti) come indicatore di dispersione. • Sia il range sia la varianza campionaria dipendono fortemente dal numero di dati che costituiscono il campione esaminato. • In alternativa è possibile definire la variabilità dei dati (dispersione) attraverso la definizione di campi di probabilità: • - si possono definire quattro classi, ognuna delle quali contenga il 25% dei dati (quartili) • - si possono definire dieci classi, ognuna delle quali contenga il 10% dei dati (decili) • - si possono definire cento classi, ognuna delle quali contenga l’ 1% dei dati (centili) Analisi statistica dei dati sperimentali

  16. min 1Q mediana 3Q max I quartili, decili, centili sono gli estremi superiori delle classi così definite. La definizione di questi indici di dispersione dipende molto dai valori assunti dai dati di estremità… Una valutazione più robusta della dispersione si può ottenere calcolando la differenza fra il terzo ed il primo quartile. Un modo abituale per indicare tendenza centrale e dispersione consiste nell’assegnazione di cinque valori: minimo, primo quartile, mediana, terzo quartile, massimo. Il diagramma corrispondente è detto BOXPLOT. Analisi statistica dei dati sperimentali

  17. Campionamento Inferenza POPOLAZIONE CAMPIONE STIME (Parametri che definiscono la distribuzione della popolazione) Misurazione Analisi MISURANDO LETTURE STIME (Definizione di intervalli in cui ragionevolmente cadono i valori da attribuirsi al misurando come misura  INCERTEZZA) Inferenza statistica Informazioni sulla catena di misura e sulle grandezze d’influenza Analisi statistica dei dati sperimentali

  18. Intervalli fiduciari per la media • In generale, data una popolazione, estratto a partire da essa un campione, si può costruire un intervallo sulla base dei dati campionari, entro il quale, con un prefissato livello di probabilità (fiducia), si può ritenere che un parametro, descrittivo della distribuzione della popolazione (media), cada. • Si parla di stima per intervalli della media; infatti, anche la media campionaria può essere considerata una stima della media della popolazione, tuttavia si tratta di un unico valore e si parla dunque di stima puntuale; costruendo un intervallo, si definisce invece una fascia di valori e si parla dunque di stima per intervalli. • L’intervallo fiduciario per la mediaè dato dalla seguente espressione (con m media della popolazione distribuita normalmente): • il livello di fiducia associato a tale intervallo è (1-)%. m indica la media campionaria, s la deviazione standard campionaria, n la numerosità del campione. Analisi statistica dei dati sperimentali

  19. tendenza centrale dispersione • Nel caso quanto visto venga applicato alle misure si ha: • se la valutazione sperimentale è stata condotta con cura in modo tale da evitare effetti sistematici ed incidenti di misura, allora la popolazione delle possibili misure si può ritenere distribuita normalmente, in quanto agiscono solo effetti di tipo casuale; • per la media di tale popolazione si può dunque effettuare una stima per intervalli secondo la relazione riportata in precedenza; • l’intervallo fiduciario a livello di fiducia (1-)% può essere anche scritto nella forma seguente: Analisi statistica dei dati sperimentali

  20. Assumendo che il “valore vero” attribuibile al misurando come misura esista, esso può essere considerato coincidente con ; la misura è ottenibile attraverso la stima per intervalli vista ed è dunque data da: dove: m rappresenta il valore di misura, k·u è l’incertezza di misura associata. Per definire la misura è necessario corredare con la opportuna unità di misura. Quanto detto vale con il livello di fiducia (1-)% prestabilito. Analisi statistica dei dati sperimentali

  21. Procedura di analisi dei dati sperimentali • I dati vengono raccolti e presentati in forma tabulare oppure, preferibilmente, grafica (attraverso un istogramma); • a partire dai dati sperimentali è possibile stimare una media campionaria ed una deviazione standard campionaria; • la media campionaria e la deviazione standard campionaria servono a stimare media e deviazione standard della popolazione dei possibili valori di misura, che, se si considera l’assenza di incidenti di misura e di effetti sistematici, deve essere normale. Analisi statistica dei dati sperimentali

  22. Definizione dei parametri della distribuzione teorica normale associata Risultati sperimentali Rappresentazione su istogramma Valutazione di tendenza centrale e dispersione Individuazione degli effetti sistematici e loro correzione Individuazione degli incidenti di misura e loro esclusione NO Distribuzione normale??? SI Analisi degli effetti sistematici Principi di esclusione Set di dati su cui operare... • Il discostarsi della distribuzione dei dati sperimentali, rappresentata dall’istogramma, dalla distribuzione teorica (la normale costruita su media e deviazione standard campionarie) indica la presenza di incidenti di misura ed effetti sistematici, che devono essere localizzati ed eliminati. Il processo è iterativo perché la media e la varianza campionarie dipendono dai valori che costituiscono il set di dati analizzato (che risulta anche dalla presenza di effetti incidentali e sistematici). Media e varianza campionarie Analisi statistica dei dati sperimentali

  23. Controllo di normalità (di una distribuzione sperimentale) • Test del c2 • - Si definisce un livello di fiducia (1-)% a cui accettare l’ipotesi che i dati sperimentali raccolti siano distribuiti normalmente (la popolazione delle possibili misure sia distribuita normalmente). • - Si può definire una variabile casuale W secondo la seguente relazione: dove: sono state considerate n classi nella quali i dati sono raggruppati; fsi rappresenta la frequenza assoluta con cui i dati sperimentali cadono nella i-esima classe; fti rappresenta la frequenza assoluta prevedibile teoricamente con cui i dati cadono nella i-esima classe. - W è distribuito secondo la distribuzione c2 di Pearson. Analisi statistica dei dati sperimentali

  24. - Come detto, i dati teoricamente dovrebbero essere distribuiti normalmente secondo una distribuzione normale avente media stimata dalla media campionaria e varianza stimata dalla varianza campionaria, stimate a partire dai dati sperimentali. Nota tale distribuzione è possibile calcolare per ogni classe i-esima il valore di frequenza assoluta attesa fti e dunque il termine i-esimo - La somma dei contributi i-esimi relativi alle m classi fornisce il valore di W. Si deve verificare che tale valore sia compreso tra due limiti dati per una variabile casuale distribuita secondo la distribuzione di Pearson che descrivano un campo con probabilità associata pari a (1-)%. - La distribuzione di Pearson è parametrizzata rispetto al numero di gradi di libertà che si considerano. Ai fini del test tale valore è dato dalla relazione: Numero di parametri della distribuzione teorica (normale) stimati a partire dai dati sperimentali: media e varianza  k=2. Numero di classi Analisi statistica dei dati sperimentali

  25. p curva per n g.d.l. c - Entrando nella tabella della distribuzione di Pearson si ricavano i due valori limite: Analisi statistica dei dati sperimentali

  26. - Si deve verificare che: - Se la relazione sopra è verificata, il test dà esito positivo e, dunque, con un livello di fiducia pari a (1-)%, si può accettare che la distribuzione dei dati sperimentali sia uniforme, ovvero che non vi siano dati affetti da errori incidentali e sistematici. Equivalentemente si corre un rischio pari a % che l’ipotesi di normalità per la distribuzione dei dati non valga. - Si può applicare il test al caso precedentemente visto... Analisi statistica dei dati sperimentali

  27. Il test risulta verificato con un livello di fiducia del 95%  si può ritenere che i dati siano distribuiti normalmente e dunque che non vi siano sostanziali incidenti di misura ed effetti sistematici. Analisi statistica dei dati sperimentali

  28. Grafico di probabilità normale • Si tratta di un grafico avente in ascissa una coordinata indicativa dei valori assunti dai dati sperimentali ad in ordinata i corrispondenti valori di probabilità cumulata. Il grafico ha l’asse delle ordinate opportunamente distorto in modo tale da far sì che il diagramma della cumulata della distribuzione normale non sia una curva ma una retta (che risulta facilmente riconoscibile). Riportando i dati sperimentali su tale diagramma, nel caso in cui tali dati possano essere ritenuti distribuiti normalmente, essi giaceranno su tale retta. • Operativamente, mediante un foglio di calcolo (Excel): • - i dati vengono ordinati progressivamente in ordine crescente (ad ognuno viene assegnato un indice i); • - ad ogni dato xi corrisponde una probabilità Psi, ottenibile secondo la relazione Analisi statistica dei dati sperimentali

  29. - ad ogni valore di probabilità sperimentale Psi corrisponde un valore della variabile normale standardizzata z, che chiamiamo zsi; - per ogni dato xi si calcola il corrispondente valore teorico della variabile normale standardizzata z: con m e s rispettivamente media e deviazione standard campionaria; ad ogni valore xi corrisponde una probabilità teorica Pti; - su di un grafico si riportano i valori di zs e di zt in funzione di x; i punti (x,zt) descrivono una retta, rappresentativa dell’andamento teorico del grafico di probabilità normale; i punti (x,zs) rappresentano l’andamento dei dati sperimentali: più tali punti approssimano l’andamento della suddetta retta più la distribuzione sperimentale è approssimabile con una distribuzione normale. Ritornando al caso precedentemente esaminato... Analisi statistica dei dati sperimentali

  30. Analisi statistica dei dati sperimentali

  31. IQR min 1Q mediana 3Q max Principi di esclusione Al fine di eliminare i dati che provengono da incidenti di misura si impiegano i principi di esclusione. Gli incidenti di misura sono eventi rari, tuttavia non tutti gli eventi rari sono incidenti di misura: bisogna escludere solo i dati per i quali si riconosce la causa incidentale che li ha prodotti. I valori legati al verificarsi di eventi rari intrinsecamente presente e non attribuibili ad incidenti non andrebbero esclusi. • Boxplot Analisi statistica dei dati sperimentali

  32. 3 IQR 3 IQR IQR 1.5 IQR 1.5 IQR min 1Q me 3Q max Outliers sospetti Outliers sospetti Outliers sospetti Outliers altamente sospetti  zona degli outliers altamente sospetti - 1Q: valore superiore nel primo quartile; - 3Q: valore superiore nel terzo quartile; - max: valore massimo nella regione limitata superiormente da 3Q+1.5·IQR; - min: valore minimo nella regione limitata inferiormente da 1Q-1.5·IQR; I valori che cadono al di fuori della zona compresa fra min e max si dicono outliers (=valore erratico) e sono frutto di eventi rari. Esistono due tipi di outliers: sospetti e altamente sospetti. Analisi statistica dei dati sperimentali

  33. La definizione dei limiti sopra citati può essere spiegata secondo quanto segue… - se i dati sono distribuiti normalmente (ovvero se non vi fossero valori ottenuti come conseguenze di incidenti) si avrebbe, per una variabile normale standard z: 1Q: z1Q= -0.6745 2Q: z2Q= 0.6745 IQR = 1.349 (1Q-1.5IQR): zLIMINF-1.5= -2.698 (3Q+1.5IQR): zLIMSUP+1.5= 2.698 (1Q-3IQR): zLIMINF-3= -4.721 (3Q+3IQR): zLIMSUP+3= 4.721 - quindi: P (zLIMINF-1.5<z zLIMSUP+1.5) = 99.3%  POUTLIERS SOSPETTI= 0.7% P (zLIMINF-3<z zLIMSUP+3) = 99.9997%  POUTLIERS SOSPETTI= 0.0003% Analisi statistica dei dati sperimentali

  34. Principio di esclusione di Chauvenet • Risponde alla necessità di avere un principio che ponga dei limiti dell’esclusione al variare del numero di dati trattati. Infatti, maggiore è il numero di prove effettuate e maggiore è la probabilità che si verifichino eventi rari. • - Convenzionalmente si impone che la probabilità che si verifichi un evento raro in n prove (misure) è (dalla binomiale): ; • - Si impone che P(1) sia pari convenzionalmente al 50% , cioè che vi sia una probabilità pari a 0.5 di ottenere un evento raro su n prove; • - se si considerano due limiti, uno inferiore ed uno superiore e, dunque, due regioni a cui competono eventi rari, allora si ha: • - si individuano dunque, ipotizzando che la distribuzione debba essere normale, i due limiti impiegati per l’esclusione (mediante tabella della normale standardizzata). Analisi statistica dei dati sperimentali

  35. Nel nostro caso… A tale valore di probabilità corrispondono i seguenti valori per la variabile normale standardizzata: In corrispondenza di tali valori si ricavano i corrispondenti valori di x: Analisi statistica dei dati sperimentali

  36. Analisi statistica dei dati sperimentali

  37. Nel caso vengano identificati valori che siano attribuibili ad incidenti di misura si deve procedere nei modi seguenti (in ordine di preferenza): a - si rieseguono le misure; b - si eliminano i dati che provengono da incidenti di misura lasciando le corrispondenti celle (nei fogli di calcolo) vuote; c - si sostituiscono i valori riconosciuti come incidentali con il valore della media campionaria che si ottiene ad esclusione effettuata. Analisi statistica dei dati sperimentali

  38. Bibliografia • G. Barbato, Misurare per decidere, Progetto Leonardo, Bologna (Capitolo 6) • Consultazione: • G.Vicario - R.Levi, Calcolo delle probabilità e statistica per ingegneri, Progetto Leonardo, Bologna (Capitoli 4, 7, 8)

More Related