Ambiente in formazione
Download
1 / 32

AMBIENTE in FORMAZIONE - PowerPoint PPT Presentation


  • 127 Views
  • Uploaded on

Istituto tecnico Industriale Statale “Enrico Fermi”, Treviso Liceo Scientifico “Leonardo da Vinci”, Treviso. AMBIENTE in FORMAZIONE. Il trattamento dei dati analitici ambientali (elementi di chemiometria) Rossano Piazza. Che cos’ è la Chemiometria ?.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' AMBIENTE in FORMAZIONE' - justus


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Ambiente in formazione

Istituto tecnico Industriale Statale “Enrico Fermi”, Treviso

Liceo Scientifico “Leonardo da Vinci”, Treviso

AMBIENTE in FORMAZIONE

  • Il trattamento dei dati analitici ambientali

  • (elementi di chemiometria)

    Rossano Piazza


La chemiometria è un settore della chimica che studia l'applicazione dei metodi matematici o statistici ai dati chimici

  • La chemiometria può essere definita come la branca della chimica che si serve di metodi matematici, statistici e logici per:

  • progettare, selezionare ed ottimizzare procedure ed esperimenti;

  • estrarre la massima informazione possibile sul sistema in esame attraverso l’analisi dei dati;

  • fornire una rappresentazione grafica di questa informazione.

  • Appare chiaro come la chemiometria accompagni il processo chimico, ed in particolare chimico-analitico, lungo tutte le sue fasi a partire dal campionamento fino all’ottimizzazione.


  • Fino a poco tempo fa le indagini chimico-fisiche riguardavano essenzialmente una sola determinazione analitica o la misura di poche variabili che si determinavano una alla volta. Oggi, l’uso delle moderne strumentazioni analitiche, come ad esempio i vari tipi di tecniche cromatografiche e spettroscopiche, consente l’acquisizione in tempi brevi di un gran numero di determinazioni (informazioni) su un unico campione.

  • Un sistema complesso, quale è un sistema ambientale, per essere studiato richiede l’acquisizione e l’indagine di (su) molti campioni, ed ognuno di essi, a sua volta, può essere descritto da molte informazioni (variabili). Di conseguenza, l’elaborazione e l’interpretazione dei dati da UNIVARIATA è necessariamente diventata MULTIVARIATA per poter utilizzare CONTEMPORANEAMENTE tutte le informazioni disponibili.


Pattern recognition
PATTERN RECOGNITION riguardavano essenzialmente una sola determinazione analitica o la misura di poche variabili che si determinavano una alla volta. Oggi, l’uso delle moderne strumentazioni analitiche, come ad esempio i vari tipi di tecniche cromatografiche e spettroscopiche, consente l’acquisizione in tempi brevi di un gran numero di determinazioni (informazioni) su un unico campione.

  • Aumento del numero di campioni atti a caratterizzare un sistema:

  • + Aumento del potenziale scientifico di conoscenza sul sistema

  • - Diminuzione della nostra capacità di “vedere” la struttura dei dati


Obiettivi
obiettivi riguardavano essenzialmente una sola determinazione analitica o la misura di poche variabili che si determinavano una alla volta. Oggi, l’uso delle moderne strumentazioni analitiche, come ad esempio i vari tipi di tecniche cromatografiche e spettroscopiche, consente l’acquisizione in tempi brevi di un gran numero di determinazioni (informazioni) su un unico campione.:

  • 1. LA SCELTA DELLE CONDIZIONI OTTIMALI PER L’APPLICAZIONE DI METODOLOGIE SPERIMENTALI (OTTIMIZZAZIONE ED EXPERIMENTAL DESING);

  • 2. L’ESTRAZIONE DELLE INFORMAZIONI CONTENUTE IN SERIE O TABELLE DI DATI SPERIMENTALI (PATTERN RECOGNITION).

  • Lo scopo finale è quello di contribuire in maniera determinante a risolvere i problemi ad alta complessità, semplicemente semplificandoli, estraendo l’informazione rilevante ai fini della comprensione dei problemi, e scartando la parte di informazione ridondante e rumorosa.


  • La strategia chemiometrica riguardavano essenzialmente una sola determinazione analitica o la misura di poche variabili che si determinavano una alla volta. Oggi, l’uso delle moderne strumentazioni analitiche, come ad esempio i vari tipi di tecniche cromatografiche e spettroscopiche, consente l’acquisizione in tempi brevi di un gran numero di determinazioni (informazioni) su un unico campione.

  • DATI

  • I metodi chemiometrici vengono utilizzati per l’esplorazione dei dati, cioè per aprire una finestra sulla complessità di un sistema reale, al fine di gettare luce sulla struttura dei dati, sulle relazioni e correlazioni tra essi esistenti, sulla congruità, sulla rilevanza e sulla ridondanza con cui il problema è stato descritto.


S chema di strategia su cui si basa lo sviluppo della scienza tradizionale

LA CHEMIOMETRIA NEL CONTESTO SCIENTIFICO: APPROCCIO “SOFT” E APPROCCIO “HARD”

(Soft models and Hard models)

Schema di strategia su cui si basa lo sviluppo della scienza tradizionale


  • Cosa è un sistema? “SOFT” E APPROCCIO “HARD”

  • Cosa è un sistema relazionale empirico?

  • Cosa è la rappresentazione di un sistema?

  • Oggetti (i campioni atti a rappresentare il sistema)

  • Variabili (il modo con cui si decide di rappresentare il sistema).

    • Rilevanza

    • Correlazione

      Rappresentazione in uno spazio multivariato


Una volta che serie di dati polidimensionali siano facilmente acquisibili o costruibili, l’analisi statistica multivariata è lo strumento necessario per poter usare contemporaneamente tutte le informazioni disponibili. Si può facilmente dimostrare che l’uso di informazioni parziali (ad esempio considerare le modificazioni dovute a ciascuna variabile presa una alla volta) può portare a risultati completamente distorti.Per una comprensione immediata del significato dei vari metodi di analisi multivariata, è estremamente utile averne una rappresentazione grafica. Un campione su cui siano state misurate p variabili è rappresentato da un punto dello spazio p-dimensionale in cui ciascuna variabile misurata rappresenta un asse ortogonale


La struttura multivariata dei dati facilmente acquisibili o costruibili, l’analisi statistica multivariata è lo strumento necessario per poter usare contemporaneamente tutte le informazioni disponibili. Si può facilmente dimostrare che l’uso di informazioni parziali (ad esempio considerare le modificazioni dovute a ciascuna variabile presa una alla volta) può portare a risultati completamente distorti

Come si può descrivere un oggetto rappresentato da p variabili?


  • Le Variabili facilmente acquisibili o costruibili, l’analisi statistica multivariata è lo strumento necessario per poter usare contemporaneamente tutte le informazioni disponibili. Si può facilmente dimostrare che l’uso di informazioni parziali (ad esempio considerare le modificazioni dovute a ciascuna variabile presa una alla volta) può portare a risultati completamente distorti

  • Sono le grandezze che utilizziamo per studiare un dato fenomeno e per descrivere complessivamente le osservazioni; possono essere di natura sperimentale o numerica (calcolabili per via teorica) .

  • Le variabili sono il modo con cui si descrive il sistema relazionale empirico, e le scale di misura sono il modo con cui l’informazione empirica viene trasformata in informazione numerica.


Il trattamento preliminare dei dati
Il Trattamento Preliminare dei dati facilmente acquisibili o costruibili, l’analisi statistica multivariata è lo strumento necessario per poter usare contemporaneamente tutte le informazioni disponibili. Si può facilmente dimostrare che l’uso di informazioni parziali (ad esempio considerare le modificazioni dovute a ciascuna variabile presa una alla volta) può portare a risultati completamente distorti


Definizione di gruppo e di classe e differenze metodi di clustering metodi di classificazione
Definizione di gruppo e di classe, e differenze facilmente acquisibili o costruibili, l’analisi statistica multivariata è lo strumento necessario per poter usare contemporaneamente tutte le informazioni disponibili. Si può facilmente dimostrare che l’uso di informazioni parziali (ad esempio considerare le modificazioni dovute a ciascuna variabile presa una alla volta) può portare a risultati completamente distorti-Metodi di Clustering-Metodi di classificazione

  • I metodi di Pattern Recognition sono basati sul concetto di analogia:

  • 1) metrica (distanza, similarità)

  • 2) aderenza ad un modello matematico


Nei metodi di classificazione esiste una serie di campioni la cui appartenenza ad una classe è conosciuta a priori (training set). Ciascun oggetto del training set è a priori assegnato alla sua classe. Il metodo serve per trovare delle regole che permettono di distinguere le varie classi. Una volta trovate, queste regole servono per classificare campioni incogniti (test set)

Nei metodi di clustering non si hanno, invece, conoscenze di sorta sui dati da elaborare. (le classi non sono note a priori). L’obiettivo, in questo caso, è quello di verificare se i punti nello spazio sono dispersi omogeneamente o formano dei gruppi (clusters). Se al termine dell’analisi riteniamo di dare ai gruppi un significato, i gruppi saranno definiti classi. (…)

Cluster Analysis


x la cui appartenenza ad una classe è conosciuta a priori (training set). Ciascun oggetto del training set è a priori assegnato alla sua classe. Il metodo serve per trovare delle regole che permettono di distinguere le varie classi. Una volta trovate, queste regole servono per classificare campioni incogniti (test set) 2

P2

x22

P1

x12

x11

x21

x1

  • Ciascun metodo di analisi multivariata si basa sull’utilizzo di un criterio di similitudine. Sotto questo profilo, i vari metodi sviluppati fino ad oggi si possono suddividere in due categorie.

  • I primi (storicamente) usano come criterio di similitudine la distanza Euclidea (ed altri tipi di distanze geometriche): due campioni sono tanto più simili quanto più sono vicini nello spazio p-dimensionale.

  • Dati n oggetti e p variabili, con X = x n,p ( matrice di n oggetti per p variabili), si definisce distanza Euclidea dell’oggetto k-esimo dall’oggetto l-esimo d k,l:

  • dkl = [j (xkj – xlj )2]0.5

  • (j= 1, 2,…….p)

  • Nel semplice caso bidimensionale (p=2 ), dati 2 oggetti P1 e P2 di coordinate

  • P1(x11 , x12) e P2(x21 ,x22), la distanza d12 sarà (x21-x11)2 + (x22-x12)2 .


  • Nel caso bidimensionale, si può semplicemente verificare la validità della formula sulla base del Teorema di Pitagora.

  • La misura della distanza Euclidea è a rigore l’inverso di una misura di similtudine in quanto, per oggetti identici (o, meglio, per oggetti diversi, ma non distinguibili attraverso la nostra caratterizzazione multivariata), si ha che d = 0.

  • Di questo gruppo fanno parte i metodi di classificazione [LDA (Analisi Discriminante Lineare), K-NN (K intorni più vicini], e la Cluster Analysis.Nel secondo gruppo di metodi il criterio di similitudine è invece rappresentato dall’aderenza ad un unico modello matematico.

  • Fra questi metodi, regna sovrana l’Analisi delle Componenti Principali (PCA).


Similarit validità della formula sulla base del Teorema di Pitagora.à: trasposizione del concetto di analogia.

Significato opposto al concetto di distanza euclidea.

Il concetto di similarità di oggetti è insito nel concetto di distanza. Dalla definizione di distanza Euclidea, discende quella di similarità:

skl = 1- dkl /dmax (0s1 )


Metodi di raggruppamento cluster analysis
Metodi di Raggruppamento: CLUSTER ANALYSIS validità della formula sulla base del Teorema di Pitagora.


  • METODI DI CLUSTER ANALYSIS validità della formula sulla base del Teorema di Pitagora.

  • -Metodi gerarchici (single linkage, average linkage, complete linkage)

  • Caratterizzazione dei Clusters:

  • la loro posizione nello spazio p – dimensionale è definitada:

  • centroide (vettore delle medie delle variabili calcolate per gli oggetti assegnati al cluster); centrotipo (oggetto di riferimento fra tutti gli oggetti facenti parte del cluster, il più vicino al centroide);

  • .dimensione (n. di oggetti in esso contenuti).


Strategia di una cluster analysis
Strategia di una Cluster Analysis validità della formula sulla base del Teorema di Pitagora.


  • Questo avviene andando ad eliminare dalla matrice di similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.

  • Ma come si calcola la distanza del “nuovo” cluster f (ottenuto dalla “fusione” del cluster s con il cluster t) con un altro cluster k ?


  • s (ns) t (nt) k (nk) similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.

?????

f (ns+nt)


  • Algoritmi di Cluster similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.

  • Se ns è la dimensione del cluster s, nt è la dimensione del cluster t, nk quella del cluster k, ed ovviamente nf = ns + nt è la dimensione del nuovo cluster f, si ha:

  • 1. d kf = 0.5 ( d ks + d kt ) ( Average Linkage)

  • 2. d kf = ( ns d ks + nt d kt ) \ nf (weighted Average Linkage)

  • 3.d kf = min (d ks , dkt ) (Single Linkage)

  • 4.d kf = max (d ks , d kt ) (Complete Linkage)


Cluster analisys dendrogramma
Cluster Analisys: Dendrogramma similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.


Limiti della cluster analysis
Limiti della Cluster Analysis similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.

  • -Rumore sperimentale legato alla imprecisione delle misure sperimentali

  • -Interpretazione incompleta delle informazioni ottenute (La Cluster Analysis non da’ informazioni sul ruolo discriminante delle variabili)


CASO DI STUDIO similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.Confronto fra acque potabili (con la genesi di potabilizzazione, a partire dai pozzi di falda) ed acque minerali

  • Stima della qualità delle acque

  • Indice di qualità di un’acqua che possa essere confrontabile

  • Le acque potabili sono “diverse” da quelle minerali?

  • (Conoscenza preliminare)dell’aspetto Chimico-Fisico, biologico, microbiologico, geografico, legislativo

  • L’acquedotto di Venezia dispone di fonti di approvigionamento molto differenti, per cui immette in rete acque dalle caratteristiche diverse. Non si può, dunque, parlare di un'unica acqua potabile.

  • Le acque bevute dai veneziani

  • 94% FALDA 6% FIUME SILE


  • CENTRALI DI SPINTA (ASPIV) : similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.

  • Venezia Urbe : Centrale S. Andrea (VE) (1884)

  • Mestre : Centrale GAZZERA (GA)

  • Centrale Marghera (MA)

  • Cà Solaro: Centrale omonima (CA) (1974)

  • Identificazione di 20 parametri (variabili) per l’identificazione della qualità e della “diversità” Obiettivo: scelta dell'acqua "migliore" (basso contenuto di sostanze indesiderabili, parametri costanti nel tempo) da confrontare con le principali acque minerali distribuite al dettaglio E' possibile imbottigliare l'acqua dell' ASPIV ?

  • (direttiva 96/70/CE sul riavvicinamento delle legislazioni degli stati membri sull' uso e la commercializzazione delle acque minerali).


ASPIV: Centrali di potabilizzazione similarità le righe e le colonne relative ai due cluster (oggetti) che sono stati “uniti”, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarità del nuovo cluster con tutti i restanti cluster (oggetti). Così facendo, la dimensione della matrice di similarità si riduce di uno ad ogni passo successivo.


  • Utilizzo della Cluster Analysis per un primo screening: valutazione della “diversità” fra i campioni analizzati dalle 4 centrali di spinta

  • Analisi di 100 campioni per ogni centrale di spinta: totale 400 campioni, 20 variabili (variabilità stagionale)

  • Matrice 400obj x 20vars

  • Autoscaling


Risultati della Cluster Analysis sui dati autoscalati valutazione della “diversità” fra i campioni analizzati dalle 4 centrali di spinta

  • Cà Solaro appare l’acqua più “diversa” (si unisce per ultima)

  • I campioni di Gazzera appaiono i più simili tra loro

  • Marghera e Venezia non solo distinguibili a nessun livello (stesse fonti)

-Ipotesi: Marghera e Venezia: stesse fonti (permeabilità di falda)

-L’acqua di Gazzera sembra essere la più omogenea

No informazioni sulla variabili



ad