Calibración multivariada
Download
1 / 29

Departamento de Química Analítica Instituto de Química Rosario (CONICET) - PowerPoint PPT Presentation


  • 184 Views
  • Uploaded on

Calibración multivariada Parte 5 - Selección de factores. Alejandro C. Olivieri. Departamento de Química Analítica Instituto de Química Rosario (CONICET) Facultad de Ciencias Bioquímicas y Farmacéuticas Universidad Nacional de Rosario ARGENTINA.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Departamento de Química Analítica Instituto de Química Rosario (CONICET)' - galena


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Calibración multivariada

Parte 5 - Selección de factores

Alejandro C. Olivieri

Departamento de Química Analítica

Instituto de Química Rosario (CONICET)

Facultad de Ciencias Bioquímicas y Farmacéuticas

Universidad Nacional de Rosario

ARGENTINA


Estimación del número significativo de factores, o autovectores, o scores de calibrado.

¿Cuánto vale A?


¿Por qué es esencial estimar correctamente el número de factores en los métodos que usan variables latentes?


Error factores en los métodos que usan variables latentes?

Factores

Porque el error de predicción en las muestras de calibrado disminuye al aumentar el número de factores, pero aumenta el error de predicción en muestras de test independientes.

Subajuste

Sobreajuste

Predicción (o) y calibración ()


Verdadero factores en los métodos que usan variables latentes?

Media

Sesgo

Probabildad

Resultado experimental

Relación entre error estándar y sesgo


RMSE factores en los métodos que usan variables latentes?

mínimo

Error de predicción

Variancia moderada

Sesgo

alto

Factores, componentes, etc.

Visión realista del compromiso sesgo-variancia


Efectos del sobreajuste en la extrapolaci n cu l ser la poblaci n de eeuu en 2010
Efectos del sobreajuste en la extrapolación: ¿cuál será la población de EEUU en 2010?

400

?

350

?

300

Millones

250

200

150

100

50

0

1900

1920

1940

1960

1980

2000

2020

Año


Ajuste polin mico de grado 1 sub ajuste
Ajuste polinómico de grado 1: ¿sub-ajuste? la población de EEUU en 2010?

400

350

300

Millones

RSS=555.99

250

200

150

100

Considerable Residual sum of squares (RSS).

50

0

1900

1920

1940

1960

1980

2000

2020

Año


Ajuste polin mico de grado 2 buen ajuste
Ajuste polinómico de grado 2: ¿buen ajuste? la población de EEUU en 2010?

400

350

300

Millones

RSS=102.16

250

200

150

100

RSS muy mejorado

50

0

1900

1920

1940

1960

1980

2000

2020

Año


Ajuste polin mico de grado 3 sobre ajuste
Ajuste polinómico de grado 3: ¿sobre-ajuste? la población de EEUU en 2010?

400

350

Millones

300

RSS=102.06

250

200

150

100

RSS casi sin cambios

50

0

1900

1920

1940

1960

1980

2000

2020

Año


Ajuste polin mico de grado 2 revisi n
Ajuste polinómico de grado 2: revisión la población de EEUU en 2010?

400

Interpolación

350

300

RSS=102.16

Millones

250

200

Extrapolación

150

100

Incertidumbre en la predicción casi constante al interpolar; extrapolación razonablemente segura

50

0

1900

1920

1940

1960

1980

2000

2020

Año


Ajuste polin mico de grado 3 revisi n
Ajuste polinómico de grado 3: revisión la población de EEUU en 2010?

400

Interpolación

350

300

RSS=102.06

Millones

250

200

Extrapolación

150

100

Incertidumbre en la predicción casi constante al interpolar; extrapolación altamente incierta

50

0

1900

1920

1940

1960

1980

2000

2020

Año


Estimación del número óptimo de factores la población de EEUU en 2010?

Criterio visual


Clasificación de PCs la población de EEUU en 2010?

Significativo

No significativo


Determinación de bromhexina en un jarabe mediante espectroscopía UV-visible.

Calibrado: 12 muestras. Test: 11 muestras.

Raw calibration

Raw unknowns

2

2

1.5

1.5

1

1

0.5

0.5

0

0

20

40

60

20

40

60

Preprocessed calibration

Preprocessed unknowns

0.5

0

0

-0.2

-0.4

-0.5

-0.6

-1

-0.8

20

40

60

20

40

60

Sensors

Sensors


Componentes principales: bromhexina en jarabes espectroscopía UV-visible.

1

2

3

4

5

¿Significativo o no?


Estimación del número óptimo de factores espectroscopía UV-visible.

% de Variancia Explicada


PCs y variancia explicada: determinación de bromhexina en jarabes

100

95

90

¿2 ó 3 factores?

Variancia explicada

85

80

75

1

2

4

6

8

10

12

PC


Estimación del número óptimo de factores por validación cruzada dejando una muestra fuera

(leave-one-out cross-validation)


  • Validación cruzada en PCR dejando una muestra fuera cruzada dejando una muestra fuera

  • Se quita una muestra del juego de calibrado

  • Se calibra con las restantes usando un factor

  • Se predice la concentración en la muestra quitada

  • Se calcula el error (ypred – ynom)

  • Se quita otra muestra del juego de calibrado

  • Se calcula el PRESS = S (ypred – ynom)2

  • Se repite el cálculo para 2, 3, ..., A factores


¿3 ó 4 factores? cruzada dejando una muestra fuera

Análisis de PRESS en función de A:bromhexina en jarabes

PRESS vs. A

0.8

0.6

PRESS

0.4

log(PRESS) vs. A

0.2

0

0

1

2

3

4

5

6

-1

Factores

log(PRESS)

-2

-3

2

3

4

5

6

1

Factores


PRESS cruzada dejando una muestra fuera

Mínimo

Criterio de Haaland: Anal. Chem. 60, 1193 (1988)

Mínimo PRESS

p menor que 0.75

El número óptimo de factores es 3


Análisis de bromhexina en un jarabe mediante PLS usando 2, 3 y 4 factores:

RMSE y REP% son el error promedio absoluto y relativo, respectivamente, para un conjunto de muestras independientes de validación del modelo PLS.


Spectral residues 3 y 4 factores:

Predicted vs. actual

0.02

Ideal

2

Real

0.015

0.01

Residue (%)

Predicted

1

Slope = 1.0241

0.005

SD = 0.012937

Intcp = -0.032388

SD = 0.022831

0

0

2

4

6

8

10

0

1

2

Sample

Actual

Errors

EJCR

0.15

0.1

Ideal

EJCR

0.1

0.05

0.05

0

Intercept

Error

0

-0.05

-0.05

-0.1

2

4

6

8

10

0.95

1

1.05

1.1

1.15

Sample

Slope

Resultados para A = 2


Spectral residues 3 y 4 factores:

Predicted vs. actual

0.015

Ideal

Real

2

0.01

Residue (%)

Predicted

1

Slope = 1.0232

0.005

SD = 0.010774

Intcp = -0.0063614

SD = 0.019014

0

0

2

4

6

8

10

0

1

2

Sample

Actual

Errors

EJCR

0.15

0.1

Ideal

EJCR

0.1

0.05

0.05

0

Intercept

Error

0

-0.05

-0.05

-0.1

2

4

6

8

10

0.95

1

1.05

1.1

Sample

Slope

Resultados para A = 3


-3 3 y 4 factores:

Predicted vs. actual

Spectral residues

x 10

Ideal

3

Real

2

2

Residue (%)

Predicted

1

Slope = 1.0304

1

SD = 0.010724

Intcp = -0.022954

SD = 0.018926

0

0

2

4

6

8

10

0

1

2

Sample

Actual

Errors

EJCR

0.15

0.1

Ideal

EJCR

0.1

0.05

0.05

0

Intercept

Error

0

-0.05

-0.05

-0.1

2

4

6

8

10

0.95

1

1.05

1.1

1.15

Sample

Slope

Resultados para A = 4


RMSE en función de 3 y 4 factores:A


Ockham’s razor 3 y 4 factores:

Frustra fit per plura quod potest fieri per pauciora

“Es inútil hacer con más lo que se puede hacer con menos”

Guillermo de Ockham (ca. 1286 - 1347)


William de Baskerville es una mezcla de William de Ockham, y “El sabueso de losBaskervilles”, libro de Arthur Conan Doyle cuyo protagonista es Sherlock Holmes.


ad