390 likes | 664 Views
Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ. Родионова Оксана Евгеньевна rcs@chph.ras.ru Институт химической физики РАН, Российское хемометрическое общество. ?. Модель Y(X). Модель Y(X). +. Качественный анализ Задачи
E N D
Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ Родионова ОксанаЕвгеньевна rcs@chph.ras.ru Институт химической физики РАН, Российское хемометрическое общество
? Модель Y(X) Модель Y(X) + • Качественный анализ • Задачи • Анализ структуры, поиск латентных переменных • Классификация и дискриминация линейная регрессионная модель Y=XA+E Два класса решаемых задач
предикторы ( независимые переменные ) отклики ( зависимые переменные ) n –количество образцов (наблюдений) p -количество переменных (факторов) Экспериментальные данные
Экспериментальные данные Обучающий набор Проверочный набор
Модельный пример Чистые спектры при CA=CB=1
? yiA xi i=1,..,9 Модельный пример
Карл Ф. Гаусс - 1795 Метод наименьших квадратов(простейший случай)
Одномерная градуировка y=xa+e R2C=0.796 R2C=0.469 R2P=0.778 R2P=0.012
Одномерная регрессия n=9, p=1 Множественная регрессия n=9, p=8
Среднеквадратичный остаток градуировки Среднеквадратичный остаток проверки Оценка качества модели
RMSEP=0.23 RMSEP=0.35 Множественная регрессия RMSEC=0 RMSEC=0
Представление данных в подпространстве
Модельный пример (РГК шаг 1) X=TPt + E nPC=2
RMSEP=0.054 (0.35) RMSEP=0.036 (0.23) Модельный пример (РГК шаг 2) RMSEC=0.077 (0) RMSEC=0.051 (0)
Множественная регрессия ПЛС - регрессия Три регрессионных метода Регрессия на главные компоненты (РГК)
Проекция на латентные структуры (ПЛС) Y X T U Q W P X=TPt + E Y=UQt + F t=Xw max|YtXw|2при условии |w|=1 XtYYtXw = w ( Herman Wold, 1973 & Agnar Höskuldsson, 1988 )
ПЛС 2 РГК Модельный пример (ПЛС)
Определение качества бензина по ИК-спектру в ближней области Исходные данные Обучающий набор = 26 образца Проверочный набор = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm)
«Тесто-вый набор» Выбор числа главных компонент …
Предварительная обработка данных
Измеряемые Глубина (Depth) Зольность (Ash) Влажность (Humidity) Об. вес (Weight) to летом (SummerT) to зимой (WinterT) Оцениваемые Линза (Lens = ± 1 ) Основа (Base = ± 1) Свалка Отклик Стабильность Mi=1–exp(-mTi)
линзы основа Обработка экспериментальных данных Качество градуировки График счетов
График нагрузок График счетов
Определение следовых концентраций нефти в воде Общее число образцов N =80 Число переменных P =1024 X (801024) Y : 0, 2.5, 5, 10, 20, 50, 100, 300 ppm. 40 обучающих образцов 40 проверочных образцов
y = log (1+yraw) Нелинейность в ПЛС модели X=TPt + E Y=UQt + F Ti – Ui показывают связь X-Y T это X-счета U это Y-счета
Моделирование и прогноз y=0.995x+0.006 R2=0.996
ПЛС прогноз В исходных единицах y : 0300 ppm RMSEC=0.12 RMSEP=0.24
Многомерные и многомодальные данные
Гиперспектральный анализ ... ... N-way данные ВЭЖХ-ДДМ Люминесцентный анализ
Определение активности антиоксидантов Метод развертки (unfolding)
N-way методы PARAFAC Tucker3
SIMCA-P Umetrics UscramblerCAMO MVA for ExcelBristol University PLS-Toolbox Eigenvector Matlab chemometrics.ru Программное обеспечение
Специальные журналы по хемометрике
Кострома 2002 Белокуриха 2003 Самара 2006 Пуш. Горы 2004 Черноголовка 2005 Winter Symposiums on Chemometrics
Шестой симпозиум по хемометрике Школа: 16-17 февраля 2008Конференция: 18-22 февраля 2008 Казань