Download
1 / 32

Нелинейная регрессия. - PowerPoint PPT Presentation


  • 300 Views
  • Uploaded on

Для нелинейной регрессии используются различные функции: синусоида , показательная , гиперболическая. Чаще всего полиномы низких степеней. Коэффициенты ( ) рассчитываются методом наименьших квадратов.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Нелинейная регрессия.' - prue


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Для нелинейной регрессии используются различные функции:

синусоида , показательная ,

гиперболическая

Чаще всего полиномы низких степеней

Коэффициенты ( ) рассчитываются методом наименьших квадратов

изменяется от 0 до 1 и характеризует долю дисперсии, «объяснённую» регрессионной функцией в общей дисперсии.

Нелинейная регрессия.

Степень нелинейной зависимости оценивается корреляционным отношением


- количество наблюдений используются различные функции:

- количество коэффициентов в уравнении регрессии

Выбор порядка полинома при аппроксимации

нелинейной зависимости.

Критерием выбора наилучшего порядка полинома является

дисперсия отклонений фактических значений от теоретических



Многомерная модель. статистическая модель.

Многомерная статистическая модель состоит из совокупности множества сопряженных случайных величин (называемых многомерными случайными векторами) и выражается матрицей свойств размером kn:

(n – число наблюдений; k – число свойств).

В основе многомерной статистической модели лежит гипотеза о том, что измеренные значения являются независимыми случайными величинами (векторами), т.е. строки матрицы можно располагать в любом порядке.

Между столбцами матрицы связь может присутствовать.

Многомерная случайная величина изображается точкой в многомерном признаковом пространстве.


Обобщением ковариации двух величин:

является матрица дисперсий и ковариаций:

Обобщением корреляции двух величин:

является матрица корреляаций:


В многомерной модели существуют величин:

частные и множественные коэффициенты корреляции

Частные коэффициенты корреляции:

где

- частный коэффициент корреляции между случайными величинами x и y при контроле случайной величины z

- коэффициенты линейной корреляции Пирсона между случайными величинами x и у, xи z, yи z.

Значимость частного коэффициента корреляции проверяется с помощью t-критерия. В простейшем случае

(число степеней свободы = n-3).

Частные коэффициент корреляции позволяют исключить влияниена корреляцию между двумя величинами третьей величины (или множества других величин) в многомерногной модели.

Частные коэффициенты корреляции могут оказаться полезными для выявления ложных связей (наведённых корреляций).


Частные коэффициенты корреляции величин:

матрица парных коэффициентов линейной корреляции Пирсона

частный коэффициент корреляции между Ag и Zn после исключения влияния Pb

Ag

0.81

0.45

Pb

Zn

0.61

Корреляция между Ag и Zn возможно является наведённойкорреляцией между Pb и Zn


Частные коэффициенты корреляции величин:

Матрица парных коэффициентов линейной корреляции Пирсона

Частные корреляции

Корреляции Pb-Cd, Ag-Cd, Ag-Zn возможно являются ложными.


Множественная линейная регрессия. Коэффициент множественной корреляции.

Модель множественной регрессии:

зависимая переменная

свободный член

коэффициенты регрессии

независимые переменные

ошибка

количество независимых переменных.

Назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами, предикторами, факторами) и зависимой переменной (откликом).


Множественная регрессия позволяет

более точно прогнозировать зависимую переменную:

множественная линейная регрессия

простая линейная регрессия

дисперсия ошибки

корреляционное отношение


Кроме того, множественная регрессия даёт возможность оценить относительный вклад каждой независимой переменной (каждого предиктора) в предсказание зависимой переменной:


65,9367 - регрессия даёт возможность оценить относительный вклад каждой независимой переменной (каждого предиктора) в предсказание зависимой переменной:58,6503 = 7,2864

Коэффициенты регрессии biназываются частными коэффициентами регрессии.

Они показывают, насколько изменяется зависимая переменная yi при увеличении соответствующего фактора xi на единицу шкалы его измерения при фиксированных (постоянных) значениях других факторов, входящих в уравнение регрессии:


– стандартный коэффициент регрессии переменной

– частный коэффициент регрессии переменной

- оценка стандартного отклонения переменной

- оценка стандартного отклонения зависимой переменной

Коэффициенты регрессии biнепосредственно не сопоставимы между собой, так как зависят от единиц измерения факторов xi.

Чтобы сделать эти коэффициенты сопоставимыми, вычисляют стандартные коэффициенты регрессии (Бета-коэффициенты):

Частные коэффициенты регрессии используются для расчёта величины зависимой переменной (для предсказания её значения при заданных значениях независимых переменных xi).

Стандартизированные коэффициенты регресси позволяют оценить относительный вклад (влияние) каждой независимой переменной на зависимую переменную.

Наибольшее вклад вносит Pb, затем Zn. Вклад Cd несущественный.

Если исходные данные стандартизировать, то частные коэффициенты регрессии будут равны стандартным.


- регрессии переменной i-oe значение зависимой переменной, расчитанное по уравнению регрессии

- измеренное (наблюдаемое) значение i-oй переменной

- среднее значение зависимой переменной

- количество независимых переменных

- количество наблюдений (объём выборки)

Проверка адекватности модели множественной регрессии.

Значимость регрессиипроверяется с помощью дисперсионного анализа:

Схема дисперсионного анализа для оценки значимости регрессии.

Значимость (адекватность) полученного соотношения считается установленой, если расчитанное значение F-критерия превысит критическое при заданном уровне значимости и степенях свободы числителя mи знаменателя n-m-1.


Величина называется регрессии переменной коэффициентом детерминации.

Величина называется множественным коэффициентом корреляции.

Проверка адекватности модели множественной регрессии.

Коэффициент детерминации характеризует ту долю изменчивостивости зависимой переменной, которую «объясняет» регрессия.

может принимать значения от 0 (полное отсутствие связи) до 1 (функциональная зависимость).

Чем больше значение коэффициента детерминации, тем надёжнее оценки зависимой переменной.


Проверка адекватности модели множественной регрессии.

Оценка значимости коэффициентов регрессии осуществляется с помощью t- критерия Стьюдента:

Параметр модели регрессии признается статистически значимым, если рассчитанное значение tпревысит критическое при заданном уровне значимости α и числе степеней свободы k =n-m-1 (n- объём выборки, m – количество независимых переменных), т.е при выполнении неравенства:

- оценка дисперсии коэффициента регрессии:

оценка дисперсии зависимой переменной

оценка дисперсии i-ой независимой переменной

количество наблюдений

коэффициент детерминации


В рассматриваемом примере коэффициент при Cd незначим.


Ag коэффициент при

Cd

Pb

Zn

Предположения и ограничения множественной регрессии.

Предположение линейности.

Предполагается, что связь между переменными является линейной. На практике это предположение никогда не может быть подтверждено;

Процедуры множественного регрессионного анализа в незначительной степени подвержены воздействию малых отклонений от этого предположения. Однако всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов.


Предположения и ограничения множественной регрессии.

Предположение нормальности.

В множественной регрессии предполагается, что остатки (предсказанные значения минус наблюдаемые) распределены нормально. Хотя большинство тестов (в особенности F-тест) довольно устойчивы по отношению к отклонениям от этого предположения, прежде чем сделать окончательные выводы, стоит рассмотреть гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения.


Ограничения множественной регрессии.

Основное концептуальное ограничение всех методов регрессионного анализа состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются.


Выбор числа переменных. регрессии.

Множественная регрессия - предоставляет пользователю "соблазн" включить в качестве предикторов все переменные, какие только можно, в надежде, что некоторые из них окажутся значимыми.

Большинство авторов советуют использовать, по крайней мере, от 10 до 20 наблюдений на одну переменную, в противном случае оценки регрессионной линии будут, вероятно, очень ненадежными и, скорее всего, невоспроизводимыми для желающих повторить это исследование.

Проблема размерности модели связи (уравнения регрессии) - одна из основных проблем построения множественного уравнения регрессии.

Она решается на основе эвристических или многомерных статистических методов анализа. К ним относятся: метод экспертных оценок, шаговая регрессия, анализ на мультиколлинеарность.


Шаговый регрессионный анализ. регрессии.

позволяет выбрать наиболее информативные предикторы.

Существуют 2 схемы шаговой множественной регрессии:

Пошаговая с включением:

первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д.

Пошаговая с исключением:

после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент доверия t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы пошаговой регрессии следует иметь в виду негативные последствия мулътиколлинеарности.


Мультиколлинеарность. регрессии.

Под мультиколлинеарностью понимается высокая корреляция между независимыми переменными (факторами), включенными в модель.

Наличие мультиколлинеарности между признаками приводит к:

завышению параметров модели

снижению точности оценок регрессионных коэффициентов (стандартные ошибки коэффициентов получаются слишком большими);

невозможности оценить статистическую значимость коэффициентов регрессии с помощью t –критерия и, как следствие, некорректное введение в анализ тех или иных переменных;

резкому возрастанию чувствительности коэффициентов регрессии к особенностям исходных данных, так что добавление, например, небольшого числа наблюдений может привести к сильным сдвигам в значениях βi


В решении проблемы мультиколлинеарности можно выделить несколько этапов:

- установление наличия мультиколлинеарности;

- определение причин возникновения мультиколлинеарности;

- устранение мультиколлинеарности.

Индикатором возникновения мультиколлинеарности между независимыми признаками (предикторами) является превышение парным коэффициентом корреляции величины 0.8.

В модуле множественной регрессии пакета STATISTICA имеется возможность оценить независимые переменные на мультиколлинеарность:

Толерантность = 1 – R2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 0 указывает на мультиколлинеарность.

R-квадр. = R2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 1 указывает на мультиколлинеарность.

Частная корр. – коэффициент частной корреляции между соответствующей переменной и зависимой переменной после учета влияния всех остальных независимых переменных в уравнении.

Получастная корр. – доля дисперсии, объясняемая соответствующей переменной в общей дисперсии зависимой переменной Y.


В качестве метода борьбы с мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции.

Существует несколько численных методов расчета параметра, но чаще используют простой эмпирический подход: выбирают такой параметр λ, при котором коэффициенты стабилизируются и при дальнейшем увеличении параметра изменяются мало. Значение принятого параметра λ является мерой смещения оценок от истинного значения, поэтому стараются не придавать λ слишком больших значений. Обычно λ выбирают меньше 0,5, а шаг при подборе выбирают небольшим, например, 0,02.


- наблюдаемое значение мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции.

- предсказанное значение

Оценка существенности связи

Если средняя ошибка аппроксимации A не превышает 12 - 15%,

то уравнение построено верно.

При проверке адекватности уравнения регрессии исследуемому процессу возможны следующие варианты:

1. Построенная модель на основе ее проверки по критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений к осуществлению прогнозов.

2. Модель по критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для прогнозов.

3. Модель по критерию Фишера адекватна, но все коэффициенты регрессии незначимы. Модель в этом случае отвергается. На ее основе никаких решений принимать нельзя.


Отрицательным свойством мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции. уравнений регрессии является то, что

хорошо аппроксимируются только те значения результативного признака, которые стоят в середине вариационного ряда индивидуальных значений. Ошибка аппросимации не превышает 1 - 2%;

Ошибка аппроксимации на концах исходного ряда может достигать 50%;


Кнопка мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции. Анализ остатков запускает процедуру всестороннего анализа остатков регрессионного уравнения (рис. ). Остатки - это разности между опытными и предсказанными значениями зависимой переменной в построенной регрессионной модели.

Рис.39 . Диалоговое окно (Анализ остатков)

Вкладка Выбросы (Redundancy) предназначена для поиска выбросов. Выбросы - это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками измерения или ввода данных. Для выделения имеющихся в регрессионных остатках выбросов предложен ряд показателей:

Расстояния Кука (Cook's Distance) - это мера влияния соответствующего наблюдения на уравнение регрессии. Эта величина показывает разницу между вычисленными β-коэффициентами и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.

Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности. Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра. Эта "средняя точка" в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.


Стандартизированные остатки мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции. - это стандартизованные значения остатков, вычисленные как разница между наблюдаемыми значениями и предсказанными, деленная на остаточную среднеквадратичную ошибку.

Удаленные остатки - это значения остатков для соответствующих наблюдений, которые были исключены из процедуры регрессионного анализа. Если удаленный остаток значительно отличается от соответствующего стандартизированного значения остатка, то, возможно, это наблюдение является выбросом, поскольку его исключение существенно изменяет уравнение регрессии.

Средства борьбы с выбросами. Целью всех описанных статистик является обнаружение выбросов. Напомним, что, особенно при малых N (меньших 100), оценки множественной регрессии (B-коэффициенты) не являются устойчивыми. Другими словами, отдельные экстремальные наблюдения могут оказать значительное влияние на окончательные оценки. Следовательно, желательно всегда просматривать эти статистики (используя эти или описанные далее опции) и повторить полный регрессионный анализ вновь после удаления всех выбросов. Другой альтернативой является проведение анализа данных, используя регрессию, основанную на абсолютных отклонениях, а не на квадратах отклонений, тем самым ослабляется влияние выбросов. Модуль Нелинейного оценивания позволяет провести такого рода анализ.


Внимательный анализ остатков позволяет оценить адекватность модели. Остатки должны быть нормально распределены, со средним значением равным нулю и постоянной, независимо от величин зависимой и независимой переменных, дисперсией.

О нормальности остатков можно судить по графику остатков на нормальной вероятностной бумаге. Чем ближе распределение к нормальному виду, тем лучше значения остатков ложатся на прямую линию.

Важно просмотреть графики зависимости остаток от каждой из независимых переменных. Их легко просмотреть при помощи кнопки Остатки и независимые переменные (Resids & indep. var.). Остатки должны быть нормально распределены, т.е. на графике они должны представлять приблизительно горизонтальную полосу одинаковой ширины на всем ее протяжении. Коэффициент корреляции (r) между регрессионными остатками и переменными должен равняться нулю.


Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК.

Рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин ei,i=1,2,…n.. Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона


ad