Informatikai tudom nyok doktori iskola
This presentation is the property of its rightful owner.
Sponsored Links
1 / 77

Regresszióanalízis PowerPoint PPT Presentation


  • 54 Views
  • Uploaded on
  • Presentation posted in: General

Informatikai Tudományok Doktori Iskola. Regresszióanalízis. Y. függőváltozó. X 1 , X 2 , ... X p. független változók. Y  f( X 1 , X 2 , ... X p ). f  F. becslés. E( Y - f * ( X 1 , X 2 , ... X p )) 2 = min E( Y - f( X 1 , X 2 , ... X p )) 2. f  F.

Download Presentation

Regresszióanalízis

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Informatikai tudom nyok doktori iskola

Informatikai Tudományok Doktori Iskola

Regresszióanalízis


Regresszi anal zis

Y

függőváltozó

X1, X2, ... Xp

függetlenváltozók

Y f(X1, X2, ... Xp )

fF

becslés

E(Y- f*(X1, X2, ... Xp ))2 = min E(Y- f(X1, X2, ... Xp ))2

fF

A regressziószámítás alapproblémája

Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk.


Regresszi anal zis

Példák

1. A Duna vízállásának előrejelzése Budapesten

2. A paradicsom beérési idejének becslése

3. Műholdkép alapján a búza terméshozamának becslése

4. Műholdkép alapján a Mars vastartalmának becslése

5. Predikciók, trendek idősoroknál

6. Lineáris közgazdasági modellek


Regresszi anal zis

A regressziószámítás alapproblémája

Ha ismerjük az Y és az X1, X2, ... Xp együttes eloszlását, akkor a probléma elméletileg megoldott:

f (X1, X2, ... Xp ) = E ( Y | X1, X2, ... Xp ).

Gyakorlatban azonban „csak” egy adatmátrix adott:


Regresszi anal zis

Feltételes várható érték, folytonos esetI.


Regresszi anal zis

Feltételes várható érték, folytonos esetII.


Regresszi anal zis

Feltételes várható érték, folytonos esetIII.


Regresszi anal zis

A regresszió tulajdonságai

Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni!


Regresszi anal zis

Regresszió normális eloszlás esetén

Normális komponensek esetén a regressziós összefüggés lineáris!


Regresszi anal zis

Elméleti lineáris regresszió


Regresszi anal zis

Elméleti lineáris regresszió

Láttuk, hogyha X,Y együttes eloszlása normális, akkor a regresszió lineáris lesz!


Regresszi anal zis

A regressziószámítás alapproblémája

F = {f(x1,x2,…,xp, a,b,c,… | a, b, c, … valós paraméterek}

A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél:

n

 min

h(a,b,c,...) =

(Yi- f(X1i, X2i, ..., Xpi, a,b,c,... ))2

a,b,c,...

i=1

Ez a legkisebb négyzetek módszere!


Regresszi anal zis

A regresszióanalízis fajtái

  • Lineáris regresszió

f(X) = B0 + B1 X

  • Többváltozós lineáris regresszió

f(X1 , X2 ,...,Xp ) = B0 + B1 X1 + B2 X2+...+ Bp Xp

  • Polinomiális regresszió

f(X1 , X2 ,...,Xp ) = B0 + B1 X + B2 X2+...+ BpXp

X1=X, X2=X2, ... , Xp=Xp

  • Kétparaméteres (lineárisra visszavezethető) regresszió

pl. Y=f(X) = Bo·e B1 X  lnY = B1 X + ln Bo


Regresszi anal zis

A regresszióanalízis fajtái

  • Nemlineáris regressziók két változó között I.

f(X ) = B1 + B2 exp(B3X )

aszimptotikus I.

f(X ) = B1 - B2 · (B3 )X

aszimptotikus II.

sűrűség

f(X ) = (B1 + B2 X )-1/B3

f(X ) = B1 · (1- B3 · exp(B2X 2))

Gauss

f(X ) = B1 · exp( - B2 exp( - B3X 2)))

Gompertz

Johnson-Schumacher

f(X ) = B1 · exp( - B2 /(X + B3 ))


Regresszi anal zis

A regresszióanalízis fajtái

  • Nemlineáris regressziók két változó között II.

log-módosított

f(X) = (B1 + B3 X)B2

log-logisztikus

f(X) = B1 - ln(1 + B2 exp( - B3X )

f(X) = B1 + B2 exp( - B3X )

Metcherlich

f(X) = B1 · X / (X + B2 )

Michaelis Menten

f(X) = (B1 B2 +B3XB4)/(B2 + XB4 )

Morgan-Merczer-Florin

f(X) = B1 /(1+B2 exp( - B3X +B4X2 + B5X3 ))

Peal-Reed


Regresszi anal zis

A regresszióanalízis fajtái

  • Nemlineáris regressziók két változó között III.

f(X) = (B1 + B2X +B3X2 + B4X3)/ B5X3

köbök aránya

f(X) = (B1 + B2X +B3X2 )/ B4X2

négyzetek aránya

Richards

f(X) = B1/((1+B3 · exp(B2X))(1/B4)

Verhulst

f(X) = B1/((1+B3 · exp(B2X))

Von Bertalanffy

f(X) = (B1(1-B4) · B2 exp( - B3X))1/(1-B4)

f(X) = B1 - B2 exp( -B3XB4)

Weibull

f(X) = 1/(B1 + B2X +B3X2 )

Yield sűrűség


Regresszi anal zis

A regresszióanalízis fajtái

  • Szakaszonkénti lineáris regresszió


Regresszi anal zis

A regresszióanalízis fajtái

  • Poligoniális regresszió


Regresszi anal zis

A regresszióanalízis fajtái

  • Többváltozós lineáris regresszió kategória-változóval


Regresszi anal zis

{

1, ha az A esemény bekövetkezik

Y=

0, ha az A esemény nem következik be

A regresszióanalízis fajtái

  • Logisztikus regresszió

Y

dichotóm

  • A választó fog szavazni

  • A páciensnek szívinfarktusa lesz

  • Az üzletet meg fogják kötni

A esemény

X1 , X2 ,...,Xp

ordinális szintű független változók

  • eddig hányszor ment el, kor, iskola, jövedelem

  • napi cigi, napi pohár, kor, stressz

  • ár, mennyiség, piaci forgalom, raktárkészlet


Regresszi anal zis

1

P(Y=1) = P(A)  —————

1 - e-Z

Z = B0 + B1 X1 + B2 X2+...+ Bp Xp

P(A)

ODDS = —————

 e Z

1 - P(A)

log (ODDS) =

Z = B0 + B1 X1 + B2 X2+...+ Bp Xp

A regresszióanalízis fajtái

  • Logisztikus regresszió


Regresszi anal zis

A legnagyobb valószínűség elve

L(1,2,...,n) = P(Y1= 1, Y2= 2, ... , Yn= n) =

= P(Y1= 1) P(Y2= 2)  P(Yn= n) 

1

1

1

————

————

————

·

·

·

1 - e-Zn

1 - e-Z1

1 - e-Z2

(

)

ln L(1,2,...,n) =

1

ln

——————————————

1 - exp (B0 + B1 X1 + B2 X2+...+ Bp Xp)

A regresszióanalízis fajtái

  • Logisztikus regresszió


Regresszi anal zis

Lineáris regresszió

A lineáris kapcsolat kitüntetett:

(1) a legegyszerűbb és leggyakoribb, könnyű a két paramétert értelmezni

(2) két dimenziós normális eloszlás esetén

a kapcsolat nem is lehet más

(vagy lineáris vagy egyáltalán nincs)


Regresszi anal zis

Lineáris regresszió

Az empirikus lineáris regresszió együtthatóit a legkisebb négyzetek módszerével kaphatjuk meg:

Az empirikus lineáris regresszió együtthatói az elméleti regressziós egyenes együtthatóitól annyiban különböznek, hogy a képletekben az elméleti momentumok helyett a mintából számolt megfelelő empirikus momentumok állnak:


Regresszi anal zis

Lineáris regresszió

A teljes négyzetösszeg

A maradékösszeg

A regressziós összeg


Regresszi anal zis

( x, )

A lineáris regresszió

Q= Qres + Qreg

(xi, yi )

y

res

(xi, )

reg

= b + a xi

x

0


Regresszi anal zis

A lineáris regresszió

A teljes négyzetösszeg felbontása:

Q = Qres + Qreg

fres szabadsági foka

mindössze 1, mert az átlag konstans

freg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van.

Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2)

szabadsági fokú F eloszlást követ.


Regresszi anal zis

(x5, y5)

e5

e5

(x3, y3)

e4

e4

e3

e3

(x1, y1)

(x4, y4)

e2

e2

e1

e1

(x2, y2)

A lineáris regresszió

A legkisebb négyzetek módszere alapelve:

y

= b + a xi

(x5, y5)

(x3, y3)

(x1, y1)

(x4, y4)

(x2, y2)

0

x


Regresszi anal zis

A lineáris regresszió

Megjegyzések:

1.

2.


Regresszi anal zis

A lineáris regresszió

Tervezett (determinisztikus) megfigyelés

Főleg műszaki alkalmazasokban gyakori, hogy a méréseket Y-ra előírt xbeálltásoknál végzik el, és így keresik az ismeretlen Y~f(x) függvénykapcsolatot. A modell ilyenkor az, hogy

Y= f(x) +, ahol a mérési hibát jelentő valószínűségi változó, melyre E = 0 és 2 véges.


Regresszi anal zis

Gauss-Markov-tétel


Regresszi anal zis

függvények, amivel

Amennyiben találhatók olyan alkalmas

a probléma linearizálható:

Lineárisra visszavezethető kétparaméteres regresszió

A trükkel nem az eredeti minimalizálási feladat megoldását kapjuk meg, csak attól nem túl messze eső közelítéseket!


Regresszi anal zis

Lineárisra visszavezethető kétparaméteres regresszió

exponenciális függvénykapcsolat:

„growth” függvény:

„compoud” függvény:


Regresszi anal zis

Lineárisra visszavezethető kétparaméteres regresszió

hatványfüggvény:

Arrhenius:


Regresszi anal zis

Lineárisra visszavezethető kétparaméteres regresszió

reciprok:

racionális:


Regresszi anal zis

Lineárisra visszavezethető kétparaméteres regresszió

homogén kvadratikus:

logaritmikus:

hiperbolikus:


Regresszi anal zis

Linearizálás, pl.


Regresszi anal zis

Polinomiális regresszió

A polinomiális regressziós feladatot többváltozós lineáris regresszióval oldhatjuk meg, a prediktor változók ilyenkor az X változó hatványai: Xi=X i!


Regresszi anal zis

Polinomiális regresszió


Regresszi anal zis

Polinomiális regresszió


Regresszi anal zis

A többváltozós lineáris regresszió

A független változók azon lineáris kombinációját keressük, amelynél a függőváltozót legkisebb négyzetes hibával tudjuk közelíteni:


Regresszi anal zis

A többváltozós lineáris regresszió

Az együtthatók meghatározása a legkisebb négyzetek módszerével:


Regresszi anal zis

A többváltozós lineáris regresszió


Regresszi anal zis

A többváltozós lineáris regresszió

Szórásanalízis (ANOVA) a modell érvényességének eldöntésére

A nullhipotézis az, hogy a független változók mindegyike 0, vagyis egyik prediktor változó sem magyarázza a célváltozót!

F-próbával dönthetünk a nullhipotézisről.


Regresszi anal zis

A többváltozós lineáris regresszió

Béta-együtthatók

A béta-együtthatók egyfajta szempontból minősítik a változók fontosságát a lineáris összefüggésben. Ha egy változónak nagy az együtthatója abszolút értékben, akkor fontos, ha kicsi, kevésbé fontos .

az i-edik regressziós együttható,

az i-edik változó standard szórása,

a célváltozó standard szórása.


Regresszi anal zis

A többváltozós lineáris regresszió

R2 (coefficient of determination) meghatározottsági együttható

Ha csak egy magyarázó változó van, akkor R2 éppen a korrelációs együttható négyzete!

Megmutatja, hogy a lineáris regresszióval a célváltozó varianciájának mekkora hányadát lehet magyarázni


Regresszi anal zis

A többváltozós lineáris regresszió

Az R2 érték megmutatja a lineáris kapcsolat mértékét


Regresszi anal zis

A többváltozós lineáris regresszió

Korrigált (adjusztált) meghatározottsági mutató

A korrekció azért szükséges, mert újabb változók bevonásával R2 automatikusan nő, és túl optimista képet mutat a modell illeszkedéséről. Az adjusztált változatban „büntetjük” a túl sok változó bevonását a modellbe. p=1 esetben nem korrigálunk.

p a független változók száma


Regresszi anal zis

A többváltozós lineáris regresszió

Modell-építési technikák

Egy tipikus többváltozós lineáris regressziós problémánál adott az Y célváltozó és nagy számú X1, X2,…, Xp magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amik bekerülnek, és melyek azok, amik nem kerülnek majd be a modellbe.

Ha minden lehetséges kombinációt ki akarnánk próbálni, akkor összesen

Már 4 változó esetén 15 modellt kellene illesztenünk!

modellillesztést kellene elvégeznünk!


Regresszi anal zis

A többváltozós lineáris regresszió

Modell-építési technikák

Nyilván szűkítenünk kell kell az illesztendő modellek számát!

Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést.


Regresszi anal zis

A többváltozós lineáris regresszió

Modell-építési technikák

  • Automatikus modellépítési technikák:

  • STEPWISE

  • FOREWARD

  • BACKWARD

  • REMOVE

A felhasználónak csak az indulási magyarázó változó listát kell specifikálnia, az SPSS program ebből választva állít elő „jó” modelleket, amik közül választhatunk „végső” megoldást.


Regresszi anal zis

A többváltozós lineáris regresszió

A parciális F-próba

Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n-p-1 szabadságfokú Fisher-eloszlást követ:

az új p változós modell meghatározottsági együtthatója,

a régi p-1 változós modell meghatározottsági együtthatója,


Regresszi anal zis

A p-edik változót akkor vonjuk be a modellbe, ha

ahol

olyan kritikus érték, hogy:

A többváltozós lineáris regresszió

A parciális F-próba


Regresszi anal zis

A többváltozós lineáris regresszió

FOREWARD modell-építés

Alulról építkező modellépítési eljárás.

Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb  szint tartozik.

A bevonási folyamat addig tart, amíg ez a legkisebb  szint egy beállított PIN korlát alatt marad.

Előnye, hogy viszonylag kevés magyarázó változó lesz a modellben, így könnyebb a modellt értelmezni.


Regresszi anal zis

A többváltozós lineáris regresszió

BACKWARD modell-építés

Felülről lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellből, amelynél parciális F-próbánál a legnagyobb  érték tartozik. Akkor állunk meg, ha az előre beállított POUT küszöbérték alá megy ez az .

A BACKWARD modellépítéssel viszonylag sok magyarázó változó marad benn a modellben.


Regresszi anal zis

A többváltozós lineáris regresszió

STEPWISE modell-építés

A FOREWARD eljárást úgy módosítjuk, hogy minden lépésben ellenőrizzük a modellbe korábban már bevont változókhoz tartozó  szignifikancia-szintet, és azt elhagyjuk, ahol ez a szint nagyobb mint POUT. Nem kerülünk végtelen ciklusba, ha PIN<POUT. (Szokásos beállítás: PIN=0,05 és POUT=0,10.


Regresszi anal zis

A többváltozós lineáris regresszió

REMOVE modell-építés

A REMOVE eljárás az ENTER beállításából indul ki, egyszerre hagy el változókat a modellből, összehasonlításként csak a konstans tagot tartalmazó modell eredményeit közli.


Regresszi anal zis

A többváltozós lineáris regresszió

Multikollinearitás

Multikollinearitáson a magyarázó változók között fellépő lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetőségét.

  • A multikollinearitás mérőszámai:

  • tolerancia

  • variancia infláló faktor (VIF)

  • kondíciós index (CI)

  • variancia hányad


Regresszi anal zis

A többváltozós lineáris regresszió

A multikollinearitás mérőszámai 1.

tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. Értéke 1-Ri2, ahol Riaz i-edik változónak a többivel vett lineáris regressziójának a korrelációs együtthatója, a többszörös korrelációs együttható.

A variancia infláló faktor (VIF) a tolerancia reciproka:

VIF=1/(1-Ri2). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1.


Regresszi anal zis

A többváltozós lineáris regresszió

A multikollinearitás mérőszámai 2.

A kondíciós index (CI) a magyarázó változók korrelációs mátrixának sajátértékeiből számolt statisztika. A legnagyobb és legkisebb sajátértékek hányadosának négyzetgyöke. A CI>15 esetében megállapítható az erős kollinearitás.

Variancia hányad is utalhat multikollinearitásra. Ha egy-egy nagy kondíciós index sorában több regressziós együtthatónak van magas variancia hányada. A regressziós együtthatók varianciáit a sajátértékek között szétosztjuk.


Regresszi anal zis

A többváltozós lineáris regresszió

A becslést befolyásoló pontok feltárása

A lineáris regressziós modell értékelésének fontos lépése az egyes adatpontok fontosságának feltárása.

Melyek azok az adatpontok, amelyek a végleges összefüggést legerősebben mutatják, erősítik, és melyek azok az ún. outlier pontok, melyek legkevésbé illeszkednek az adott regressziós összefüggésbe.


Regresszi anal zis

A többváltozós lineáris regresszió

A becslést befolyásoló pontok feltárása

A Y célváltozó és a lineáris becslés közötti kapcsolat:

A becslés hibavektora, maradékösszeg, regressziós összeg:


Regresszi anal zis

A többváltozós lineáris regresszió

A becslést befolyásoló pontok feltárása

a leverage (hatalom) vagy hat mátrix

A mátrix szimmetrikus, hii diagonális elemei azt mutatják, hogy az i-edik eset mekkora hatást fejt ki a regressziós becslésre.

az i-edik esetvektor

, ahol


Regresszi anal zis

A többváltozós lineáris regresszió

A becslést befolyásoló pontok feltárása

Az i-edik eset befolyása átlagos, ha

ezek a tipikus esetek!

Az i-edik eset befolyása jelentős, ha

az i-edik eset bevonható az elemzésbe

Ha

Ha

kockázatos az i-edik eset bevonása

az i-edik esetet ki kell hagyni, „outlier” pont


Regresszi anal zis

Közönséges reziduális:

Törölt reziduális:

Standardizált reziduális:

Belsőleg studentizált reziduális:

A többváltozós lineáris regresszió

A maradéktagok (reziduálisok) elemzése

A lineáris becslés elkészítésekor nem számolunk az i-edik esettel, „töröljük”.


Regresszi anal zis

A többváltozós lineáris regresszió

A maradéktagok (reziduálisok) elemzése

Heteroszkedaszticitás:

A maradéktagok nulla szint körüli szóródásának lehetséges típusai

a.) a szóródás megfelel a lineáris modellnek, b.) nem a lineáris modellhez tartoznak a maradéktagok,

c.) a szóródások nem azonosak, d.) a hibatagok nem függetlenek egymástól.


Regresszi anal zis

Példa kétváltozós lineáris regresszióra

Keressünk lineáris összefüggést az employee data állományban a kezdőfizetés és a jelenlegi fizetés között!


Regresszi anal zis

Példa kétváltozós lineáris regresszióra


Regresszi anal zis

Példa kétváltozós lineáris regresszióra


Regresszi anal zis

Példa kétváltozós lineáris regresszióra

a maradéktagok

Heteroszkedaszticitás jelensége megfigyelhető: nagyobb X-hez nagyobb szórás tartozik!


Regresszi anal zis

Példa kétparaméteres nemlineáris regresszióra

Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!


Regresszi anal zis

Példa kétparaméteres nemlineáris regresszióra


Regresszi anal zis

Példa kétparaméteres nemlineáris regresszióra


Regresszi anal zis

Példa kétparaméteres nemlineáris regresszióra


Regresszi anal zis

Példa kétparaméteres nemlineáris regresszióra


Regresszi anal zis

Példa többváltozós lineáris regresszióra

Végezzünk lineáris elemzést az employee data állományon! A jelenlegi fizetés legyen a célváltozó, a magyarázó változók a kezdőfizetés, alkalmazás ideje (jobtime) és a dolgozó kora legyen!


Regresszi anal zis

Példa többváltozós lineáris regresszióra

A konstans szerepe elhanyagolható a modellben.


  • Login