1 / 77

Regresszióanalízis

Informatikai Tudományok Doktori Iskola. Regresszióanalízis. Y. függőváltozó. X 1 , X 2 , ... X p. független változók. Y  f( X 1 , X 2 , ... X p ). f  F. becslés. E( Y - f * ( X 1 , X 2 , ... X p )) 2 = min E( Y - f( X 1 , X 2 , ... X p )) 2. f  F.

hal
Download Presentation

Regresszióanalízis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informatikai Tudományok Doktori Iskola Regresszióanalízis

  2. Y függőváltozó X1, X2, ... Xp függetlenváltozók Y f(X1, X2, ... Xp ) fF becslés E(Y- f*(X1, X2, ... Xp ))2 = min E(Y- f(X1, X2, ... Xp ))2 fF A regressziószámítás alapproblémája Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk.

  3. Példák 1. A Duna vízállásának előrejelzése Budapesten 2. A paradicsom beérési idejének becslése 3. Műholdkép alapján a búza terméshozamának becslése 4. Műholdkép alapján a Mars vastartalmának becslése 5. Predikciók, trendek idősoroknál 6. Lineáris közgazdasági modellek

  4. A regressziószámítás alapproblémája Ha ismerjük az Y és az X1, X2, ... Xp együttes eloszlását, akkor a probléma elméletileg megoldott: f (X1, X2, ... Xp ) = E ( Y | X1, X2, ... Xp ). Gyakorlatban azonban „csak” egy adatmátrix adott:

  5. Feltételes várható érték, folytonos esetI.

  6. Feltételes várható érték, folytonos esetII.

  7. Feltételes várható érték, folytonos esetIII.

  8. A regresszió tulajdonságai Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni!

  9. Regresszió normális eloszlás esetén Normális komponensek esetén a regressziós összefüggés lineáris!

  10. Elméleti lineáris regresszió

  11. Elméleti lineáris regresszió Láttuk, hogyha X,Y együttes eloszlása normális, akkor a regresszió lineáris lesz!

  12. A regressziószámítás alapproblémája F = {f(x1,x2,…,xp, a,b,c,… | a, b, c, … valós paraméterek} A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél:  n  min h(a,b,c,...) = (Yi- f(X1i, X2i, ..., Xpi, a,b,c,... ))2 a,b,c,... i=1 Ez a legkisebb négyzetek módszere!

  13. A regresszióanalízis fajtái • Lineáris regresszió f(X) = B0 + B1 X • Többváltozós lineáris regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X1 + B2 X2+...+ Bp Xp • Polinomiális regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X + B2 X2+...+ BpXp X1=X, X2=X2, ... , Xp=Xp • Kétparaméteres (lineárisra visszavezethető) regresszió pl. Y=f(X) = Bo·e B1 X  lnY = B1 X + ln Bo

  14. A regresszióanalízis fajtái • Nemlineáris regressziók két változó között I. f(X ) = B1 + B2 exp(B3X ) aszimptotikus I. f(X ) = B1 - B2 · (B3 )X aszimptotikus II. sűrűség f(X ) = (B1 + B2 X )-1/B3 f(X ) = B1 · (1- B3 · exp(B2X 2)) Gauss f(X ) = B1 · exp( - B2 exp( - B3X 2))) Gompertz Johnson-Schumacher f(X ) = B1 · exp( - B2 /(X + B3 ))

  15. A regresszióanalízis fajtái • Nemlineáris regressziók két változó között II. log-módosított f(X) = (B1 + B3 X)B2 log-logisztikus f(X) = B1 - ln(1 + B2 exp( - B3X ) f(X) = B1 + B2 exp( - B3X ) Metcherlich f(X) = B1 · X / (X + B2 ) Michaelis Menten f(X) = (B1 B2 +B3XB4)/(B2 + XB4 ) Morgan-Merczer-Florin f(X) = B1 /(1+B2 exp( - B3X +B4X2 + B5X3 )) Peal-Reed

  16. A regresszióanalízis fajtái • Nemlineáris regressziók két változó között III. f(X) = (B1 + B2X +B3X2 + B4X3)/ B5X3 köbök aránya f(X) = (B1 + B2X +B3X2 )/ B4X2 négyzetek aránya Richards f(X) = B1/((1+B3 · exp(B2X))(1/B4) Verhulst f(X) = B1/((1+B3 · exp(B2X)) Von Bertalanffy f(X) = (B1(1-B4) · B2 exp( - B3X))1/(1-B4) f(X) = B1 - B2 exp( -B3XB4) Weibull f(X) = 1/(B1 + B2X +B3X2 ) Yield sűrűség

  17. A regresszióanalízis fajtái • Szakaszonkénti lineáris regresszió

  18. A regresszióanalízis fajtái • Poligoniális regresszió

  19. A regresszióanalízis fajtái • Többváltozós lineáris regresszió kategória-változóval

  20. { 1, ha az A esemény bekövetkezik Y= 0, ha az A esemény nem következik be A regresszióanalízis fajtái • Logisztikus regresszió Y dichotóm • A választó fog szavazni • A páciensnek szívinfarktusa lesz • Az üzletet meg fogják kötni A esemény X1 , X2 ,...,Xp ordinális szintű független változók • eddig hányszor ment el, kor, iskola, jövedelem • napi cigi, napi pohár, kor, stressz • ár, mennyiség, piaci forgalom, raktárkészlet

  21. 1 P(Y=1) = P(A)  ————— 1 - e-Z Z = B0 + B1 X1 + B2 X2+...+ Bp Xp P(A)  ODDS = —————  e Z 1 - P(A) log (ODDS) = Z = B0 + B1 X1 + B2 X2+...+ Bp Xp A regresszióanalízis fajtái • Logisztikus regresszió

  22. A legnagyobb valószínűség elve L(1,2,...,n) = P(Y1= 1, Y2= 2, ... , Yn= n) = = P(Y1= 1) P(Y2= 2)  P(Yn= n)  1 1 1 ———— ———— ————  · · ·  1 - e-Zn 1 - e-Z1 1 - e-Z2  ( ) ln L(1,2,...,n) = 1 ln —————————————— 1 - exp (B0 + B1 X1 + B2 X2+...+ Bp Xp) A regresszióanalízis fajtái • Logisztikus regresszió

  23. Lineáris regresszió A lineáris kapcsolat kitüntetett: (1) a legegyszerűbb és leggyakoribb, könnyű a két paramétert értelmezni (2) két dimenziós normális eloszlás esetén a kapcsolat nem is lehet más (vagy lineáris vagy egyáltalán nincs)

  24. Lineáris regresszió Az empirikus lineáris regresszió együtthatóit a legkisebb négyzetek módszerével kaphatjuk meg: Az empirikus lineáris regresszió együtthatói az elméleti regressziós egyenes együtthatóitól annyiban különböznek, hogy a képletekben az elméleti momentumok helyett a mintából számolt megfelelő empirikus momentumok állnak:

  25. Lineáris regresszió A teljes négyzetösszeg A maradékösszeg A regressziós összeg

  26. ( x, ) A lineáris regresszió Q= Qres + Qreg (xi, yi ) y res (xi, ) reg = b + a xi x 0

  27. A lineáris regresszió A teljes négyzetösszeg felbontása: Q = Qres + Qreg fres szabadsági foka mindössze 1, mert az átlag konstans freg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van. Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2) szabadsági fokú F eloszlást követ.

  28. (x5, y5) e5 e5 (x3, y3) e4 e4 e3 e3 (x1, y1) (x4, y4) e2 e2 e1 e1 (x2, y2) A lineáris regresszió A legkisebb négyzetek módszere alapelve: y = b + a xi (x5, y5) (x3, y3) (x1, y1) (x4, y4) (x2, y2) 0 x

  29. A lineáris regresszió Megjegyzések: 1. 2.

  30. A lineáris regresszió Tervezett (determinisztikus) megfigyelés Főleg műszaki alkalmazasokban gyakori, hogy a méréseket Y-ra előírt xbeálltásoknál végzik el, és így keresik az ismeretlen Y~f(x) függvénykapcsolatot. A modell ilyenkor az, hogy Y= f(x) +, ahol a mérési hibát jelentő valószínűségi változó, melyre E = 0 és 2 véges.

  31. Gauss-Markov-tétel

  32. függvények, amivel Amennyiben találhatók olyan alkalmas a probléma linearizálható: Lineárisra visszavezethető kétparaméteres regresszió A trükkel nem az eredeti minimalizálási feladat megoldását kapjuk meg, csak attól nem túl messze eső közelítéseket!

  33. Lineárisra visszavezethető kétparaméteres regresszió exponenciális függvénykapcsolat: „growth” függvény: „compoud” függvény:

  34. Lineárisra visszavezethető kétparaméteres regresszió hatványfüggvény: Arrhenius:

  35. Lineárisra visszavezethető kétparaméteres regresszió reciprok: racionális:

  36. Lineárisra visszavezethető kétparaméteres regresszió homogén kvadratikus: logaritmikus: hiperbolikus:

  37. Linearizálás, pl.

  38. Polinomiális regresszió A polinomiális regressziós feladatot többváltozós lineáris regresszióval oldhatjuk meg, a prediktor változók ilyenkor az X változó hatványai: Xi=X i!

  39. Polinomiális regresszió

  40. Polinomiális regresszió

  41. A többváltozós lineáris regresszió A független változók azon lineáris kombinációját keressük, amelynél a függőváltozót legkisebb négyzetes hibával tudjuk közelíteni:

  42. A többváltozós lineáris regresszió Az együtthatók meghatározása a legkisebb négyzetek módszerével:

  43. A többváltozós lineáris regresszió

  44. A többváltozós lineáris regresszió Szórásanalízis (ANOVA) a modell érvényességének eldöntésére A nullhipotézis az, hogy a független változók mindegyike 0, vagyis egyik prediktor változó sem magyarázza a célváltozót! F-próbával dönthetünk a nullhipotézisről.

  45. A többváltozós lineáris regresszió Béta-együtthatók A béta-együtthatók egyfajta szempontból minősítik a változók fontosságát a lineáris összefüggésben. Ha egy változónak nagy az együtthatója abszolút értékben, akkor fontos, ha kicsi, kevésbé fontos . az i-edik regressziós együttható, az i-edik változó standard szórása, a célváltozó standard szórása.

  46. A többváltozós lineáris regresszió R2 (coefficient of determination) meghatározottsági együttható Ha csak egy magyarázó változó van, akkor R2 éppen a korrelációs együttható négyzete! Megmutatja, hogy a lineáris regresszióval a célváltozó varianciájának mekkora hányadát lehet magyarázni

  47. A többváltozós lineáris regresszió Az R2 érték megmutatja a lineáris kapcsolat mértékét

  48. A többváltozós lineáris regresszió Korrigált (adjusztált) meghatározottsági mutató A korrekció azért szükséges, mert újabb változók bevonásával R2 automatikusan nő, és túl optimista képet mutat a modell illeszkedéséről. Az adjusztált változatban „büntetjük” a túl sok változó bevonását a modellbe. p=1 esetben nem korrigálunk. p a független változók száma

  49. A többváltozós lineáris regresszió Modell-építési technikák Egy tipikus többváltozós lineáris regressziós problémánál adott az Y célváltozó és nagy számú X1, X2,…, Xp magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amik bekerülnek, és melyek azok, amik nem kerülnek majd be a modellbe. Ha minden lehetséges kombinációt ki akarnánk próbálni, akkor összesen Már 4 változó esetén 15 modellt kellene illesztenünk! modellillesztést kellene elvégeznünk!

  50. A többváltozós lineáris regresszió Modell-építési technikák Nyilván szűkítenünk kell kell az illesztendő modellek számát! Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést.

More Related