732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel :

732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det inte är du) är något upprörd över att en ny amerikansk studie påstås visa att försäljningsresultat kan förbättras om lager är spridda geografiskt än om de är samlade till ett fåtal ställen. Inom företaget har man på senare år arbetat enligt det motsatta förhållandet. Chefen säger till dig: Du är ju en relativt nyutbildad ekonom. Har du inte läst statistik? Ditt svar blir förstås: Javisst! (även om du inombords blir en aning panikslagen) Chefen: Då så! Du kan väl ta och kolla upp den där studien. Jag är ganska säker på att det är trams det mesta, men för säkerhets skull…

Saxat ur “den amerikanska studien”: …The slopes are clearly significant, which tells us that it seems reasonable to assume that the covariates have a clear impact on the sales, especially when we have removed the units that were supposed to induce non-wanted intra-relationships between the predictors. The interpretation of the final model is that the mean result increases with approximately 2% per storage unit with a 99% error margin of 0.7%. There is some intra-annual variation, that might affect the predictions, especially in summer months… Ovanstående innehåller komponenter som alla har tagits upp på ett eller annat sätt i kursen. Vad borde du kunna göra i detta fall?

Naturligtvis läsa, förstå och kunna återge innehållet i den amerikanska studien. • Validera resultaten mot data ni har i ert eget företag, dvs. försöka upprepa vad amerikanerna har gjort men med egna data. • Kritiskt ifrågasätta sådant som är tveksamt i studien • Skall man verkligen ta bort observationer när de ger upphov till multikolinjäritetsproblem? • Skall man blanda rena regressionsmodeller med tidsseriemodeller innehållande säsongsmodellering? • Finns det problem med modellantagandena? • Återföra till “chefen” och endera bekräfta eller motbevisa hans uppfattning om att det mesta är “trams”

Den enkla linjära regressionen Ni skall kunna “för hand” räkna fram parameterskattningar, konfidensintervall, prognosintervall, korrelationskoefficienter, förklaringsgrader etc. − Varför skall vi kunna göra detta för hand när det i praktiken alltid görs med datorprogram? − Handräkningen visar att man förstår vad de olika komponenterna i en modell “står för”. Vad som är y, vad som är x, vad det är man skattar och vad det t.ex. är för skillnad på konfidens- och prognosintervall. Vidare är den enkla linjära regression grund för att även kunna räkna på enkla exponentiella modeller och elasticitetsmodeller. “Omsättning av formler” är nyttig att göra för att inte bli låst till att allt måste heta y och x.

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 1) I en omfattande studie har man undersökt ett urval om 10 koncerner med avseende pä deras affärsstrategier. I studien ställer man bl.a. frågor om graden av miljöinriktad affärsstrategi och frågorna ställs dels till en ansvarig person i koncernledningen, dels till en ansvarig person i den viktigaste affärsenheten i koncernen. En av de frågor som ställs är den övergripande (här i något förenklad form): Vilken grad av miljöinriktning bedömer du att ni har i er strategi? Låg O O O O O O O O O Hög Svarsskalan brukar kallas Likert-skala och är sådan att svarsstegen kan antas ligga lika långt från varandra (en s.k. intervallskala). Detta möjliggör användande av korrelations-koefficienter och regressionsmodeller vid analysarbetet. De erhållna svaren kodas med talen 1, 2, ..., 9 där 1 används för ett svar längst till vänster i skalan och 9 för ett svar längst till höger. Med hjälp av de inkomna svaren vill man försöka hitta ett regressionssamband där ett svar på koncernnivå förklaras av svaret på affärsenhetsnivå.

Följande kodade svar har erhållits: Koncern (i) Svar på koncernnivå (y) Svar på affärsenhetsnivå (x) 1 5 4 2 2 3 3 4 4 4 7 6 5 1 1 6 1 3 7 2 4 8 6 6 9 3 1 10 8 9 Följande har beräknats:  x2 =221  y2 =209  xy=207 Antag modellen yi= 0 + 1 xi + i ; i = 1, 2, … , 10

a) Vilka antaganden måste göras för 1, 2,…, 10 för att modellen skall kunna analyseras på vanligt sätt? Försök komma på minst en orsak till att något av antaganden inte skulle vara uppfyllt. (1p) b) Beräkna punktskattningar av parametrarna 0 och 1. (1.5p) c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x. (1.5p) d) Beräkna den anpassade modellens förklaringsgrad och tolka denna. (1p) e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7. (1.5p) f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall. (1.5p) • De skall ha väntevärde 0, konstant varians, vara oberoende och normalfördelade. • Det som främst inte är självklart är antagandet om normalfördelning, Teoretiskt kan vi inte ha normalfördelade avvikelser eftersom svarsvärdena bara kan vara något av talen 1, 2, …, 9. • Övriga antagande kan förstås också diskuteras men där är det svårare att hitta orsaker, t.ex. skulle det kunna finnas samband mellan olika koncerner som stör oberoendeantagandet.

b) Beräkna punktskattningar… Använd formlerna I utskriften ges de komplicerade summorna medan  x och  y får lov att beräknas denna gång:  x = 4 + 3 + 4 + 6 + 1 + 3 + 4 + 6 + 1 + 9 = 41  y = 5 + 2 + 4 + 7 + 1 + 1 + 2 + 6 + 3 + 8 = 39

c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x. Det finns två ekvivalenta sätt att göra detta. Gemensamt är dock formuleringen av hypoteserna som bör se ut så här: H0 : 1 = 0 H1 : 1  0 Varför det då? Jo det enda som reglerar regressionen är 1. Om denna är 0 finns ingen regression. Vad 0 är spelar ingen som helst roll! Testmetod 1: t- test Testvariabeln beräknas som Vi behöver beräkna s !

Testvariabelns värde blir nu Värdet skall nu jämföras med en t-fördelning med n – 2 = 8 frihetsgrader. Tabellvärdet för 5% nivå (95% konfidensnivå) blir 2.31 Eftersom 2.31 < 4.74 förkastas H0 Signifikant regression föreligger! Testmetod 2: F-test Testvariabeln beräknas som Med våra data blir Vi jämför med F[0.05](1,8) = 5.32 Eftersom 22.4 > 5.32 kan H0 förkastas

d) Beräkna den anpassade modellen förklaringsgrad och tolka denna Förklaringsgraden beräknas till På tentorna ser man ofta att tolkningen glöms bort ( poängavdrag) Tolkningen är att 73.7% av variationen i y förklaras av x. e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7. Här söker vi alltså ett konfidensintervall för Formel:

f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall. Denna uppgift är mycket lika e). Lägg bara till en etta under rottecknet i formeln: Notera att den övre gränsen faktiskt ligger utanför det möjliga dataområdet!

Den multipla regressionen • Här är det svårare att räkna för hand! • Från datorutskrifter kan ni räkna med att få ut • parameterskattningar (b0, b1, …, bk ) • medelfel för parameterskattningar (sb0, sb1,…, sbk ) • kvadratsummor (SSR, SSE, SST, SSR(xk | x1,…,xk – 1) dvs, sekventiella kvadratsummor) • konfidens- och prognosintervall i en given punkt • Vad måste ni själva kunna inse eller beräkna utifrån datorutskriften? • antal frihetsgrader (framgår ju av formelsamlingen när man vet n ) • medelkvadratsummor • testvariabler • omräkning av intervall från 95% till 99% och vice versa

Speciella utskrifter: • VIF-värden • Resultat från breg • Resultat från stepwise • Dessa måste förstås kunna tolkas. Utskrifterna på denna punkt ges dock i sin helhet utan “censurering”.

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 2) Vid en bank i Chicago har man för 93 anställda samlat in uppgifter om lön y antal utbildningsår vid anställning x1 tidigare erfarenhet av bankarbete i månader x2 anställningstid i månader x3 kön x4 = 1 för män och = 0 för kvinnor. Följande visar ett litet utdrag ur datamaterialet: lön (y) utbildningstid (x1) erfarenhet (x2) anst.tid (x3) kön (x4) 3900 12 0.0 1 0 4020 10 44.0 7 0 4290 12 5.0 30 0 4380 8 6.2 7 0 4380 8 7.5 6 0 4380 12 0.0 7 0 4380 12 0.0 10 0 ... ... 6840 15 41.5 7 1 6900 12 175.0 10 1 6900 15 132.0 24 1 8100 16 54.5 33 1

Man lägger till variabeln x2 · x4 och gör en anpassning av modellen y = 0 + 2 · x2 + 4 · x4 + 5 · x2 · x4 +  Ett utdrag ur en analys med Minitab är följande: MTB > regress c1 3 c3 c5 c6; SUBC> vif; SUBC> predict 100 0 0. Regression Analysis: y versus x2, x4, x2*x4 The regression equation is y = 4919 + 2.20 x2 + 1045 x4 - 2.26 x2*x4 Predictor Coef SE Coef T P VIF Constant 4919.2 115.4 * * x2 2.1973 0.8815 * * 1.7 x4 1044.5 187.2 * * 2.2 x2*x4 -2.264 1.351 * * 2.9 S = 582.2 R-Sq = * R-Sq(adj) = * Analysis of Variance Source DF SS MS F P Regression 3 16152852 * * * Residual Error 89 30170439 * Total 92 46323290

Source DF Seq SS x2 1 1289861 x4 1 13911841 x2*x4 1 951150 ... Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 5138.9 74.5 ( 4990.8, 5287.0) ( 3972.6, 6305.2) Values of Predictors for New Observations New Obs x2 x4 x2*x4 1 100 0.000000 0.000000 • Notera att i denna utskrift har medvetet censurerats bort: • T-kvoter och P-värden för dessa • Medelkvadratsummor, F-kvot och P-värde • R-sq och R-sq(adj)

a) Beräkna (i) den anpassade modellens justerade förklaringsgrad. (ii) ett 95% konfidensintervall för 2 (1p) (i) (ii) Analysis of Variance Source DF SS MS F P Regression 3 16152852 * * * Residual Error 8930170439 * Total 9246323290 Predictor Coef SE Coef Constant 4919.2 115.4 x2 2.19730.8815 x4 1044.5 187.2 x2*x4 -2.264 1.351 Residual Error 89

Svarsalternativen i facit är följande: 1 (i) 34.9% (ii) 2.20 ± 4.90 2 (i) 32.7% (ii) 1044.5 ± 366.9 3 (i) 65.1% (ii) 1044.5 ± 366.9 4 (i) 34.9% (ii) 1044.5 ± 366.9 5 (i) 34.9% (ii) 2.20 ± 1.73 6 (i) 32.7% (ii) 2.20 ± 1.73 Alternativ 6 är alltså det korrekta. Hur har då de andra alternativen uppstått? 34.9% är förklaringsgraden, men det är alltså den justerade som efterfrågas. 65.1% är 100% – R2 vilket alltså är en felräkning på det som inte efterfrågas 2.20  4.90 uppstår om man får för sig att felmarginalen är kvadraten på s dividerad med roten ur n (93) . Långsökt fel! 1044.5  366.9 är ett K.I. för 4 . Detta kan av slarv uppstå om man fått för sig att koefficienternas index (i detta fall 2) utgår från i vilken ordning variabeln tas in i analysen.

b) Beräkna ett 99% prognosintervall för lönen hos en kvinnlig anställd med 100 månaders tidigare erfarenhet. (0.5p) Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 5138.974.5 ( 4990.8, 5287.0) ( 3972.6, 6305.2) Values of Predictors for New Observations New Obs x2 x4 x2*x4 1 100 0.000000 0.000000 S = 582.2 Den prognos och de intervall som redovisas i utskriften är just för en kvinna (x4 = 0) med 100 månaders erfarenhet (x2 = 100) Formel för ett 99% prognosintervall:

Om nu t-tabellvärdet inte finns har vi litet olika strategier. • I den tentamen som uppgiften ursprungligen hämtades från saknades t-tabellvärden för frihetsgrader över 30. • Helt OK att använda normalfördelningsvärden istället. • 99% P.I. ger normalfördelningsvärdet 2.576 Dock var det också så att på den tiden gavs följande lösningsmetod: I utskriften finns ett 95% P.I uträknat Felmarginalen i detta intervall fås som ( 3972.6, 6305.2) Detta svar överensstämmer med ett av facit-alternativen, men är inte uppdaterat med årets rekommenderade lösningsmetod

Svarsalternativen i facit är följande: 1 (3973,6305) 2 (4991,5287) 3 (3769,6571) 4 (3606,6672) 5 (3755,6523) 6 (4944,5334) Alternativ 4 är alltså det som stämmer (även om det för årets kurs blev något långsökt). Övriga alternativ: Alternativ 1 är det 95%-iga prognosintervallet som finns i utskriften Aletrnativ 2 är det 95%-iga kofidensintervallet som finns i utskriften Alternativ 6 är ett 99%-igt konfidensintervall räknat enligt gamla metoden Övriga alternativ är mer långsökta

“En dåres försvarstal” Litet olyckligt att detta uppstod på en övningstentamen, men det har varit en hel del att ta hänsyn till i omläggningen till ny kurslitteratur. Under en period användes en t-tabell med frihetsgrader upp till 30, därefter skulle normalfördelningsvärden (1.96 och 2.576) användas. Lösningsförslag till föregående tentor under denna period använde metoden med beräkning av felmarginal utifrån ett beräknat 95% P.I. Under en senare period försågs tentan med en utökad t-tabell upp till 100 frihetsgrader. Ny kurslitteratur och begreppet “Distance value” infördes. Framtagandet av 99%-iga P.I. gjordes mer “ordentligt” Inför årets kurs togs beslutet att inte ge tentauppgifter där frihetsgraderna överstiger 80, därav den nu begränsade utökade t-tabellen (delvis p.g.a. platsbrist på papperet vid hyfsat hög läsbarhet). Olyckligt nog valdes en uppgift till övningstentamen från en tenta där den gamla metoden användes för att framställa facit. Inga problem skall uppstå på årets tentor!!

Man vill testa hypotesen H0 : 4 = 5 = 0 på 5% nivå. d) Beräkna testfunktionens värde och avgör om nollhypotesen skall förkastas eller ej. (1p) Här skall vi alltså göra ett partiellt F-test. Analysis of Variance Source DF SS Regression 3 16152852 Residual Error 8930170439 Total 92 46323290 Source DF Seq SS x2 1 1289861 x4 113911841 x2*x4 1951150 Jämför med F[0.05](2,89). Tabellen har dock inga frihetsgrader mellan 80 och 100, men värdena sjunker med ökad frihetsgrad.  F[0.05](2,89). < F[0.05](2,80) = 3.11 < 21.92  H0 förkastas

Svarsalternativen i facit är följande: 1 Testfunktionens värde=0.53, H0 förkastas ej 2 Testfunktionens värde=3.81, H0 förkastas ej 3 Testfunktionens värde=15.88, H0 förkastas ej 4 Testfunktionens värde=15.88, H0 förkastas 5 Testfunktionens värde=21.92, H0 förkastas 6 Testfunktionens värde=23.82, H0 förkastas Alternativ 5 är alltså det korrekta. Alternativ 1 uppstår om man försöker räkna ut testvariabeln för det “vanliga” F-testet men tar SSR/SSE istället för MSR/MSE. Alternativ 2 uppstår om man tar SSR(x2) istället för SSR(x4|x2)+SSR(x2x4|x2,x4) i täljaren till testvariabeln Alternativ 3 och 4 ger teststorheten för det vanliga F-testet med olika slutsatser. Alternativ 6 är mer långsökt

e) Vilket av följande uttalanden om multikolinjäritetsproblem är inte korrekt? (i) Tecknen på de skattade lutningsparametrarna kan bli orealistiska om problem finns med multikolinjäritet. (ii) Man bör definitivt ta bort två av förklaringsvariablerna i modellen för att undvika svåra problem med multikolinjäritet. (iii) Variabeln x2·x4 förklaras till (1− 1/2.9 )·100%  65.5% av de andra två förklaringsvariablerna. (iv) VIF–värdena ger information om huruvida en förklaringsvariabel har multipel korrelation med de övriga förklaringsvariablerna. (v) Inget av VIF-värdena är över 10, vilket tyder på måttliga problem med multikolinjäritet. (0.5p) Predictor Coef SE Coef VIF Constant 4919.2 115.4 x2 2.1973 0.8815 1.7 x4 1044.5 187.2 2.2 x2*x4 -2.264 1.351 2.9 Alternativ (ii) är inte korrekt. Det finns inga svåra problem med multikolinjäritet här då VIF-värdena är långt under 10. Alternativ (iii) är helt korrekt även om det kan låta komplicerat. VIF värdet 2.9 är = 1/(1-R23) där R23 är förklaringsgraden i en modell där x2x4 förklaras av x2 och x4

Nedan följer ytterligare en analys med samtliga x-variabler inblandade: MTB > breg c1 c2-c6 Best Subsets Regression: y versus x1, x2, x3, x4, x2*x4 Response is y x 2 * x x x x x Vars R-Sq R-Sq(adj) C-p S 1 2 3 4 4 1 30.3 29.6 36.2 595.57 X 1 17.0 16.1 60.2 650.11 X 2 42.0 40.7 17.3 546.52 X X 2 36.3 34.9 27.4 572.44 X X 3 48.5 46.8 7.5 517.75 X X X 3 43.7 41.8 16.1 541.32 X X X 4 51.1 48.9 4.9 507.42 X X X X 4 48.8 46.4 9.0 519.30 X X X X 5 51.6 48.8 6.0 507.79 X X X X X

f) Vilket av följande påståenden stämmer bäst beträffande val av modell? (i) Modellen med fem förklaringsvariabler är bäst eftersom den har högst förklaringsgrad. (ii) Modellen med x1, x2, x3 och x4 bör väljas eftersom dess C–värde är i paritet med vad det bör vara. (iii) Modellen med fem förklaringsvariabler bäst eftersom R2, R2 och s2 samtidigt får gynnsamma värden. (iv) Modellen med x1 bör väljas p g a att den har högst värde på C. (v) Modellen med x1, x3 och x4 är bäst eftersom dess C–värde är närmast 2 · k + 1. (1p) Alternativ (ii) stämmer bäst. C =4.9 som är det lägsta värdet och samtidigt lägre än antal variabler (4) + 1 Alternativ (i) stämmer inte eftersom förklaringsgraden alltid ökar med antalet variabler. Alternativ (iii) stämmer inte bra. Värdena skall inte vara ”gynnsamma” utan kriterierna skall användas (högst justerad förklaringsgrad eller lägsta godkända värde på C) Alternativ (iv) är tvärt emot vad kriterierna säger Alternativ (v) är nonsens. Sådana kriterier finns inte.

Indexen Beräkning av index brukar ofta upplevas som “jobbigt”! Det finns inga genvägar utan det gäller att behärska formlerna och inse vad man gör. Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 3) Ett företag säljer golv och färg. Man vill beräkna ett prisindex som speglar företagets prisutveckling på kort sikt och väljer därför ut representantvaror för de två varugrupperna. Följande data har sammanställts: År Varugrupp Golv Färg Totalt Pris, representantvara Totalt Pris, representantvara försäljningsvärde försäljningsvärde 2003 350 92 280 140 2004 380 95 300 140 2005 340 97 300 145 Beräkna ett sammansatt kedjeprisindex av Laspeyre-typ för företagets priser. Ange indexv ärdena för 2003, 2004 och 2005. (1p)

Svarsalternativen i facit är följande: (a) 100.0, 105.0, 106.1 (b) 100.0, 101.5, 104.4 (c) 100.0, 101.8, 104.6 (d) 100.0, 101.8, 102.8 (e) 100.0, 105.0, 101.1 (f) 100.0, 101.5, 102.9 Alternativ (c) är det korrekta. Övriga alternativ uppstår om man blandar ihop vad som är försäljningsvärden och priser, om man använder länkarna som index etc. Avrundningsfel kan inte ge ett av de andra svarsalternativen. Sådant kollas alltid noggrant när alternativen skapas!

Elasticitetsmodellerna och de exponentiella modellerna “Knäcknöten” är logaritmerandet. I elasticitetsmodellerna står förklaringsvariabeln/variablerna i basen/baserna och parametern/parametrarna i exponenten/exponenterna Modell i originalskala Logaritmerad modell

Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel Då kan allt användas från enkel linjär regression Exempel Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet: I formlerna ersätts därför y med log y och x med log x. I den logaritmerade modellen ingår 1 på samma sätt som i en enkel regression, dvs. framför det som utgör x-variabel 

0 ingår dock inte på samma sätt som i enkel linjär regression utan i logaritmerad form.  I de exponentiella modellerna står parametern/parametrarna i basen/baserna och förklaringsvariabeln/variablerna i exponenten/exponenterna. Modell i originalskala Logaritmerad modell

Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel Då kan allt användas från enkel linjär regression Exempel Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet: I formlerna ersätts därför y med log y men x logaritmeras inte. I det logaritmerade sambandet ingår parametrarna 0och 1 i logaritmerad form. 

Exempel på uppgift ni förväntas kunna lösa (ej ingående i övningstentan) 4. Ett okänt belopp placerades för länge sedan i en intressant fond och har behållits i denna. För att skatta avkastningen på fonden mellan åren 1990 och 2004 införs en parameter, r och man antar att modellen vt = v0 · (1 + r) t−1989t gäller där vt är värdet år t, v0 är det förväntade värdet år 1989 och t är en slumpstörning sådan att log10 är N(0, ). För befintliga data över värdena de aktuella åren har följande analyser gjorts i Minitab. Med “log” avses i analyserna 10–logaritm:

Regression Analysis: v versus (t-1989) The regression equation is v = 167 + 21.5 (t-1989) Predictor Coef SE Coef T P Constant 167.15 18.43 9.07 0.000 (t-1989) 21.497 2.027 10.61 0.000 S = 33.91 R-Sq = 89.6% R-Sq(adj) = 88.8% Regression Analysis: v versus log(t-1989) The regression equation is v = 133 + 255 log(t-1989) Predictor Coef SE Coef T P Constant 133.00 37.68 3.53 0.004 log(t-1989) 255.18 43.21 5.90 0.000 S = 54.91 R-Sq = 72.8% R-Sq(adj) = 70.8%

Regression Analysis: log(v) versus (t-1989) The regression equation is log(v) = 2.29 + 0.0276 (t-1989) Predictor Coef SE Coef T P Constant 2.29163 0.01823 125.72 0.000 (t-1989) 0.027639 0.002005 13.79 0.000 S = 0.03355 R-Sq = 93.6% R-Sq(adj) = 93.1% Regression Analysis: log(v) versus log(t-1989) The regression equation is log(v) = 2.23 + 0.344 log(t-1989) Predictor Coef SE Coef T P Constant 2.23463 0.03666 60.95 0.000 log(t-1989) 0.34430 0.04205 8.19 0.000 S = 0.05343 R-Sq = 83.8% R-Sq(adj) = 82.5% Skatta på lämpligt sätt parametern r och testa på 5% nivå H0: r > 0. Svara med det skattade värdet samt om testet är signifikant eller ej. (1p)

Modellen är en exponentiell modell. Den beroende variabeln är i detta fall vtoch förklaringsvariabeln är t eller t – 1989. Att man här har valt att dra bort 1989 är för att få en naturlig koppling till “nollan” i v0 . År 1989 blir här alltså år 0, den tidpunkt som motsvarar grundkapitalet. För att kunna analysera med regressionsanalys måste vi logaritmera modellen: I en regressionsanalys skall alltså log v utgöra y-variabeln och t – 1989 x-variabeln. Det blir därför den tredje av de fyra Minitab-analyserna som skall användas. Från den kan vi avläsa skattad lutningsparameter (dvs. tillfällig b1 ): 0.027639  Genomsnittlig avkastning skattas alltså till c:a 6.6%

För att kunna testa H0: r > 0 krävs att vi omformar hypotesen så att den istället gäller för log(1+r). • r > 0 blir detsamma som att 1 + r > 1 vilket blir detsamma som att • log(1+r) > 0. • Vi kan alltså direkt från analysen använda den beräknade t-kvoten (eftersom den just handlar om log(1+r). • T är 13.79. Vi ser på P-värdet att den är signifikant, men observera att detta P-värde gäller för en dubbelsidig mothypotes, dvs. för hypotesparet • H0: log(1+r) = 0 • Ha: log(1+r)  0 • Vad blir skillnaden med en enkelsidig mothypotes? • Kolla först så att själva värdet på T-kvoten är positivt. Det är det i detta fall, men om det skulle ha varit negativt har vi inget bevis för att log(1+r) är större än noll. • 2) Om det dubbelsidiga testet är signifikant så är även det enkelsidiga det (förutsatt att testvariabeln är positiv, vilket den alltså är)

Den här uppgiften är förstås aningen svårare, men räkna med att det kan finnas en och annan “kluring” med. Felaktiga svarsalternativ på denna uppgift skulle utgöras av svar där man använd resultat från de andra Minitab-anayserna, kombinerade med olika slutsatser om signifikansen.

Tidsserieanalysen • Mycket av detta examineras genom inlämningsuppgiften. Det handlar om att lära sig använda modeller för tidsserieregression och klassisk komponentuppdelning samt exponentiella utjämningsmetoder för prognoser. Själva räknandet görs dock uteslutande med datorns hjälp. • Visst hum om stationaritet och ARMA-modeller ingår också, men ingen kunskap om hur man räknar förutsätts. • För att få den totala examinationen individuell finns en uppgift med på tentan. Den brukar vara värd max. 1.5 poäng. • Denna kan handla om att • kunna tolka en utskrift från tidsserieregression eller klassisk komponentuppdelning • kunna tolka en utskrift från enkel eller dubbel exponentiell utjämning eller Winters’ metod • kunna för han beräkna en prognos med hjälp av skattade komponenter från en komponentuppdelning • kunna besvara diverse teorifrågor runt tidsserieanalys

732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel :

732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel :

Presentation Transcript

Fodselsakupunktur kurs

Helseeffekter efter strømulykker akutt og på lang sikt.

istatistik

Människan miljön och kulturen KURS 1

Behandling av nedre urinvägsinfektion (UVI) hos kvinnor

Digitalteknik, fortsättningskurs 2012 Föreläsning 16 Inför tentan Sista föreläsningen Övriga föreläsningstider denna ve

STATISTIK PERIKANAN

KULIAH STATISTIK 2012

DENETİM / VERGİ / DANIŞMANLIK

Statistik Politik dan Kemanan

Funksjonelle mage-tarmtilstander hos barn og unge Tverrfaglig kurs 11.mai 2012

STATISTIK HORTIKULTURA

KURS: KARDİYOPULMONER EGZERSİZ TESTLERİ

Finansijska tržišta

Keselamatan dan Kesihatan Pekerjaan

“ Kasb ta’limi ” yo’nalishi 4-kurs 1-guruh talabasi Abdullayev Azizbek Akramjonovichning

MAVZU: DAROMAD VA ALMASHTIRISH SAMARASI REJA: Kirish . Asosiy qism :

KURSLARIMIZI DETAYLI İNCELEYELİM

2G1518 Datorteknik allmän kurs

Evaluacija i rizik

STATISTIK PENDIDIKAN EDU5950 SEM1 2013-14

BAB 14 PENGUJIAN HIPOTESIS SAMPEL KECIL