1 / 38

Вариационен анализ

FAQ Гиги & Гого. Вариационен анализ. Хайде да започваме. Кликни върху бутона. Какво постижение в 30 м. гл. б. имат 12 г. футболисти?. Трудно е да се отговори с една дума, защото: Отделните футболисти имат различни постижения;

espen
Download Presentation

Вариационен анализ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. FAQ Гиги & Гого Вариационен анализ Хайде да започваме... Кликни върху бутона

  2. Какво постижение в 30 м. гл. б. имат 12 г. футболисти? • Трудно е да се отговори с една дума, защото: • Отделните футболисти имат различни постижения; • Все пак има някакво общо, типично състояние, характеризиращо цялата група.

  3. Постиженията в 30 м. гл. б. се формират под влияние наредица: • Закономерни фактори • и • Случайни фактори • Действието на закономерните фактори формира типичното състояние на признака; • Действието на случайните фактори води до разсейване на признака

  4. Вариационният анализ дава възможност да се опише детайлно разпределението на количествени променливи. Той включва 3 групи показатели: • За средно равнище • За разсейване • За нормалност на разпределението Какво ли значи това?

  5. Показатели за средно равнище • Мода – стойността, която се среща най-много пъти • Медиана – стойността, която се намира в средата на вариационния ред • Средна аритметична величина Те описват типичното, характерното състояние на признака. Това е лесно... Mo = 7 Me = 8 X = 8.4

  6. Ако имаме следните данни: Две съседни стойности се повтарят еднакъв, максимален брой пъти, модата е полусумата на тези стойности, т.е. Mo=8.5 Средата на вариационния ред е между 3-тата и 4-тата стойност, т.е. Me = 8.5 Две несъседни стойности се повтарят еднакъв брой пъти - разпределението има две моди: Mo=7 и Мо=9 Няма стойност, която се повтаря повече от останалите - разпределението няма мода

  7. Четирима приятели решихме да упражним наученото, като определим средно с колко пари разполагаме в момента. След щателно търсене в джобовете ни се оказа, че разполагаме с: 1лв., 1лв., 11 лв., 111 лв. Значи ... Мо=1 лв., Ме=6 лв., Х=31 лв., нали... • Технически погледнато – да. Логически, обаче са уместни въпросите: • Може ли да се търси типичното, характерното за стойности, които се различават твърде много? Очевидно не. • Кой от показателите е най-информативен, т.е. кой от тях дава най-вярна представа за средното количество пари, с които разполага представител на вашата група? Най-често използваният показател – средната аритметична е напълно лишена от смисъл, защото не дава вярна представа за парите на нито едно от лицата.

  8. 30 м. гладко бягане Доход (лв.) Пример 1: Изследвани са резултатите в 30 м. гл. б. и месечния доход на член от семейството на подрастващи футболисти. На фигурите са представени хистограми на тяхното разпределение. Разпределението на постиженията на 30 м. е симетрично, а от резултатите от обработката личи, че Mo=Me=X. Разпределението на доходите е силно несиметрично. Най-голямо струпване на стойностите се наблюдава около Хmin (Mo=100 лв.), има силно отклоняващи се стойности (Xmax=700лв.). Резултатите от обработката показват, че Мо, Ме и Х силно се различават. В такива случаи възниква въпросът кой от показателите за средно равнище да се ползва. Отговорът му е свързан с това каква е изследователската задача, в случая какъв смисъл се влага в понятието “среден доход”. Ако се разбира онзи доход, който имат най-голям брой от изследваните, очевидно модата е най-добрият “измерител” на средното равнище.

  9. Пример 2:Три групи подрастващи футболисти имат средна аритметична на постиженията в 30 м. гл. б. 6,1 сек.. Това означава ли, че бързината на трите групи е една и съща? Мисля, че да ... Нека видим първичните данни : Група А Група Б Група В Какво прави впечатление? Вече е ясно, че в първите 2 групи попадат лица, които имат напълно или приблизително еднакви скоростни възможности, а в група В – с твърде различна бързина-...

  10. Правилно! За да се характеризира разпределението на количествена променлива не е достатъчно да се опише само средното равнище на признака. Изключително важна характеристика на признаците е тяхната вариация

  11. Показатели за разсейване • Размах (R) – диапазон, в който варират стойностите: • Стандартно отклонение (S) – отклонения на стойностите от средната аритметична величина • Коефициент на вариация (V): Те описват различията между стойностите. Като синоними се ползват понятията вариация и дисперсия на стойностите. Размахът е лесен... Група А =0сек. Група Б = 0,2 сек. Група В = 1,9 сек. ...обаче стандартното отклонение ...

  12. Не е страшно! Трябва да се опише средното отклонение от средната аритметична величина. На фигурите е представено графично разпределението на постиженията на групи А и Б. С червена пунктирана линия е означена средната аритметична величина. Група А Очевидно е, че стойностите при гр. А не се отклоняват от Х, което означава, че S=0. Група Б Група В Група А Група Б -0,1

  13. ... все пак, не ми е съвсем ясно, какво е това S=0.071 и S=0,687... Много ли е ... На първо място е важно да се знае, че стандартното отклонение се изразява в същата мерна единица, в която е измерен признака, в случая в секунди ... значи S=0,071 сек. и S=0,687 сек. Дори се изписва заедно със средната аритметична по следния начин Х±S. На второ място, не може да се оцени степента на разсейването на признака само на базата на стандартното отклонение, защото е важно по отношение на каква средна стойност е въпросното отклонение. 0,1 секунда отклонение от постижения на 100 м. и на 3000 м. имат съвсем различен смисъл, нали ...

  14. Друг един “недостатък” на стандартното отклонение е, че с него не може да се сравнява разсейването на признаци, изразени в различни мерни единици. • В пример № 1 бе представено разпределението на постиженията в 30 м. и дохода на член от семейството на подрастващи футболисти. Резултатите от обработката показват: • За 30 м. – 6,22 ±0,36 сек. • За дохода – 189,1±120,8 лв. • Излишно е да умуваме дали 0,36 сек. са повече от 120,8 лв. С помощта на коефициента на вариация подобни проблеми се решават много лесно ...

  15. Коефициентът на вариация изразява разсейването в проценти и обобщава информацията от средната аритметична величина и стандартното отклонение. • Да припомним формулата: • Той дава възможност: • 1. Да се сравнява разсейването на признаци, изразени в различни мерни единици; • 2. Да се правят изводи относно еднородността на извадките (голямо ли е разсейването на признака). В практиката се ползват следните степени: • До 10% - извадката е еднородна (малко разсейване) • От 10- до 30% - извадката е приблизително еднородна (средно разсейване); • Над 30 % - силно нееднородна извадка (голямо разсейване на признака)

  16. Да видим дали вече е ясно: • 1.По данните от пример 1 (за 30 м. - 6,22 ±0,36 сек. дохода – 189,1±120,8 лв.) : • По кой от двата признака разсейването е по-голямо? • 2.По данните от пример 2 (група А – 6,11 ±0 сек., група Б – 6,11 ±0,071 сек. и група В – 6,11 ±0,687 се.): • Еднородни ли за изследваните групи?

  17. 1.Коефициентите на вариация са съответно: • За 30 м. гл. Б. – 5,79% • За дохода – 63,87% • Очевидно, че вариацията на дохода е много по-голяма • 2. Коефициентите на вариация са съответно: • Група А – 0 % - липсва разсейване на стойностите. Постиженията са постоянна величина. Е, това трудно може да се случи при реално изследване, но за упражнение, може ! • Група Б – 1,16 % - групата е еднородна; • Група В – 11,26 % - групата е приблизително еднородна. • Аз също имам въпрос: • Направих опит да изчисля коефициента на вариация на температурата навън в последните 3 дни. Данните са: • -1оС , 0о С, 1оС. • Средната аритметична е 0о, а стандартното отклонение 1о. Защо не мога да изчисля V?

  18. Браво! Много точни отговори и също така уместен въпрос. Данните за времето, които си събрал са за температурата на въздуха, измерени по скалата на Целзий. От първата лекция трябва да си разбрал, че този признак е интервално скалиран, т.е. има условна 0. При такива признаци не се ползва коефициента на вариация. Затруднението, с което си се сблъскал се дължи на факта, че средната е 0оС, а деление на 0 не е възможно. Е, едва ли може да се случи в реално изследване, но за пример, може ! Време е да преминем към следващата група показатели

  19. F(X) 30 м. гладко бягане Показатели за нормалност на разпределението • Ще използвам данните от пример 1 – постижения на 50 подрастващи футболисти в тест 30 м.гл.б. Хистограма на емпиричното разпределение е представено на фигурата. • По абсцисата са нанесени резултатите в теста; • По ординатата – тяхната абсолютна честота (f). • Както се вижда, минималните стойности се срещат сравнително рядко, и приблизително толкова, колкото максималните стойности. Най-голямо струпване има около центъра на разпределението. Модата, медианата и средната аритметична са приблизително равни. • Как смяташ, кога вероятността е по-голяма – един случайно взет подрастващ футболист да има постижение 5,4 сек. или 6,1 сек. ?

  20. Ще опитам! Резултат 6,1 сек. е около средната стойност. Той е постигнат от 14 от 50-те изследвани лица, нека да пресметна ... 14/50*100=28%. Нека да го означа като вероятност А. Резултат 5,4 сек. Имат само 3 изследвани лица, което означава 6% от случаите, т.е 6% вероятност да се получи такъв резултат. На фигурата съм означил като вероятност Б. Май греша, абсцисата е означена f(X), т.е. абсолютна честота ..... F(X) А 30 м. гладко бягане Б Разсъждението е напълно правилно! Стълбчетата на хистограмата онагледяват емпиричното разпределение (конкретните данни) и затова абсцисата е означена с f(X). Нека обаче си представим, че се онагледява която и да е променлива, изследвана в достатъчно голяма генерална съвкупност, по абсцисата се нанесат възможните стойности от Xmin до Xmax, а по ординатата – съответстващата им вероятност.

  21. Под понятието разпределение на променливата величина се разбира съответствието между възможните стойности на променливата и съответстващата им вероятност. • Ето така изглежда кривата на нормалното разпределение. Най-характерно за него е, че: • То е симетрично по отношение на центъра на разпределението • Има умерен връх.

  22. На теория звучи добре, но не разбирам как бих могъл по емпирични данни да разбера дали разпределението на променливата е нормално... За да се установи доколко емпиричното разпределение се приближава до нормалното се ползват коефициентите на асиметрия (As) и ексцес (Ex).

  23. Коефициент на асиметрия(As) където Коефициент на ексцес (Ех): където Как по стойността им разбера дали разпределението на променливата е нормално?

  24. Процедурата е следната: • По формулите се изчислява т. нар. емпирична стойност на критерия • От статистически таблици се определя т. нар. критична стойност на критерия. • Двете стойности се сравняват: • Ако емпиричната е по малка или равна на табличната се приема, че разпределението не се различава съществено от нормалното Какви са тези статистически таблици?

  25. Ето така изглежда таблицата с критичните стойности на коефициента на асиметрия. • В първата колона се намира обемът на извадката (n). • Другите две колони са означени “Равнище на значимост ()”. Това е възможността за допускане на погрешен извод. =0.05 означава 5% възможност за грешка, а  =0.01 - 1%. • Ако си изследвал 50 лица и работиш с 5% възможност за грешка – критичната стойност на коефициента на асиметрия е 0,533.

  26. Това е таблицата с критичните стойности на коефициента на ексцес. • В първата колона се намира обемът на извадката (n). • Другите две колони са означени “Равнище на значимост ()”. • Ако си изследвал 50 лица и работиш с 5% възможност за грешка – критичната стойност на коефициента на ексцес е 0,848.

  27. А защо е толкова важно да знаем дали признака има нормално разпределение? • Защото изборът на метод за обработка на данните до голяма степен зависи от вида на разпределение на променливите. • Ако те имат нормално разпределение се ползват т.нар. параметрични методи. • Ако те имат ненормално разпределение се ползват т.нар. непараметрични методи

  28. Вариационен анализ с Excel и SPSS На теория всичко ми е ясно. Как да изчисля тези показатели с помощта на компютъра си?

  29. Вариационен анализ със SPSS 1.Избери анализа 2.Задай променливата/ите 3.Избери/промени статистическите показатели 4.Потвърди с ОК

  30. Резултатът от обработката изглежда така ·    N – брой на наблюденията ·        Range – размах ·        Minimum – минимална стойност; ·        Maximum – максимална стойност; ·        Mean – средна аритметична величина; ·        Std. –  стандартно отклонение;; ·        Skewness – коефициент на асиметрия ·        Kurtosis – коефициент на ексцес Означението на показателите е следното

  31. Вариационен анализ с Excel 1.Избери анализа 1.Избери анализа а б

  32. 4.Потвърди с ОК 2.Задай променливата/ите 3.Избери/промени статистическите показатели

  33. Резултатът от обработката изглежда така Означението на показателите е следното Mean – средна аритметична величина Standard Error –репрезентативна грешка Median - медиана Mode - мода Standard Deviation - стандартно отклонение Sample Variance - дисперсия Kurtosis – коефициент на ексцес Skewness – коефициент на асиметрия Range – размах Minimum – минимална стойност; Maximum – максимална стойност; Sum – сумата на стойностите Count– брой на наблюденията      

  34. Представяне на резултатите от вариационен анализ Не мога да разбера, как цялата тази информация може да се побере в една таблица за вариационен анализ?

  35. Ето вариационен анализ на резултатите в тест 30 м.гл.б., с който започнахме разговора. Можеш ли да направиш анализ?

  36. Изследвани са постиженията в тест 30 м.гл.б. на 50 подрастващи футболиста. Резултатите варират от 5,5 сек. До 7,0 сек. Средната стойност е 6,22 сек. Изследваната група е силно еднородна по отношение на резултатите в този тест, защото коефициентът на вариация е V=5.78%. Коефициентите на асиметрия и ексцес (съответно 0,33 и -0,29) са под критичните, което означава, че признака има нормално разпределение. Добре!!! Информацията може да се допълни и с графика.

  37. 30 м. гладко бягане • Това е хистограмата, която ползвахме в началото. • По абсцисата са нанесени стойностите на променливата • По ординатата – съответните им абсолютни честоти. • С червената линия е представена кривата на нормалното разпределение. • Това е т.нар. Box plot диаграма. • При нея стойностите на променливата са представени по ординатата. • С червената “кутия е са представени 25-ия процент, средната стойност и 75-ия процент от вариационния ред. • С “дръжките” на кутията се онагледяват минималната и максималната стойност

  38. Време е да приключваме. Имаш ли още някакви въпроси? Засега – не Ако възникнат – ще ги задам на v_gigova@yahoo.com

More Related