1 / 28

Megerősítő elemzés

Megerősítő elemzés. „Big Data” elemzési módszerek Salánki Ágnes salanki @ mit.bme.hu 2014. 09. 24. Adatelemzés. Adatelemzés. Felderítő. Modell. Többletinformáció. Tisztítás. Adat. Megerősítő. Adatelemzés. Felderítő analízis Cél: hipotézisek megfogalmazása

Download Presentation

Megerősítő elemzés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Megerősítő elemzés „Big Data” elemzési módszerek Salánki Ágnes salanki@mit.bme.hu 2014. 09. 24.

  2. Adatelemzés Adatelemzés • Felderítő Modell Többletinformáció • Tisztítás Adat Megerősítő

  3. Adatelemzés • Felderítő analízis • Cél: hipotézisek megfogalmazása • Ismerkedés az adatokkal/doménnel • Erősen ad-hoc • Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció • Megerősítő analízis • Cél: hipotézisek tesztelése • Előre megsejtett összefüggések ellenőrzése • Fő eszköz: statisztikai tesztek + következtető módszerek

  4. Adatelemzés • Pl. eloszláselemzés Felderítő analízis Sejtés: az változó normális eloszlású Megerősítő analízis Az változó hihetően eloszlást követ

  5. Adatelemzés • Pl. lineáris regresszió Felderítő analízis Sejtés: az és változó között valamilyen lineáris kapcsolat van Megerősítő analízis Az és változó között az írható fel,

  6. Következtető statisztika

  7. Következtető statisztika

  8. Következtető statisztika Teljes populáció Elemzés Adatfelvétel EDA Hipotézis Mintavételezés Minta kiértékelés Reprezentatív minta Val.ség, konf. int. stb. Adatfelvétel Adatsor Következtetés

  9. Következtető statisztika Teljes populáció Elemzés EDA Hipotézis Mintavételezés Minta kiértékelés Reprezentatív minta Val.ség, konf. int. stb. Adatfelvétel Adatsor Következtetés

  10. Mintavételezés • Cenzus • Mi lehet érdekes? • Csak a kilógók • Csak a normálisak • Reprezentatív • Hipotézismentes tárolás

  11. Ökölszabályok • LLN (Law of LargeNumbers) • Ha a kísérletek száma tart a végtelenhez, az előfordulási gyakoriság az elméleti valószínűséghez konvergál

  12. Ökölszabályok • CLT (Central Limit Theorem) • A minták statisztikáinak átlaga normális eloszlást követ (bizonyos feltételek mellett). • a mintaátlag • a populáció várható értéke • a populáció (empirikus) szórása • a mintaméret

  13. Békés Magyarországi kamaszlányok ? Heves Vas

  14. Ökölszabályok • CLT (Central Limit Theorem) • A minták statisztikáinak átlaga normális eloszlást követ (bizonyos feltételek mellett). • a mintaátlag • a populáció várható értéke • a populáció (empirikus) szórása • a mintaméret

  15. Következtető statisztika Teljes populáció Adatfelvétel EDA Hipotézis Mintavételezés Minta kiértékelés Reprezentatív minta Val.ség, konf. int. stb. Adatfelvétel Adatsor Következtetés

  16. Minta kiértékelés • EDA ~ nyomozás • Kiértékelés ~ a per maga • H0: alapfeltevés  a vádlott ártatlan • HA: alapfeltevés ellentéte  a vádlott bűnös • Kiértékelés: ha az alapfeltevés igaz, mennyire valószínű, hogy a kapott adatot tároltuk el?

  17. Mit tesztelünk tipikusan? • Parametrikus tesztek • Egy minta eloszlás egy paraméterét próbáljuk kitalálni • Két minta eloszlásának a paramétere megegyezik-e? • Nemparametrikus tesztek • Illeszkedésvizsgálat  adott eloszlású-e egy minta? • Függetlenségi vizsgálat  független-e két minta? • Homogenitásvizsgálat két minta eloszlása megegyezik-e?

  18. Következtető statisztika Teljes populáció Elemzés Adatfelvétel EDA Hipotézis Mintavételezés Minta kiértékelés Reprezentatív minta Val.ség, konf. int. stb. Adatfelvétel Adatsor Következtetés

  19. Következtetés • Döntési bemenet • Valami küszöbérték • Adatsor típusa • Megfigyelési tanulmány (observationalstudy) • Irányított kísérlet (controlledexperiment) Különbség: a köztes változók eliminálása

  20. Esettanulmány „Girls who ate breakfast of any type had a lower average body mass index, a common obesity gauge, than those who said they didn't. The index was even lower for girls who said they ate cereal for breakfast.„ Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm

  21. Esettanulmány 1. „Breakfast, cereal keep girls slim” 2. „Beingslim causes girls to eat breakfast„ ? 3. „A confoundingvariable is responsibleforboth” Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm

  22. Következtetés • Döntési bemenet • Valami küszöbérték • Adatsor típusa • Megfigyelési tanulmány (observationalstudy) • A köztes változók kiléte bizonytalan • Csak korreláció, kauzális következtetések nem • Kísérlet (experiment) • A köztes változókat kiszűrtük (mintavételezés!) • Kauzális következtetések is

  23. Adatelemzési módszerek

  24. Adatbányászati építőkövek Klaszterezés Osztályozás Asszociációs szabályok Regresszió

  25. Klaszterezés „A BME-sek három jól elkülöníthető csoportba tartoznak„

  26. Asszociációs szabályok „Akik gyakran vásárolnak kávét, azok gyakran vásárolnak tejet”

  27. Osztályozás „Prediktáljukaz Apple részvényeket”

  28. Regresszió „Az alkalmazás memóriaigénye a kiszolgálandó kérések számával exponenciálisan növekszik”

More Related