1 / 42

Περιγραφική Στατιστική: Μετρήσεις Κεντρικής Τάσης, Διασποράς και Συσχέτισης

Περιγραφική Στατιστική: Μετρήσεις Κεντρικής Τάσης, Διασποράς και Συσχέτισης. Μετρήσεις Κεντρικής Τάσης. Μέσος Διάμεσος Επικρατούσα Τιμή Εκατοστημόρια Τερταρτημόρια. Παράδειγμα: Ενοίκια Διαμερισμάτων.

tyne
Download Presentation

Περιγραφική Στατιστική: Μετρήσεις Κεντρικής Τάσης, Διασποράς και Συσχέτισης

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Περιγραφική Στατιστική: ΜετρήσειςΚεντρικής Τάσης, Διασποράς και Συσχέτισης

  2. Μετρήσεις Κεντρικής Τάσης • Μέσος • Διάμεσος • Επικρατούσα Τιμή • Εκατοστημόρια • Τερταρτημόρια

  3. Παράδειγμα: Ενοίκια Διαμερισμάτων Ο πίνακας περιέχει ένα δείγμα μηνιαίων ενοικίων για δυάρια. Το δείγμα αποτελείται από 70 διαμερίσματα σε μία συγκεκριμένη πόλη. Τα στοιχεία έχουν ταξινομηθεί σε αύξουσα σειρά

  4. Μέσος • Ο μέσος είναι απλά ο μέσος όρος όλων των παρατηρήσεων. • Αν τα στοιχεία προέρχονται από δείγμα, ο μέσος ισούται με: • Αν τα στοιχεία προέρχονται από τον πληθυσμό, ο μέσος υποδηλώνεται με μ και ισούται με:

  5. Διάμεσος • Η διάμεσος ενός συνόλου στοιχείων είναι η τιμή στο μέσον αυτού του συνόλου αφού τα δεδομένα ταξινομηθούν με αύξουσα σειρά • Αν ο αριθμός των παρατηρήσεων είναι περιττός, η διάμεσος είναι η τιμή της παρατήρησης που βρίσκεται ακριβώς στη μέση • Αν ο αριθμός των παρατηρήσεων είναι άρτιος, η διάμεσος είναι ο μέσος όρος των δύο μεσαίων παρατηρήσεων

  6. Βρίσκουμε το μέσο όρο της 35ης και της 36ης παρατήρησης Διάμεσος = (475 + 475)/2 = 475

  7. Επικρατούσα Τιμή • Η Επικρατούσα Τιμή ενός συνόλου παρατηρήσεων είναι η τιμή που εμφανίζεται με τη μεγαλύτερη συχνότητα Η τιμή 450 εμφανίζεται πιο συχνά (7 φορές) Επικρατούσα Τιμή = 450

  8. Εκατοστημόρια • Το pthεκατοστημόριο ενός συνόλου στοιχείων είναι μία τιμή τέτοια ώστε τουλάχιστον το p% των παρατηρήσεων είναι ίσα ή μικρότερα με την τιμή αυτή και τουλάχιστον (100-p)% είναι ίσα ή μεγαλύτερα. • Ταξινομούμε τα στοιχεία σε αύξουσα σειρά. • Υπολογίζουμε τη θέση i που είναι η θέση του pthεκατοστημορίου i = (p/100)n • Αν το i δεν είναι ακέραιος, στρογγυλοποιούμε προς τα πάνω. Το pth εκατοστημόριο είναι η τιμή στη θέση i. • Αν το ι είναι ακέραιος το pthεκατοστημόριο είναι ο μέσος όρος των θέσεων i και i+1.

  9. Ενενηκοστό εκατοστημόριο: i = (p/100)n = (90/100)70 = 63 Παίρνουμε το μέσο όρο της 63ης και της 64ης θέσης: 90ο εκατοστημόριο = (580 + 590)/2 = 585

  10. Τεταρτημόρια • Τα τεταρτημόρια είναι συγκεκριμένα εκατοστημόρια • 1ο Τεταρτημόριο = 25ο Εκατοστημόριο • 2ο Τεταρτημόριο = 50ο Εκατοστημόριο = Διάμεσος • 3ο Τεταρτημόριο = 75ο Εκατοστημόριο

  11. Τρίτο Τεταρτημόριο Τρίτο Τεταρτημόριο = 75ο εκατοστημόριο i = (p/100)n = (75/100)70 = 52.5 = 53 Τρίτο τεταρτημόριο = 525

  12. Μετρήσεις Διασποράς • Εύρος • Ενδοτεταρτημοριακή Απόκλιση • Διακύμανση • Τυπική Απόκλιση • Συντελεστής Μεταβλητότητας

  13. Εύρος • Το Εύρος ενός συνόλου παρατηρήσεων είναι η διαφορά μεταξύ της μεγαλύτερης και της μικρότερης τιμής • Το εύρος είναι το πιο απλό μέσο διασποράς • Το εύρος όμως είναι και πολύ ευαίσθητο σε πολύ μικρές και πολύ μεγάλες τιμές

  14. Εύρος = Μεγαλύτερη Τιμή – Μικρότερη Τιμή Εύρος = 615 - 425 = 190

  15. Ενδοτεταρτημοριακή Απόκλιση • Η Ενδοτεταρτημοριακή Απόκλιση είναι η διαφορά μεταξύ του 3ου και του πρώτου τεταρτημορίου • Περιέχει το μεσαίο 50% των στοιχείων • Λύνει το πρόβλημα της ευαισθησίας σε ακραίες τιμές

  16. 3ο Τεταρτημόριο (Q3) = 525 1ο Τεταρτημόριο (Q1) = 445 Ενδοτεταρτημοριακή Απόκλιση = Q3 - Q1 = 525 - 445 = 80

  17. Διακύμανση • Η διακύμανση είναι ο μέσος όρος των τετραγωνικών αποκλίσεων από το μέσο • Αν οι παρατηρήσεις προέρχονται από δείγμα η διακύμανση δηλώνεται με s2. • Αν οι παρατηρήσεις προέρχονται από τον πληθυσμό η διακύμανση δηλώνεται με σ2.

  18. Τυπική Απόκλιση • Η Τυπική Απόκλιση είναι η τετραγωνική ρίζα της Διακύμανσης. • Η Τυπική Απόκλιση μετριέται στις ίδιες μονάδες που μετριούνται και οι παρατηρήσεις και επομένως είναι πιο εύκολα συγκρίσιμη με το μέσο από ότι η διακύμανση • Αν οι παρατηρήσεις προέρχονται από δείγμα, η Τυπική Απόκλιση δηλώνεται με s. • Αν οι παρατηρήσεις προέρχονται από τον πληθυσμό η Τυποκή Απόκλιση δηλώνεται με σ.

  19. Συντελεστής Μεταβλητότητας • Ο συντελεστής μεταβλητότητας δείχνει πόσο μεγάλη είναι η Τυπική Απόκλιση σε σχέση με το Μέσο • Αν τα στοιχεία προέρχονται από δείγμα, ο Συντελεστής Μεταβλητότητας υπολογίζεται ως εξής: • Αν τα στοιχεία προέρχονται από τον πληθυσμό, ο Συντελεστής Μεταβλητότητας υπολογίζεται ως εξής:

  20. Διακύμανση • Τυπική Απόκλιση • Συντελεστής Μεταβλητότητας

  21. Μετρήσεις Σχετικής Θέσης και Εντοπισμός Ακραίων Τιμών • Τιμή z • Θεώρημα Chebyshev • Ο εμπειρικός Κανόνας • Εντοπισμός Ακραίων ΤΙμών

  22. Τιμές z • Η τιμή z ονομάζεται και κανονικοποιημένη. • Δηλώνει την απόσταση μιας τιμής από το μέσο σε όρους τυπικής απόκλισης • Μία τιμή μικρότερη από το μέσο έχει τιμή z αρνητική • Μία τιμή μεγαλύτερη από το μέσο έχει τιμή z θετική • Μία τιμή που ισούται με το μέσο έχει τιμή z μηδέν

  23. Τιμή z για τη μικρότερη τιμή του δείγματος (425) Κανονικοποιημένες Τιμές για τα Ενοίκια

  24. Ο Εμπειρικός Κανόνας Για ομάδες δεδομένων που είναι κατανεμημένες κανονικά: • Περίπου το 68% των παρατηρήσεων βρίσκονται σε απόσταση μίας τυπικής απόκλισης από το μέσο • Περίπου το 95% των παρατηρήσεων βρίσκονται σε απόσταση δύο τυπικών αποκλίσεων από το μέσο • Σχεδόν όλες οι παρατηρήσεις βρίσκονται σε απόσταση τριών τυπικών αποκλίσεων από το μέσο

  25. % παρατηρήσεων Διάστημαστο διάστημα +/- 1s 436.06 to 545.54 48/70 = 69% +/- 2s 381.32 to 600.28 68/70 = 97% +/- 3s 326.58 to 655.02 70/70 = 100%

  26. Εντοπισμός Ακραίων Τιμών • Ακραία Τιμή θεωρείται μία εξαιρετικά μικρή ή εξαιρετικά μεγάλη παρατήρηση • Μία παρατήρηση με τιμή z μεγαλύτερη του 3 ή μικρότερη του -3 μπορεί να θεωρηθεί ακραία • Μπορεί η παρατήρηση να καταγράφηκε λάθος • Μπορεί η παρατήρηση να εισήχθη κατά λάθος στο συγκεκριμένο σύνολο δεδομένων • Μπορεί απλά να είναι σωστή αλλά όντως ακραία

  27. Οι πιο ακραίες τιμές z στο παράδειγμα είναι -1.20 και 2.27 Χρησιμοποιώντας το κριτήριο |z|≥3, καταλήγουμε στο συμπέρασμα πως δεν υπάρχουν ακραίες τιμές στο δείγμα των ενοικιαζόμενων δωματίων Κανονικοποιημένες Τιμές για τα Ενοίκια

  28. Θεώρημα Chebyshev Τουλάχιστον (1-1/κ2) παρατηρήσεις σ’ ένα σύνολο δεδομένων θα βρίσκεται σε απόσταση κ τυπικών αποκλίσεων από το μέσο, όπου κ οποιοσδήποτε αριθμός μεγαλύτερος του 1. • Τουλάχιστον το 75% των παρατηρήσεων πρέπει να βρίσκονται σε απόσταση κ=2 τυπικών αποκλίσεων από το μέσο • Τουλάχιστον το 89% των παρατηρήσεων πρέπει να βρίσκονται σε απόσταση κ=3 τυπικών αποκλίσεων από το μέσο • Τουλάχιστον το 94% των παρατηρήσεων πρέπει να βρίσκονται σε απόσταση κ=4 τυπικών αποκλίσεων από το μέσο

  29. Μετρήσεις Συσχέτισης Μεταξύ Δύο Μεταβλητών • Συντελεστής Συσχέτισης

  30. r < 0 r > 0 Τρεις περιπτώσεις συσχέτισης r = 0

  31. Ο Συντελεστής Συσχέτισης παίρνει τιμές μεταξύ -1 και 1. • Ο Συντελεστής Συσχέτισης δεν δείχνει αιτιότητα • Τιμές κοντά στο -1 δείχνουν ισχυρή αρνητική συσχέτιση • Τιμές κοντά στο 1 δείχνουν ισχυρή θετική συσχέτιση • Αν τα δεδομένα προέρχονται από δείγμα ο συντελεστής είναι rxy. • Αν τα δεδομένα προέρχονται από τον πληθυσμό ο συντελεστής είναι ρxy

  32. Συντελεστής Συσχέτiσης Pearson

  33. Σταθμικός Μέσος και Περιγραφική Στατιστική για Ομαδοποιημένα Στοιχεία • Σταθμικός Μέσος • Μέσος για ομαδοποιημένα Δεδομένα • Διακύμανση για ομαδοποιημένα Δεδομένα • Τυπική Απόκλιση για Ομαδοποιημένα Δεδομένα

  34. Σταθμικός Μέσος • Όταν ο μέσος υπολογίζεται αφού έχει δοθεί στην κάθε παρατήρηση βάρος ανάλογος της σημαντικότητάς της, ονομάζεται Σταθμικός Μέσος • Όταν οι παρατηρήσεις ενός δείγματος ή ενός πληθυσμού διαφέρουν όσον αφορά τη σημαντικότητά τους, ο αναλυτής πρέπει να διαλέξει προσεκτικά και τον ανάλογο συντελεστή στάθμισης (μπορούμε να φανταστούμε το συντελεστή στάθμισης σαν το ειδικό βάρος της κάθε παρατήρησης)

  35. xwt =  wi xi  wi όπου: xi= η τιμή της παρατήρησης i wi = ο συντελεστής στάθμισης της παρατήρησης i.

  36. Ομαδοποιημένα Δεδομένα • Ο Σταθμικός Μέσος μπορεί να χρησιμοποιηθεί για να προσεγγίσουμε το Μέσο, τη Διακύμανση και την Τυπική Απόκλιση ομαδοποιημένων δεδομένων • Για τον υπολογισμό του Σταθμικού Μέσου χρησιμοποιούμε τον Κεντρικό Όρο του κάθε διαστήματος ως το μέσο όλου του διαστήματος • Υπολογίζουμε το Σταθμικό Μέσο των Κεντρικών Όρων χρησιμοποιώντας τη συχνότητα του κάθε διαστήματος ως συντελεστή στάθμισης • Παρομοίως, υπολογίζουμε τη Διακύμανση και την Τυπική Απόκλιση χρησιμοποιώντας τη συχνότητα του κάθε διαστήματος ως συντελεστή στάθμισης

  37. Μέσος για Ομαδοποιημένα Στοιχεία • Δείγμα • Πληθυσμός όπου: fi= η συχνότητα του διαστήματος i Mi= ο Κεντρικός Όρος του Διαστήματος i

  38. Ο πίνακας περιλαμβάνει τα ενοίκια του προηγούμενου παραδείγματος ομαδοποιημένα σε κατανομή συχνοτήτων

  39. Μέσος Η διαφορά του Σταθμικού από τον απλό Μέσο είναι μόλις 2.41 Ευρώ

  40. Διακύμανση για Ομαδοποιημένα Δεδομένα • Δείγμα • Πληθυσμός

  41. Διακύμανση • Τυπική Απόκλιση Η προσέγγιση διαφέρει από την απλή Τυπική Απόκλιση μόνον κατά 0.20 Ευρώ

More Related