430 likes | 754 Views
Περιγραφική Στατιστική: Μετρήσεις Κεντρικής Τάσης, Διασποράς και Συσχέτισης. Μετρήσεις Κεντρικής Τάσης. Μέσος Διάμεσος Επικρατούσα Τιμή Εκατοστημόρια Τερταρτημόρια. Παράδειγμα: Ενοίκια Διαμερισμάτων.
E N D
Περιγραφική Στατιστική: ΜετρήσειςΚεντρικής Τάσης, Διασποράς και Συσχέτισης
Μετρήσεις Κεντρικής Τάσης • Μέσος • Διάμεσος • Επικρατούσα Τιμή • Εκατοστημόρια • Τερταρτημόρια
Παράδειγμα: Ενοίκια Διαμερισμάτων Ο πίνακας περιέχει ένα δείγμα μηνιαίων ενοικίων για δυάρια. Το δείγμα αποτελείται από 70 διαμερίσματα σε μία συγκεκριμένη πόλη. Τα στοιχεία έχουν ταξινομηθεί σε αύξουσα σειρά
Μέσος • Ο μέσος είναι απλά ο μέσος όρος όλων των παρατηρήσεων. • Αν τα στοιχεία προέρχονται από δείγμα, ο μέσος ισούται με: • Αν τα στοιχεία προέρχονται από τον πληθυσμό, ο μέσος υποδηλώνεται με μ και ισούται με:
Διάμεσος • Η διάμεσος ενός συνόλου στοιχείων είναι η τιμή στο μέσον αυτού του συνόλου αφού τα δεδομένα ταξινομηθούν με αύξουσα σειρά • Αν ο αριθμός των παρατηρήσεων είναι περιττός, η διάμεσος είναι η τιμή της παρατήρησης που βρίσκεται ακριβώς στη μέση • Αν ο αριθμός των παρατηρήσεων είναι άρτιος, η διάμεσος είναι ο μέσος όρος των δύο μεσαίων παρατηρήσεων
Βρίσκουμε το μέσο όρο της 35ης και της 36ης παρατήρησης Διάμεσος = (475 + 475)/2 = 475
Επικρατούσα Τιμή • Η Επικρατούσα Τιμή ενός συνόλου παρατηρήσεων είναι η τιμή που εμφανίζεται με τη μεγαλύτερη συχνότητα Η τιμή 450 εμφανίζεται πιο συχνά (7 φορές) Επικρατούσα Τιμή = 450
Εκατοστημόρια • Το pthεκατοστημόριο ενός συνόλου στοιχείων είναι μία τιμή τέτοια ώστε τουλάχιστον το p% των παρατηρήσεων είναι ίσα ή μικρότερα με την τιμή αυτή και τουλάχιστον (100-p)% είναι ίσα ή μεγαλύτερα. • Ταξινομούμε τα στοιχεία σε αύξουσα σειρά. • Υπολογίζουμε τη θέση i που είναι η θέση του pthεκατοστημορίου i = (p/100)n • Αν το i δεν είναι ακέραιος, στρογγυλοποιούμε προς τα πάνω. Το pth εκατοστημόριο είναι η τιμή στη θέση i. • Αν το ι είναι ακέραιος το pthεκατοστημόριο είναι ο μέσος όρος των θέσεων i και i+1.
Ενενηκοστό εκατοστημόριο: i = (p/100)n = (90/100)70 = 63 Παίρνουμε το μέσο όρο της 63ης και της 64ης θέσης: 90ο εκατοστημόριο = (580 + 590)/2 = 585
Τεταρτημόρια • Τα τεταρτημόρια είναι συγκεκριμένα εκατοστημόρια • 1ο Τεταρτημόριο = 25ο Εκατοστημόριο • 2ο Τεταρτημόριο = 50ο Εκατοστημόριο = Διάμεσος • 3ο Τεταρτημόριο = 75ο Εκατοστημόριο
Τρίτο Τεταρτημόριο Τρίτο Τεταρτημόριο = 75ο εκατοστημόριο i = (p/100)n = (75/100)70 = 52.5 = 53 Τρίτο τεταρτημόριο = 525
Μετρήσεις Διασποράς • Εύρος • Ενδοτεταρτημοριακή Απόκλιση • Διακύμανση • Τυπική Απόκλιση • Συντελεστής Μεταβλητότητας
Εύρος • Το Εύρος ενός συνόλου παρατηρήσεων είναι η διαφορά μεταξύ της μεγαλύτερης και της μικρότερης τιμής • Το εύρος είναι το πιο απλό μέσο διασποράς • Το εύρος όμως είναι και πολύ ευαίσθητο σε πολύ μικρές και πολύ μεγάλες τιμές
Εύρος = Μεγαλύτερη Τιμή – Μικρότερη Τιμή Εύρος = 615 - 425 = 190
Ενδοτεταρτημοριακή Απόκλιση • Η Ενδοτεταρτημοριακή Απόκλιση είναι η διαφορά μεταξύ του 3ου και του πρώτου τεταρτημορίου • Περιέχει το μεσαίο 50% των στοιχείων • Λύνει το πρόβλημα της ευαισθησίας σε ακραίες τιμές
3ο Τεταρτημόριο (Q3) = 525 1ο Τεταρτημόριο (Q1) = 445 Ενδοτεταρτημοριακή Απόκλιση = Q3 - Q1 = 525 - 445 = 80
Διακύμανση • Η διακύμανση είναι ο μέσος όρος των τετραγωνικών αποκλίσεων από το μέσο • Αν οι παρατηρήσεις προέρχονται από δείγμα η διακύμανση δηλώνεται με s2. • Αν οι παρατηρήσεις προέρχονται από τον πληθυσμό η διακύμανση δηλώνεται με σ2.
Τυπική Απόκλιση • Η Τυπική Απόκλιση είναι η τετραγωνική ρίζα της Διακύμανσης. • Η Τυπική Απόκλιση μετριέται στις ίδιες μονάδες που μετριούνται και οι παρατηρήσεις και επομένως είναι πιο εύκολα συγκρίσιμη με το μέσο από ότι η διακύμανση • Αν οι παρατηρήσεις προέρχονται από δείγμα, η Τυπική Απόκλιση δηλώνεται με s. • Αν οι παρατηρήσεις προέρχονται από τον πληθυσμό η Τυποκή Απόκλιση δηλώνεται με σ.
Συντελεστής Μεταβλητότητας • Ο συντελεστής μεταβλητότητας δείχνει πόσο μεγάλη είναι η Τυπική Απόκλιση σε σχέση με το Μέσο • Αν τα στοιχεία προέρχονται από δείγμα, ο Συντελεστής Μεταβλητότητας υπολογίζεται ως εξής: • Αν τα στοιχεία προέρχονται από τον πληθυσμό, ο Συντελεστής Μεταβλητότητας υπολογίζεται ως εξής:
Διακύμανση • Τυπική Απόκλιση • Συντελεστής Μεταβλητότητας
Μετρήσεις Σχετικής Θέσης και Εντοπισμός Ακραίων Τιμών • Τιμή z • Θεώρημα Chebyshev • Ο εμπειρικός Κανόνας • Εντοπισμός Ακραίων ΤΙμών
Τιμές z • Η τιμή z ονομάζεται και κανονικοποιημένη. • Δηλώνει την απόσταση μιας τιμής από το μέσο σε όρους τυπικής απόκλισης • Μία τιμή μικρότερη από το μέσο έχει τιμή z αρνητική • Μία τιμή μεγαλύτερη από το μέσο έχει τιμή z θετική • Μία τιμή που ισούται με το μέσο έχει τιμή z μηδέν
Τιμή z για τη μικρότερη τιμή του δείγματος (425) Κανονικοποιημένες Τιμές για τα Ενοίκια
Ο Εμπειρικός Κανόνας Για ομάδες δεδομένων που είναι κατανεμημένες κανονικά: • Περίπου το 68% των παρατηρήσεων βρίσκονται σε απόσταση μίας τυπικής απόκλισης από το μέσο • Περίπου το 95% των παρατηρήσεων βρίσκονται σε απόσταση δύο τυπικών αποκλίσεων από το μέσο • Σχεδόν όλες οι παρατηρήσεις βρίσκονται σε απόσταση τριών τυπικών αποκλίσεων από το μέσο
% παρατηρήσεων Διάστημαστο διάστημα +/- 1s 436.06 to 545.54 48/70 = 69% +/- 2s 381.32 to 600.28 68/70 = 97% +/- 3s 326.58 to 655.02 70/70 = 100%
Εντοπισμός Ακραίων Τιμών • Ακραία Τιμή θεωρείται μία εξαιρετικά μικρή ή εξαιρετικά μεγάλη παρατήρηση • Μία παρατήρηση με τιμή z μεγαλύτερη του 3 ή μικρότερη του -3 μπορεί να θεωρηθεί ακραία • Μπορεί η παρατήρηση να καταγράφηκε λάθος • Μπορεί η παρατήρηση να εισήχθη κατά λάθος στο συγκεκριμένο σύνολο δεδομένων • Μπορεί απλά να είναι σωστή αλλά όντως ακραία
Οι πιο ακραίες τιμές z στο παράδειγμα είναι -1.20 και 2.27 Χρησιμοποιώντας το κριτήριο |z|≥3, καταλήγουμε στο συμπέρασμα πως δεν υπάρχουν ακραίες τιμές στο δείγμα των ενοικιαζόμενων δωματίων Κανονικοποιημένες Τιμές για τα Ενοίκια
Θεώρημα Chebyshev Τουλάχιστον (1-1/κ2) παρατηρήσεις σ’ ένα σύνολο δεδομένων θα βρίσκεται σε απόσταση κ τυπικών αποκλίσεων από το μέσο, όπου κ οποιοσδήποτε αριθμός μεγαλύτερος του 1. • Τουλάχιστον το 75% των παρατηρήσεων πρέπει να βρίσκονται σε απόσταση κ=2 τυπικών αποκλίσεων από το μέσο • Τουλάχιστον το 89% των παρατηρήσεων πρέπει να βρίσκονται σε απόσταση κ=3 τυπικών αποκλίσεων από το μέσο • Τουλάχιστον το 94% των παρατηρήσεων πρέπει να βρίσκονται σε απόσταση κ=4 τυπικών αποκλίσεων από το μέσο
Μετρήσεις Συσχέτισης Μεταξύ Δύο Μεταβλητών • Συντελεστής Συσχέτισης
r < 0 r > 0 Τρεις περιπτώσεις συσχέτισης r = 0
Ο Συντελεστής Συσχέτισης παίρνει τιμές μεταξύ -1 και 1. • Ο Συντελεστής Συσχέτισης δεν δείχνει αιτιότητα • Τιμές κοντά στο -1 δείχνουν ισχυρή αρνητική συσχέτιση • Τιμές κοντά στο 1 δείχνουν ισχυρή θετική συσχέτιση • Αν τα δεδομένα προέρχονται από δείγμα ο συντελεστής είναι rxy. • Αν τα δεδομένα προέρχονται από τον πληθυσμό ο συντελεστής είναι ρxy
Σταθμικός Μέσος και Περιγραφική Στατιστική για Ομαδοποιημένα Στοιχεία • Σταθμικός Μέσος • Μέσος για ομαδοποιημένα Δεδομένα • Διακύμανση για ομαδοποιημένα Δεδομένα • Τυπική Απόκλιση για Ομαδοποιημένα Δεδομένα
Σταθμικός Μέσος • Όταν ο μέσος υπολογίζεται αφού έχει δοθεί στην κάθε παρατήρηση βάρος ανάλογος της σημαντικότητάς της, ονομάζεται Σταθμικός Μέσος • Όταν οι παρατηρήσεις ενός δείγματος ή ενός πληθυσμού διαφέρουν όσον αφορά τη σημαντικότητά τους, ο αναλυτής πρέπει να διαλέξει προσεκτικά και τον ανάλογο συντελεστή στάθμισης (μπορούμε να φανταστούμε το συντελεστή στάθμισης σαν το ειδικό βάρος της κάθε παρατήρησης)
xwt = wi xi wi όπου: xi= η τιμή της παρατήρησης i wi = ο συντελεστής στάθμισης της παρατήρησης i.
Ομαδοποιημένα Δεδομένα • Ο Σταθμικός Μέσος μπορεί να χρησιμοποιηθεί για να προσεγγίσουμε το Μέσο, τη Διακύμανση και την Τυπική Απόκλιση ομαδοποιημένων δεδομένων • Για τον υπολογισμό του Σταθμικού Μέσου χρησιμοποιούμε τον Κεντρικό Όρο του κάθε διαστήματος ως το μέσο όλου του διαστήματος • Υπολογίζουμε το Σταθμικό Μέσο των Κεντρικών Όρων χρησιμοποιώντας τη συχνότητα του κάθε διαστήματος ως συντελεστή στάθμισης • Παρομοίως, υπολογίζουμε τη Διακύμανση και την Τυπική Απόκλιση χρησιμοποιώντας τη συχνότητα του κάθε διαστήματος ως συντελεστή στάθμισης
Μέσος για Ομαδοποιημένα Στοιχεία • Δείγμα • Πληθυσμός όπου: fi= η συχνότητα του διαστήματος i Mi= ο Κεντρικός Όρος του Διαστήματος i
Ο πίνακας περιλαμβάνει τα ενοίκια του προηγούμενου παραδείγματος ομαδοποιημένα σε κατανομή συχνοτήτων
Μέσος Η διαφορά του Σταθμικού από τον απλό Μέσο είναι μόλις 2.41 Ευρώ
Διακύμανση για Ομαδοποιημένα Δεδομένα • Δείγμα • Πληθυσμός
Διακύμανση • Τυπική Απόκλιση Η προσέγγιση διαφέρει από την απλή Τυπική Απόκλιση μόνον κατά 0.20 Ευρώ