Corso di statistica
Download
1 / 77

Corso di statistica - PowerPoint PPT Presentation


  • 80 Views
  • Uploaded on

Campus di Arcavacata. Università della Calabria. Corso di statistica. Dott. Massimiliano Giacalone. ARCAVACATA a.a 2009-2010. INDIRIZZO E-MAIL: [email protected] Statistica

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Corso di statistica' - xena-lancaster


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Corso di statistica

Campus di Arcavacata

Università della Calabria

Corso di statistica

Dott. Massimiliano Giacalone

ARCAVACATA a.a 2009-2010



  • Statistica

  • Insieme di metodi finalizzati allo studio (mediante l’analisi) di fenomeni reali

  • Metodologia strumentale per l’analisi della realtà allo scopo di trarre leggi e regole generali per obiettivi predefiniti (Scienza o metodo?)

  • Scienza delle decisioni in condizioni di incertezza

  • …… in altre parole

  • “La statistica riguarda tutte le “operazioni” che rientrano in un processo di indagine finalizzato all’accrescimento della conoscenza “.

  • Perché l’indagine statistica?


Metodi statistici Statistica

obiettivi

informazioni

risultati


  • Indagine Statistica

  • Fasi

  • Definizione degli obiettivi (generali, parziali) in funzione dei vincoli (di tempo, di costo)

  • Raccolta (Rilevazione) dei dati

    • Dati derivanti da misurazioni, da questionario, da basi di dati

    • Rilevazioni semplici o complesse


  • Elaborazione dei dati Indagine Statistica

    • Memorizzazione

    • Codifica/Ricodifica

    • Analisi statistica

      • Descrittiva/Inferenziale,

      • Univariata/Multivariata

  • Presentazione dei risultati

  • Riformulazione delle ipotesi di ricerca / Ridefinizione degli obiettivi


TERMINOLOGIA

Rilevazioni statistiche

Complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi (caratteri) oggetto di studio.

Caratteristiche:

- semplici/complesse

- derivanti da risposte o da misure

- globali (censimenti) / parziali (rilevazioni campionarie)

Unità statistica: entità su cui viene condotta la rilevazione statistica

Popolazione: insieme di tutte le unità statistiche facenti parte di un collettivo di riferimento

Campione: sottoinsieme della popolazione


I Caratteri Statistici

Insieme di fenomeni oggetto di studio riguardanti le caratteristiche che differenziano tra loro le unità statistiche

L’espressione del carattere nelle unità statistiche si denomina modalità o intensità

  • Tipologie

  • Caratteri quantitativi (VARIABILI): assumono intensità rappresentate da numeri reali

    • Variabili continue

    • Variabili discrete

  • Caratteri qualitativi (MUTABILI): assumono modalità rappresentate da attributi non numerici

    • Nominali

    • Ordinali

    • Dicotomici

    • Tutti i caratteri possono essere resi dicotomici



  • Cosa si studia al corso di Statistica 1?

  • Statistica descrittiva:

  • Distribuzioni di frequenza

  • Rappresentazioni grafiche

  • Indici di posizione, variabilità e forma

  • Omogeneità ed eterogeneità

  • Relazioni statistiche (connessione, indipendenza in media, correlazione)

  • Statistica Inferenziale:

  • Probabilità

  • Variabili Casuali

  • Modelli per variabili casuali


La matrice corso di Statistica 1?(50 unità statistiche, 9 caratteri)

Un campione di 50 aziende appartenenti alle imprese produttrici di beni di largo consumo.

Rif.: M. Caputo (a cura di) Organizzare la logistica per l’Efficient Consumer Response, CEDAM, 1998


Sono stati riportati i settori merceologici elencati nella prima colonna della matrice dei dati sostituendo l’abbreviazione alla dicitura per esteso.


In simboli: prima colonna della matrice dei dati sostituendo l’abbreviazione alla dicitura per esteso.

Carattere osservato

Numero di unità statistiche

Numero di modalità/intensità di X

i-esima modalità/intensità di X

Frequenza assoluta della i-esima modalità xi

Frequenza relativa della i-esima modalità xi


Distribuzione di frequenza prima colonna della matrice dei dati sostituendo l’abbreviazione alla dicitura per esteso.

I )

II )


Carattere qualitativo nominale: Rappresentazioni grafiche prima colonna della matrice dei dati sostituendo l’abbreviazione alla dicitura per esteso.

Diagramma a barre

N.B. E’ possibile costruire il diagramma a barre riportando in ordinata le frequenze assolute OPPURE le frequenze relative, la forma della rappresentazione risulta invariata.


Carattere qualitativo nominale: Rappresentazioni grafiche prima colonna della matrice dei dati sostituendo l’abbreviazione alla dicitura per esteso.

Grafico a torta


Frequenza relativa cumulata: somma delle frequenze relative fino alla i-esima intensità. Si può calcolare per ogni tipo di distribuzione di frequenza.

N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi


Rappresentazioni grafiche del fino alla carattere “Numero di stabilimenti”



Carattere “N. di stabilimenti”: fino alla suddivisione delle intensità in 5 classi equiampie


Carattere “N. di stabilimenti”: fino alla costruzione della distribuzione in classi

N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi e quantitativi discreti


Carattere “N. di stabilimenti”: fino alla suddivisione delle intensità in 5 classi di diversa ampiezza e frequenza


Distribuzioni di frequenza fino alla

per caratteri quantitativicontinui


Carattere fino alla quantitativo continuo

FATTURATO





Rappresentazioni grafiche fino alla

1. Variabili qualitative

Diagramma a barre Diagramma a torta

  • Variabili nominali o ordinali

  • Frequenze assolute o relative

2. Variabili quantitative discrete

Diagramma a bastoni Diagramma a torta

  • Frequenze assolute o relative


3. fino alla Variabili quantitative continue

3.1 Istogramma

rettangoli = classi

base = ampiezza della classe di

altezza = densità di frequenza hi

area del imo rettangolo = frequenza della ima classe

area totale A = n


Esempio 1: variabile X fino alla

suddivisa in 2 classi di diverse ampiezza e frequenza

Istogramma delle frequenze assolute

Apparentemente sembrerebbe che le unità statistiche sono più concentrate nella prima classe, ma in realtà dovremmo tener presente che è vero che la frequenza nella prima classe è doppia rispetto alla frequenza nella seconda, ma è pur vero che la prima classe ha anche un’ampiezza doppia rispetto alla seconda.


Istogramma delle fino alla densità di frequenza (normalizzato)

Rappresentando la densità di frequenza, invece, risulta evidente che le due classi sono perfettamente omogenee relativamente al modo in cui le unità statistiche si distribuisconotra di esse.


Istogramma normalizzato in cui la densità di frequenza è calcolata sulle frequenze relative

base = ampiezza della classe di

altezza = densità di frequenza hi

area del rettangolo = frequenza relativa della classe

area totale A = 1


Dati: 30 consumatori di succhi di frutta calcolata sulle frequenze relative


Esempio 2 calcolata sulle frequenze relative

Carattere: “fedele CH”

Distribuzione di frequenza di 5 classi equiampie

n = 30


0 calcolata sulle frequenze relative

0

0,2

0,4

0,6

0,8

1

0,2

0,4

0,6

0,8

1

Istogramma delle frequenze relative

Istogramma delle densità di frequenza

In questo caso le due rappresentazioni sono ugualmente valide, ma solo in quanto le classi hanno la stessa ampiezza


Esempio 3 calcolata sulle frequenze relative

Carattere: “fedele CH”

Distribuzione di frequenza di 5 classi equifrequenti

n = 30

ni = 30 : 5 = 6


Istogramma delle calcolata sulle frequenze relativefrequenze assolute

Istogramma delle densità di frequenza

In questo caso è evidente che il primo grafico non è adeguato a rappresentare la distribuzione di frequenza.


  • In sintesi l’istogramma: calcolata sulle frequenze relative

  • considera l’intensità con cui le frequenze si addensano all’interno delle diverse classi

  • è sensibile a cambiamenti dei criteri di raggruppamento delle intensità in classi

  • permette di confrontare “graficamente” diverse distribuzioni


Esempio 4: Confronto grafico tra diversi criteri di raggruppamento delle classi Carattere “Fatturato”

A. Classi equifrequenti


Densità di raggruppamento delle classi

Istogramma del fatturato

frequenza

(classi equiampie e densità di frequenza)

0.0020

0.0015

0.0010

0.0005

0.0

500

1000

1500

2000

classi di modalità

f

n

=

i

h

=

i

F

f

Classi

i

i

d

d

n

i

i

103,0 |

--

| 484,8

381,8

0,82

0,00215

0,82

484,8

--

| 866,6

381,8

0,10

0,00026

0,92

866,6

--

| 1.248,

4

381,8

0,04

0,00010

0,96

--

| 1.630,2

381,8

0,02

1248,4

0,00005

0,98

1630,2

--

| 2.012,0

381,8

0,02

0,00005

1,00

1,00

Totale

B. Classi equiampie

Come cambia la distribuzione se consideriamo 5 classi equiampie?


La gran parte delle aziende incluse nel campione ha un raggruppamento delle classi

fatturato compreso tra 100 e 500 milioni (I classe).

Domanda

: La distribuzione del fatturato delle aziende

appartenenti alla prima classe di fatturato può

considerarsi uniforme?

Risposta

: consideriamo la seguente distribuzione in

classi:

--

|300, 300

--

|400,

100|

--

|200, 200

--

|2.100

400

--

|500, 500

f

n

=

Classi

i

h

=

i

f

F

i

i

d

d

n

i

i

0,0050

100 |

--

| 200

0,50

0,50

100

0,0010

200

--

| 300

0,10

0,60

100

0,0014

300

--

| 400

0,14

0,74

100

0,0010

400

--

| 500

0,10

0,84

100

0,0001

500

--

| 2.100

0,16

1,00

1.600

Totale

1,00

C. Classi di diversa ampiezza e frequenza


Confronto grafico: raggruppamento delle classi quale suddivisione in classi approssima meglio i dati originari?


Densità di raggruppamento delle classi

frequenza

Istogramma del fatturato

(classi di diversa ampiezza e frequenza e densità di frequenza)

0.005

0.004

0.003

0.002

0.001

0.0

500

1000

1500

2000

classi di modalità

Come si evince dall’istogramma, la densità di

frequenza è più elevata in corrispondenza della

prima classe (da 100 a 200 miliardi), per cui la

distribuzione del fatturato delle aziende

appartenenti alla prima classe di fatturato (100 – 500)

relativa al caso delle classi equifrequenti

NON

può considerarsi uniforme.


3.2 raggruppamento delle classi Funzione di ripartizione empirica


Rappresentazione grafica raggruppamento delle classi

Carattere “Fatturato”

Classi equiampie



LE RELAZIONI STATISTICHE raggruppamento delle classi

Riguardano lo studio delle relazioni tra due o più caratteri statistici.

Due o più caratteri vengono analizzati simultaneamente al fine di evidenziare i legami intercorrenti tra di essi.

Nel caso delle relazioni tra due caratteri, l’oggetto dello studio è la distribuzione doppia (o bivariata) rappresentabile in una tabella a doppia entrata.


LA DISTRIBUZIONE DOPPIA raggruppamento delle classi

frequenza marginale di riga

carattere in colonna

carattere in riga

j-ma modalità (intensità) di Y

i-ma modalità (intensità) di X

frequenza congiunta di xi ed yj

frequenza marginale di colonna


LA DISTRIBUZIONE DOPPIA raggruppamento delle classi Caratteristiche principali

  • Se dividiamo ogni cella per n otteniamo la tabella doppia per frequenze relative

  • Valgono per estensione tutte le proprietà viste per le distribuzioni semplici


LA DISTRIBUZIONE DOPPIA raggruppamento delle classi Frequenze relative


ESEMPIO raggruppamento delle classi

A partire dalla successione delle intensità riguardanti i caratteri Fatturato (FATT) e Fatturato Estero (FATEST) si costruisca la distribuzione doppia di frequenze rappresentandola in una tabella a doppia entrata suddividendo le intensità dei due caratteri nei modi seguenti:


DISTRIBUZIONI MARGINALI raggruppamento delle classi

DISTRIBUZIONI CONDIZIONATE DI X


DISTRIBUZIONI CONDIZIONATE DI raggruppamento delle classi Y


Misure di tendenza centrale raggruppamento delle classi

Sono misure sintetiche che posizionano la distribuzione di frequenza di un fenomeno e consentono il passaggio da una pluralità di informazioni ad un solo numero

L’obiettivo è di consentire di effettuare confronti nel tempo, nello spazio o tra circostanze differenti

  • Media

  • Moda

  • Quantili

  • Mediana

  • Quartili

  • Decili

  • Percentili


Moda raggruppamento delle classi

La Moda (o “norma” o “valore normale”) di una distribuzione è rappresentata dal valore (qualitativo o numerico) che presenta la frequenza assoluta o relativa più elevata.

Sintetizzare una distribuzione con la sua moda equivale ad assumere come valore “più rappresentativo” quello che si è verificato più spesso.

L’uso della moda ha tanto più senso quanto più la sua frequenza si differenzia rispetto a quella delle altre modalità o intensità


Variabili nominali raggruppamento delle classi

Carattere SCELTA

Mo = CH

Variabili quantitative discrete

Carattere NUMERO DI BOTTIGLIE

Mo = 5


  • Distribuzioni in classi raggruppamento delle classi

  • Classi equiampie: la classe modale è la classe a cui corrisponde la frequenza più elevata

  • Classi equifrequenti o di diversa ampiezza e frequenza: la classe modale è la classe a cui corrisponde la densità di frequenza più elevata

Carattere PREZZO CH, classi equiampie (primi 20 consumatori)

Mo = classe modale = 2,01 --| 2,09


Istogramma normalizzato raggruppamento delle classi

Funzione di ripartizione empirica


Carattere Fatturato, classi equifrequenti raggruppamento delle classi

Classe modale = 103 |--| 129


Distribuzioni bimodali o plurimodali raggruppamento delle classi

Carattere NEGOZIO

Il carattere presenta due modalità con la massima frequenza, dunque le due mode sono:

Mo1 = Bar Mo2 = Coloniali

Distribuzione zeromodale

Mo = ???


I QUANTILI raggruppamento delle classi

Valori che bipartiscono la distribuzione delle intensità/modalità in due gruppi disgiunti.

  • Mediana

  • Quartili

  • Decili

  • Percentili

N:B. Quando si calcolano i quantili è sempre neces-sario ordinare le intensi-tà/modalità in senso non decrescente

Quantili

MEDIANA

  • Valore che bipartisce la distribuzione ordinata delle intensità/modalità x(1),……,x(n) in due gruppi della stessa numerosità

  • Intensità/modalità dell’unità statistica che occupa il posto centrale nella distribuzione ordinata x(1),……,x(n)

  • Intensità/modalità in corrispondenza della quale la funzione di ripartizione è pari a 0,5 (FME = 0,5)

  • E’ quel valore Me tale che tra il minimo x(1) ed Me vi sono n/2 intensità/modalità (II Quartile Q2 )


Caratteri quantitativi discreti raggruppamento delle classi

intensità che occupa la i-esima posizione nella successione ordinata delle intensità (i=1,….,n)

N.B. Se n è pari, la mediana può non corrispondere a nessuna delle intensità osservate.

Caratteri qualitativi ordinali

Si individuano le 2 modalità:

x(Me-1) tale che F(x(Me-1) )<0,5

x(Me) tale che F(x(Me))  0,5

Me x(Me), perché tra le ni unità che possiedono modalità xMesarà certamente compresa quella (se n è dispari) o quelle (se n è pari) di posto centrale.


Carattere NUMERO DI BOTTIGLIE raggruppamento delle classi

1 1 1 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6

n = 30

Essendo n pari la mediana è ottenuta come:

Eliminando l’ultima osservazione: n = 29

Essendo n dispari:


Classe mediana raggruppamento delle classi : classe in corrispondenza della quale la funzione di ripartizione empirica passa (anche idealmente) per il punto 0,5.

Caratteri quantitativi continui

estremo inferiore della classe mediana

estremo superiore della classe mediana

Valore della Funzione di ripartizione in corrispondenza della classe mediana

Valore della Funzione di ripartizione in corrispondenza della classe che precede la classe mediana


N.B. L’area tratteggiata è pari a 0,5 raggruppamento delle classi


1. Individuazione della classe mediana raggruppamento delle classi

CMe = Ci : Fi = min (Fi > 0,5)

] 15,43; 25,59 ]

2. Stima della mediana all’interno della classe


QUARTILI raggruppamento delle classi

Primo Quartile: E’ quel valore Q1 tale che tra il minimo x(1) e Q1 vi sono n/4 intensità.

Caratteri qualitativi ordinali

Si individuano le 2 modalità:

x(Q1-1) tale che F(x(Q1 -1) )<0,25

x(Q1) tale che F(x(Q1))  0,25

Q1 x(Q1), perché tra le ni unità che possiedono modalità xQ1sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto n/4.


Terzo Quartile: raggruppamento delle classi E’ quel valore Q3 tale che tra il minimo x(1) e Q3 vi sono 3n/4 intensità.

Caratteri qualitativi ordinali

Si individuano le 2 modalità:

x(Q3-1) tale che F(x(Q3 -1) )<0,75

x(Q3) tale che F(x(Q3) )  0,75

Q3 x(Q3), perché tra le ni unità che possiedono modalità xQ3sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto 3n/4.


Calcolo dei quartili per una distribuzione semplice raggruppamento delle classi

Carattere NUMERO DI BOTTIGLIE

1 1 1 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6

n = 30

Considerando le due semi-distribuzioni, ciascuna di numerosità n’:


Caratteri quantitativi continui raggruppamento delle classi

DECILI

q-mo Decile: E’ quel valore Dq tale che tra il minimo x(1) e Dq vi sono (q·n)/10 intensità.

Per una distribuzione si possono calcolare fino a 9 Decili

PERCENTILI

q-mo Percentile: E’ quel valore Pq tale che tra il minimo x(1) e Pq vi sono (q·n)/100 intensità.

Per una distribuzione si possono calcolare fino a 99 Percentili

Per il calcolo dei Decili e dei Percentili si utilizzano le stesse formule (adattate allo specifico indice) utilizzate per il calcolo della Mediana.


I raggruppamento delle classi quartili di una distribuzione in classi saranno determinati in base alla formula per il generico quantile xpx:

in cui, individuata la classe di riferimento, si sostituirà ad Fdesiderata il valore 0,25 per Q1, 0,5 per Q2 (Me) e 0,75 per Q3.

CQ1 = Ci : Fi = min (Fi > 0,25) = C1

CQ3 = Ci : Fi = min (Fi > 0,25) = C3


ad