corso di statistica n.
Download
Skip this Video
Download Presentation
Corso di statistica

Loading in 2 Seconds...

play fullscreen
1 / 77

Corso di statistica - PowerPoint PPT Presentation


  • 84 Views
  • Uploaded on

Campus di Arcavacata. Università della Calabria. Corso di statistica. Dott. Massimiliano Giacalone. ARCAVACATA a.a 2009-2010. INDIRIZZO E-MAIL: massimiliano.giacalone@yahoo.it. Statistica

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Corso di statistica' - xena-lancaster


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
corso di statistica

Campus di Arcavacata

Università della Calabria

Corso di statistica

Dott. Massimiliano Giacalone

ARCAVACATA a.a 2009-2010

slide2
INDIRIZZO E-MAIL:

massimiliano.giacalone@yahoo.it

slide3

Statistica

  • Insieme di metodi finalizzati allo studio (mediante l’analisi) di fenomeni reali
  • Metodologia strumentale per l’analisi della realtà allo scopo di trarre leggi e regole generali per obiettivi predefiniti (Scienza o metodo?)
  • Scienza delle decisioni in condizioni di incertezza
  • …… in altre parole
  • “La statistica riguarda tutte le “operazioni” che rientrano in un processo di indagine finalizzato all’accrescimento della conoscenza “.
  • Perché l’indagine statistica?
slide4

Metodi statistici

obiettivi

informazioni

risultati

slide5

Indagine Statistica

  • Fasi
  • Definizione degli obiettivi (generali, parziali) in funzione dei vincoli (di tempo, di costo)
  • Raccolta (Rilevazione) dei dati
    • Dati derivanti da misurazioni, da questionario, da basi di dati
    • Rilevazioni semplici o complesse
slide6

Elaborazione dei dati

    • Memorizzazione
    • Codifica/Ricodifica
    • Analisi statistica
      • Descrittiva/Inferenziale,
      • Univariata/Multivariata
  • Presentazione dei risultati
  • Riformulazione delle ipotesi di ricerca / Ridefinizione degli obiettivi
slide7

TERMINOLOGIA

Rilevazioni statistiche

Complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi (caratteri) oggetto di studio.

Caratteristiche:

- semplici/complesse

- derivanti da risposte o da misure

- globali (censimenti) / parziali (rilevazioni campionarie)

Unità statistica: entità su cui viene condotta la rilevazione statistica

Popolazione: insieme di tutte le unità statistiche facenti parte di un collettivo di riferimento

Campione: sottoinsieme della popolazione

slide8

I Caratteri Statistici

Insieme di fenomeni oggetto di studio riguardanti le caratteristiche che differenziano tra loro le unità statistiche

L’espressione del carattere nelle unità statistiche si denomina modalità o intensità

  • Tipologie
  • Caratteri quantitativi (VARIABILI): assumono intensità rappresentate da numeri reali
    • Variabili continue
    • Variabili discrete
  • Caratteri qualitativi (MUTABILI): assumono modalità rappresentate da attributi non numerici
    • Nominali
    • Ordinali
    • Dicotomici
    • Tutti i caratteri possono essere resi dicotomici
slide10

Cosa si studia al corso di Statistica 1?

  • Statistica descrittiva:
  • Distribuzioni di frequenza
  • Rappresentazioni grafiche
  • Indici di posizione, variabilità e forma
  • Omogeneità ed eterogeneità
  • Relazioni statistiche (connessione, indipendenza in media, correlazione)
  • Statistica Inferenziale:
  • Probabilità
  • Variabili Casuali
  • Modelli per variabili casuali
slide11

La matrice (50 unità statistiche, 9 caratteri)

Un campione di 50 aziende appartenenti alle imprese produttrici di beni di largo consumo.

Rif.: M. Caputo (a cura di) Organizzare la logistica per l’Efficient Consumer Response, CEDAM, 1998

slide15

Sono stati riportati i settori merceologici elencati nella prima colonna della matrice dei dati sostituendo l’abbreviazione alla dicitura per esteso.

slide16

In simboli:

Carattere osservato

Numero di unità statistiche

Numero di modalità/intensità di X

i-esima modalità/intensità di X

Frequenza assoluta della i-esima modalità xi

Frequenza relativa della i-esima modalità xi

slide18

Carattere qualitativo nominale: Rappresentazioni grafiche

Diagramma a barre

N.B. E’ possibile costruire il diagramma a barre riportando in ordinata le frequenze assolute OPPURE le frequenze relative, la forma della rappresentazione risulta invariata.

slide20

Frequenza relativa cumulata: somma delle frequenze relative fino alla i-esima intensità. Si può calcolare per ogni tipo di distribuzione di frequenza.

N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi

slide24

Carattere “N. di stabilimenti”: costruzione della distribuzione in classi

N.B. Valgono tutte le altre proprietà viste per le distribuzioni di frequenza dei caratteri qualitativi e quantitativi discreti

slide25

Carattere “N. di stabilimenti”: suddivisione delle intensità in 5 classi di diversa ampiezza e frequenza

slide27

Distribuzioni di frequenza

per caratteri quantitativicontinui

slide32

Rappresentazioni grafiche

1. Variabili qualitative

Diagramma a barre Diagramma a torta

  • Variabili nominali o ordinali
  • Frequenze assolute o relative

2. Variabili quantitative discrete

Diagramma a bastoni Diagramma a torta

  • Frequenze assolute o relative
slide33

3. Variabili quantitative continue

3.1 Istogramma

rettangoli = classi

base = ampiezza della classe di

altezza = densità di frequenza hi

area del imo rettangolo = frequenza della ima classe

area totale A = n

slide34

Esempio 1: variabile X

suddivisa in 2 classi di diverse ampiezza e frequenza

Istogramma delle frequenze assolute

Apparentemente sembrerebbe che le unità statistiche sono più concentrate nella prima classe, ma in realtà dovremmo tener presente che è vero che la frequenza nella prima classe è doppia rispetto alla frequenza nella seconda, ma è pur vero che la prima classe ha anche un’ampiezza doppia rispetto alla seconda.

slide35

Istogramma delle densità di frequenza (normalizzato)

Rappresentando la densità di frequenza, invece, risulta evidente che le due classi sono perfettamente omogenee relativamente al modo in cui le unità statistiche si distribuisconotra di esse.

slide36

Istogramma normalizzato in cui la densità di frequenza è calcolata sulle frequenze relative

base = ampiezza della classe di

altezza = densità di frequenza hi

area del rettangolo = frequenza relativa della classe

area totale A = 1

slide39

Esempio 2

Carattere: “fedele CH”

Distribuzione di frequenza di 5 classi equiampie

n = 30

slide40

0

0

0,2

0,4

0,6

0,8

1

0,2

0,4

0,6

0,8

1

Istogramma delle frequenze relative

Istogramma delle densità di frequenza

In questo caso le due rappresentazioni sono ugualmente valide, ma solo in quanto le classi hanno la stessa ampiezza

slide41

Esempio 3

Carattere: “fedele CH”

Distribuzione di frequenza di 5 classi equifrequenti

n = 30

ni = 30 : 5 = 6

slide42

Istogramma delle frequenze assolute

Istogramma delle densità di frequenza

In questo caso è evidente che il primo grafico non è adeguato a rappresentare la distribuzione di frequenza.

slide43

In sintesi l’istogramma:

  • considera l’intensità con cui le frequenze si addensano all’interno delle diverse classi
  • è sensibile a cambiamenti dei criteri di raggruppamento delle intensità in classi
  • permette di confrontare “graficamente” diverse distribuzioni
slide44

Esempio 4: Confronto grafico tra diversi criteri di raggruppamento delle classi Carattere “Fatturato”

A. Classi equifrequenti

slide45

Densità di

Istogramma del fatturato

frequenza

(classi equiampie e densità di frequenza)

0.0020

0.0015

0.0010

0.0005

0.0

500

1000

1500

2000

classi di modalità

f

n

=

i

h

=

i

F

f

Classi

i

i

d

d

n

i

i

103,0 |

--

| 484,8

381,8

0,82

0,00215

0,82

484,8

--

| 866,6

381,8

0,10

0,00026

0,92

866,6

--

| 1.248,

4

381,8

0,04

0,00010

0,96

--

| 1.630,2

381,8

0,02

1248,4

0,00005

0,98

1630,2

--

| 2.012,0

381,8

0,02

0,00005

1,00

1,00

Totale

B. Classi equiampie

Come cambia la distribuzione se consideriamo 5 classi equiampie?

slide46

La gran parte delle aziende incluse nel campione ha un

fatturato compreso tra 100 e 500 milioni (I classe).

Domanda

: La distribuzione del fatturato delle aziende

appartenenti alla prima classe di fatturato può

considerarsi uniforme?

Risposta

: consideriamo la seguente distribuzione in

classi:

--

|300, 300

--

|400,

100|

--

|200, 200

--

|2.100

400

--

|500, 500

f

n

=

Classi

i

h

=

i

f

F

i

i

d

d

n

i

i

0,0050

100 |

--

| 200

0,50

0,50

100

0,0010

200

--

| 300

0,10

0,60

100

0,0014

300

--

| 400

0,14

0,74

100

0,0010

400

--

| 500

0,10

0,84

100

0,0001

500

--

| 2.100

0,16

1,00

1.600

Totale

1,00

C. Classi di diversa ampiezza e frequenza

slide48

Densità di

frequenza

Istogramma del fatturato

(classi di diversa ampiezza e frequenza e densità di frequenza)

0.005

0.004

0.003

0.002

0.001

0.0

500

1000

1500

2000

classi di modalità

Come si evince dall’istogramma, la densità di

frequenza è più elevata in corrispondenza della

prima classe (da 100 a 200 miliardi), per cui la

distribuzione del fatturato delle aziende

appartenenti alla prima classe di fatturato (100 – 500)

relativa al caso delle classi equifrequenti

NON

può considerarsi uniforme.

slide50

Rappresentazione grafica

Carattere “Fatturato”

Classi equiampie

slide52

LE RELAZIONI STATISTICHE

Riguardano lo studio delle relazioni tra due o più caratteri statistici.

Due o più caratteri vengono analizzati simultaneamente al fine di evidenziare i legami intercorrenti tra di essi.

Nel caso delle relazioni tra due caratteri, l’oggetto dello studio è la distribuzione doppia (o bivariata) rappresentabile in una tabella a doppia entrata.

slide53

LA DISTRIBUZIONE DOPPIA

frequenza marginale di riga

carattere in colonna

carattere in riga

j-ma modalità (intensità) di Y

i-ma modalità (intensità) di X

frequenza congiunta di xi ed yj

frequenza marginale di colonna

slide54

LA DISTRIBUZIONE DOPPIACaratteristiche principali

  • Se dividiamo ogni cella per n otteniamo la tabella doppia per frequenze relative
  • Valgono per estensione tutte le proprietà viste per le distribuzioni semplici
slide56

ESEMPIO

A partire dalla successione delle intensità riguardanti i caratteri Fatturato (FATT) e Fatturato Estero (FATEST) si costruisca la distribuzione doppia di frequenze rappresentandola in una tabella a doppia entrata suddividendo le intensità dei due caratteri nei modi seguenti:

slide58

DISTRIBUZIONI MARGINALI

DISTRIBUZIONI CONDIZIONATE DI X

slide60

Misure di tendenza centrale

Sono misure sintetiche che posizionano la distribuzione di frequenza di un fenomeno e consentono il passaggio da una pluralità di informazioni ad un solo numero

L’obiettivo è di consentire di effettuare confronti nel tempo, nello spazio o tra circostanze differenti

  • Media
  • Moda
  • Quantili
  • Mediana
  • Quartili
  • Decili
  • Percentili
slide61

Moda

La Moda (o “norma” o “valore normale”) di una distribuzione è rappresentata dal valore (qualitativo o numerico) che presenta la frequenza assoluta o relativa più elevata.

Sintetizzare una distribuzione con la sua moda equivale ad assumere come valore “più rappresentativo” quello che si è verificato più spesso.

L’uso della moda ha tanto più senso quanto più la sua frequenza si differenzia rispetto a quella delle altre modalità o intensità

slide62

Variabili nominali

Carattere SCELTA

Mo = CH

Variabili quantitative discrete

Carattere NUMERO DI BOTTIGLIE

Mo = 5

slide63

Distribuzioni in classi

  • Classi equiampie: la classe modale è la classe a cui corrisponde la frequenza più elevata
  • Classi equifrequenti o di diversa ampiezza e frequenza: la classe modale è la classe a cui corrisponde la densità di frequenza più elevata

Carattere PREZZO CH, classi equiampie (primi 20 consumatori)

Mo = classe modale = 2,01 --| 2,09

slide64

Istogramma normalizzato

Funzione di ripartizione empirica

slide65

Carattere Fatturato, classi equifrequenti

Classe modale = 103 |--| 129

slide66

Distribuzioni bimodali o plurimodali

Carattere NEGOZIO

Il carattere presenta due modalità con la massima frequenza, dunque le due mode sono:

Mo1 = Bar Mo2 = Coloniali

Distribuzione zeromodale

Mo = ???

slide67

I QUANTILI

Valori che bipartiscono la distribuzione delle intensità/modalità in due gruppi disgiunti.

  • Mediana
  • Quartili
  • Decili
  • Percentili

N:B. Quando si calcolano i quantili è sempre neces-sario ordinare le intensi-tà/modalità in senso non decrescente

Quantili

MEDIANA

  • Valore che bipartisce la distribuzione ordinata delle intensità/modalità x(1),……,x(n) in due gruppi della stessa numerosità
  • Intensità/modalità dell’unità statistica che occupa il posto centrale nella distribuzione ordinata x(1),……,x(n)
  • Intensità/modalità in corrispondenza della quale la funzione di ripartizione è pari a 0,5 (FME = 0,5)
  • E’ quel valore Me tale che tra il minimo x(1) ed Me vi sono n/2 intensità/modalità (II Quartile Q2 )
slide68

Caratteri quantitativi discreti

intensità che occupa la i-esima posizione nella successione ordinata delle intensità (i=1,….,n)

N.B. Se n è pari, la mediana può non corrispondere a nessuna delle intensità osservate.

Caratteri qualitativi ordinali

Si individuano le 2 modalità:

x(Me-1) tale che F(x(Me-1) )<0,5

x(Me) tale che F(x(Me))  0,5

Me x(Me), perché tra le ni unità che possiedono modalità xMesarà certamente compresa quella (se n è dispari) o quelle (se n è pari) di posto centrale.

slide69

Carattere NUMERO DI BOTTIGLIE

1 1 1 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6

n = 30

Essendo n pari la mediana è ottenuta come:

Eliminando l’ultima osservazione: n = 29

Essendo n dispari:

slide70

Classe mediana : classe in corrispondenza della quale la funzione di ripartizione empirica passa (anche idealmente) per il punto 0,5.

Caratteri quantitativi continui

estremo inferiore della classe mediana

estremo superiore della classe mediana

Valore della Funzione di ripartizione in corrispondenza della classe mediana

Valore della Funzione di ripartizione in corrispondenza della classe che precede la classe mediana

slide72

1. Individuazione della classe mediana

CMe = Ci : Fi = min (Fi > 0,5)

] 15,43; 25,59 ]

2. Stima della mediana all’interno della classe

slide73

QUARTILI

Primo Quartile: E’ quel valore Q1 tale che tra il minimo x(1) e Q1 vi sono n/4 intensità.

Caratteri qualitativi ordinali

Si individuano le 2 modalità:

x(Q1-1) tale che F(x(Q1 -1) )<0,25

x(Q1) tale che F(x(Q1))  0,25

Q1 x(Q1), perché tra le ni unità che possiedono modalità xQ1sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto n/4.

slide74

Terzo Quartile: E’ quel valore Q3 tale che tra il minimo x(1) e Q3 vi sono 3n/4 intensità.

Caratteri qualitativi ordinali

Si individuano le 2 modalità:

x(Q3-1) tale che F(x(Q3 -1) )<0,75

x(Q3) tale che F(x(Q3) )  0,75

Q3 x(Q3), perché tra le ni unità che possiedono modalità xQ3sarà certamente compresa quella (se n/4 è intero) o quelle (se n/4 non è intero) di posto 3n/4.

slide75

Calcolo dei quartili per una distribuzione semplice

Carattere NUMERO DI BOTTIGLIE

1 1 1 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6

n = 30

Considerando le due semi-distribuzioni, ciascuna di numerosità n’:

slide76

Caratteri quantitativi continui

DECILI

q-mo Decile: E’ quel valore Dq tale che tra il minimo x(1) e Dq vi sono (q·n)/10 intensità.

Per una distribuzione si possono calcolare fino a 9 Decili

PERCENTILI

q-mo Percentile: E’ quel valore Pq tale che tra il minimo x(1) e Pq vi sono (q·n)/100 intensità.

Per una distribuzione si possono calcolare fino a 99 Percentili

Per il calcolo dei Decili e dei Percentili si utilizzano le stesse formule (adattate allo specifico indice) utilizzate per il calcolo della Mediana.

slide77

I quartili di una distribuzione in classi saranno determinati in base alla formula per il generico quantile xpx:

in cui, individuata la classe di riferimento, si sostituirà ad Fdesiderata il valore 0,25 per Q1, 0,5 per Q2 (Me) e 0,75 per Q3.

CQ1 = Ci : Fi = min (Fi > 0,25) = C1

CQ3 = Ci : Fi = min (Fi > 0,25) = C3