an lise explorat ria de dados n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Análise Exploratória de Dados PowerPoint Presentation
Download Presentation
Análise Exploratória de Dados

Loading in 2 Seconds...

play fullscreen
1 / 65

Análise Exploratória de Dados - PowerPoint PPT Presentation


  • 152 Views
  • Uploaded on

Análise Exploratória de Dados . R - LIG -07. Objetivos. Definir e construir gráficos de quantis . Trabalhar com transformações de variáveis buscando “ simetrizar ” os dados. Definir medidas de assimetria e curtose. Gráficos de quantis.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Análise Exploratória de Dados' - betha


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
objetivos
Objetivos
  • Definir e construir gráficos de quantis.
  • Trabalhar com transformações de variáveis buscando “simetrizar” os dados.
  • Definir medidas de assimetria e curtose.
gr ficos de quantis
Gráficos de quantis
  • É possível construir uma representação gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis.
  • No eixo das abscissas, colocamos os valores de p e no eixo das ordenadas os valores de q(p).
  • Depois, unimos os pontos obtidos por segmentos de retas, para que se possa obter q(p) para todo p.
gr ficos de quantis exemplo
Gráficos de quantis: exemplo
  • Considere os dados sobre os 30 municípios mais populosos do Brasil em dados2bm.txt.
  • dados<-read.table(“m:\\aulas\\natalie\\aed\\dados2bm.txt”,header=T)
  • Defina o vetor de valores de p da seguinte forma:
  • prop<-c(0:10)
  • prop<-prop/10
gr ficos de quantis exemplo1
Gráficos de quantis: exemplo
  • Calcule os quantis correspondentes aos valores em prop para os tamanhos das populações:
  • quantis<-quantile(dados$pop10mil,prop)
  • Finalmente, trace o gráfico usando a função plot:
  • plot(prop,quantis,main=“Gráfico de quantis dos dados sobre população”,sub=“30 maiores municípios brasileiros”)
slide7

Para que os pontos sejam unidos por segmentos, insira o

argumento type=“l”na função plot.

slide8

Para que ambos pontos e linhas entre pontos apareçam no gráfico,

insira o argumento type=“b”na função plot.

gr ficos de quantis cont
Gráficos de quantis (cont.)
  • O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica).
  • Se os dados forem aproximadamente simétricos, os pontos no topo superior direito do gráfico de quantis comportam-se como os pontos do canto inferior esquerdo.
gr ficos de quantis cont1
Gráficos de quantis (cont.)
  • Se os dados forem assimétricos à direita, os pontos do topo superior direito são mais inclinados do que os pontos no canto inferior esquerdo.
  • No exemplo anterior, claramente percebemos uma assimetria positiva.
gr ficos de quantis exemplo2
Gráficos de quantis: exemplo
  • Vejamos um exemplo com dados aproximadamente simétricos.
  • source(“m:\\aulas\\natalie\\aed\\exemplo2a7.txt”)

volta

gr ficos de quantis exemplo3
Gráficos de quantis: exemplo
  • Vejamos um exemplo de conjunto de dados com assimetria negativa.
  • source(“m:\\aulas\\natalie\\aed\\exemplo3a7.txt”)

volta

exerc cio 1
Exercício 1
  • Construa o gráfico de quantis, para os dados do exemplo 13: emissão de dióxido de Carbono.

volta

transforma es
Transformações
  • Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica.
transforma es1
Transformações
  • Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos.
transforma es cont
Transformações (cont.)
  • Existem métodos estatísticos que são desenvolvidos para dados não normais.
  • Porém, se quisermos utilizar algum método para dados normais, quando os dados não parecem ter este tipo de comportamento, o que se pode fazer é uma transformação destes dados visando a simetrização.
transforma es cont1
Transformações (cont.)
  • Uma família de transformações freqüentemente explorada é

Normalmente, o que se faz é experimentar valores

de p na seqüência ...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4,

1/3,1/2,1,2,3,...

transforma es cont2
Transformações (cont.)
  • Para cada valor de p construímos gráficos apropriados (histogramas, boxplots, quantis,...) para os dados originais e transformados, de forma a poder escolher o valor de p apropriado.
  • Para dados positivos, a distribuição é geralmente assimétrica à direita.
transforma es cont3
Transformações (cont.)
  • Para essas distribuições, a transformação sugerida com 0<p<1 é apropriada, pois valores grandes de x decrescem mais, relativamente, a valores pequenos.
  • Para distribuições assimétricas à esquerda, experimente valores de p maiores que 1.
dados sobre emiss o de di xido de carbono
Dados sobre emissão de dióxido de carbono
  • Vimos que a distribuição das emissões de dióxido de carbono é bastante assimétrica à direita.
  • Proponha uma transformação que torne os dados aproximadamente simétricos.
continua o do exemplo
Continuação do exemplo

Pela sugestão anterior, devemos buscar um valor de p que

esteja entre 0 e 1.

Aqui, teríamos problema com a transformação logarítmica,

pois há uma observação com emissão 0.

Na figura a seguir, foi solicitado um boxplot para valores de p

que variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.

continua o do exemplo1
Continuação do exemplo
  • É possível verificar, a partir da figura anterior, que os valores de p entre 1/5 e ¼ são os que resultaram numa distribuição aproximadamente simétrica.
  • Podemos continuar e escolher um valor de p entre 1/5 e ¼, por exemplo, (1/5+1/4)/2.
exerc cio 2
Exercício 2
  • Analise a distribuição dos dados sobre notas em Estatística (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis para estes dados.
exerc cio 2 conclus o
Exercício 2 (conclusão)
  • Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos perceber que a distribuição é aproximadamente simétrica.
  • Isto pode ser confirmado pelo boxplot e pelo histograma das notas.
exerc cio 3
Exercício 3
  • Análise a forma da distribuição da variável densidade demográfica em dados sobre o Brasil (dados1bm.txt).
  • Proponha uma transformação buscando tornar a distribuição aproximadamente simétrica.
exercicio 3 cont
Exercicio 3(cont.)
  • Construindo o boxplot de densidade demográfica,percebe-se, claramente, forte assimetria positiva.
transforma es2
Transformações
  • Como os dados são todos positivos, podemos começar tentando a transformação logarítmica.
  • boxplot(log(dados$dd))
outras transforma es
Outras transformações

Podemos então tentar valores de p entre 0 e 1.

continua o
Continuação
  • É possível verificar que a assimetria na caixa é acentuada e aparece em todas as tentativas.
  • Uma saída (exploratória) é escolher a transformação na qual a caixa é o menos assimétrica possível.
continua o1
Continuação
  • Por exemplo, a transformação f que minimiza
  • O problema com a proposta anterior é que corremos o risco de encontrar a melhor transformação para os dados centrais, mas encontrar forte assimetria nas caudas.
  • Enfim, nem sempre existirá uma transformação ideal para os nossos dados!
exerc cio 4
Exercício 4
  • Trabalhe com a base de dados sobre veículos.
  • Para cada variável entre preço, tamanho e motor, analise as distribuições quanto à assimetria.
  • Nos casos onde há assimetria, proponha, se possível, uma transformação de simetrização.
leitura e organiza o dos dados
Leitura e organização dos dados
  • dados<-read.table(“m:\\aulas\\natalie\\aed\\dados7bm.txt”,header=T)
continua o2
Continuação
  • É possível verificar que a maior assimetria ocorre na distribuição da variável preço.
  • Além disso, que a assimetria é positiva.
  • Tente a transformação logarítmica, pois os preços são todos positivos.
exerc cio 5
Exercício 5
  • Considere a variável CO (gás carbônico nos dados sobre poluição (dados4bm.txt).
  • Calcule as principais medidas de posição e dispersão.
  • Construa um histograma, ramo-e-folhas e boxplot.
  • Comente sobre a forma da distribuição desta variável.
slide46

dados<-read.table(”m:\\auulas\\natalie\\aed\\

dados4bm.txt",header=T)

names(dados)

[1] "data" "CO" "O3" "temp" "umid"

summary(dados$CO)

Min. 1st Qu. Median Mean 3rd Qu. Max.

4.700 6.300 7.200 7.464 8.025 12.500

sd(dados$CO)

[1] 1.543912

range(dados$CO)

[1] 4.7 12.5

IQR(dados$CO)

[1] 1.725

slide49

4 | 77

5 | 12

5 | 55677789

6 | 1111122222222233333444444

6 | 5666677777899999999

7 | 00122233444

7 | 5566777778888899999999

8 | 012334

8 | 55678999

9 | 0114

9 | 557

10 | 1333

10 | 8

11 | 4

11 | 69

12 | 0

12 | 5

Ramo-e-folhas

forma da distribui o
Forma da distribuição
  • Os dados apresentam assimetria positiva não muito acentuada.
  • Verifique como fica a distribuição na escala logarítmica desta variável.
  • Repita esta análise univariada para as outras variáveis dos dados sobre poluição (ozônio, umidade, temperatura).
medidas de assimetria
Medidas de assimetria

1. Coeficiente de assimetria de Pearson:

mediana

média

desvio-padrão

medidas de assimetria1
Medidas de assimetria
  • Uma outra medida de assimetria é dada por:

o mesmo vale para skP

calcular as medidas de assimetria para os exemplos trabalhados no in cio da aula
Calcular as medidas de assimetria para os exemplos trabalhados no início da aula
  • Exemplo 1: dados sobre as populações dos 30 maiores municípios brasileiros.

> skp<-3*(mean(dados[,2])-median(dados[,2]))/sd(dados[,2])

> skp

[1] 0.9827185

continua o3
continuação
  • scubo<-0
  • for (i in 1:30){scubo<-scubo+(dados[i,2]-mean(dados[,2]))^3}
  • > scubo<-scubo/30
  • > sk<-scubo/(sd(dados[,2])^3)
  • > sk
  • [1] 3.393688

Como confirmado, ambas apresentam valor maior que zero indicando

assimetria à direita.

Fig. Ex1.

exemplo 2
Exemplo 2:
  • Lembre que o segundo exemplo ilustrou dados simétricos gerados artificialmente no vetor x. (exemplo2a7.txt)

> skp<-3*(mean(x)-median(x))/sd(x)

> skp

[1] 0.071745

> scubo<-0

> for (i in 1:1000){scubo<-scubo+(x[i]-mean(x))^3}

> scubo<-scubo/n

> sk<-scubo/(sd(x)^3)

> sk

[1] -0.0001131420

Conforme o esperado, ambos são

aproximadamente zero.

Fig. Ex2.

exemplo 3
Exemplo 3:
  • O terceiro exemplo ilustrou dados com assimetria negativa gerados artificialmente no vetor x. (exemplo3a7.txt)

skp<-3*(mean(x)-median(x))/sd(x)

> skp

[1] -0.6805239

> scubo<-0

> for (i in 1:100){scubo<-scubo+(x[i]-mean(x))^3}

> scubo<-scubo/100

> sk<-scubo/(sd(x)^3)

> sk

[1] -7.27931

Conforme o esperado, ambos são

menores que zero.

Fig. Ex3.

exemplo 4 medidas de assimetria para emiss es de di xido de carbono
Exemplo 4: medidas de assimetria para emissões de dióxidode carbono

> x<-dados$emissao

> skp<-3*(mean(x)-median(x))/sd(x)

> skp

[1] 1.348357

> scubo<-0

> for (i in 1:72){scubo<-scubo+(x[i]-mean(x))^3}

> scubo<-scubo/72

> sk<-scubo/(sd(x)^3)

> sk

[1] 2.349014

Como esperado, ambos são

maiores que zero.

Figura ex4.

medidas de achatamento ou curtose
Medidas de achatamento ou curtose

Na figura a seguir temos duas distribuições de freqüências

com mesma média, mesma variância e simétricas.

slide60

Apesar das distribuições apresentarem a mesma

média, mesma variância e simetria, verifica-se

que na vizinhança da média elas diferem quanto às

freqüências, uma distribuição apresentando

valores maiores.

Dizemos que essas distribuições diferem quanto

a um novo aspecto conhecido como

“achatamento” ou curtose.

medida de curtose
Medida de curtose
  • Uma medida usada para avaliar o grau de achatamento de uma distribuição de freqüências é dada por:
medida de curtose1
Medida de curtose
  • Se k=3, dizemos que a distribuição é mesocúrtica.
  • Se k<3, dizemos que a distribuição é platicúrtica (mais achatada).
  • Se k>3, dizemos que a distribuição é leptocúrtica.
exemplo calcular a medida de curtose para os dados sobre emiss es
Exemplo: Calcular a medida de curtose para os dados sobre emissões.

s4<-0

for (i in 1:72){s4<-s4+(dados$emissao[i]-mean(dados$emissao))^4}

s4<-s4/72

k<-s4/(sd(dados$emissao)^4)

k

9.19315

Como k>3, temos uma distribuição leptocúrtica.

slide65

A curtose para dados provenientes de uma distribuição normal

(curva em forma de sino) é aproximadamente igual a 3, pois a

curtose de uma distribuição normal é 3.

Uma distribuição normal é a referência para uma distribuição

mesocúrtica.