An lise explorat ria de dados
This presentation is the property of its rightful owner.
Sponsored Links
1 / 43

Análise Exploratória de Dados PowerPoint PPT Presentation


  • 65 Views
  • Uploaded on
  • Presentation posted in: General

Análise Exploratória de Dados. Box - Plot. Exercício: Emissão de Dióxido de Carbono. Determine os três quartis , os decis , a média e o desvio-padrão das emissões registradas para os 72 países em 1995. Exercício: Emissão de Dióxido de Carbono.

Download Presentation

Análise Exploratória de Dados

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


An lise explorat ria de dados

Análise Exploratória de Dados

Box - Plot


Exerc cio emiss o de di xido de carbono

Exercício: Emissão de Dióxido de Carbono

  • Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.


Exerc cio emiss o de di xido de carbono1

Exercício: Emissão de Dióxido de Carbono

  • dados<-read.table(”m:\\aulas\\natalie\\aed\\dados13bm.txt",header=T)

  • names(dados) [1] "pais" "emissao"

  • quantile(dados$emissao,c(0.25,0.5,0.75))

  • 25% 50% 75% 0.0675 0.4150 1.4725

  • quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9))

  • 10% 20% 30% 40% 50% 60% 70% 80% 90%0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02


Exerc cio emiss o de di xido de carbono2

Exercício: Emissão de Dióxido de Carbono

  • > mean(dados$emissao)

  • [1] 1.174167

  • > sd(dados$emissao)

  • [1] 1.689093

  • A mediana é 0.4150 e portanto, o coeficiente de assimetria de Pearson, dado por (3*(média-mediana))/desvio-padrão, é aproximadamente 1.35>0.


Dados em histograma das emiss es

Dados em histograma das emissões

Fazendo hist1<-hist(dados$emissao), podemos listar as

informações usadas na construção do histograma.

$breaks

[1] 0 1 2 3 4 5 6 7 8 9

$counts

[1] 46 12 6 3 2 1 0 1 1

$mids

[1] 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5

round(histEmissao$counts/72,digits=2)

# freqüências relativas

[1] 0.64 0.17 0.08 0.04 0.03 0.01 0.00 0.01 0.01

# freqüências relativas acumuladas

0.64 0.81 0.89 0.93 0.96 0.97 0.97 0.98 1.00


Histograma das emiss es

Histograma das emissões


Tabela usada para o histograma

Tabela usada para o histograma


Esquema dos cinco n meros

Esquema dos cinco números

  • É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n).

  • Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados.


Esquema dos cinco n meros1

Esquema dos cinco números

  • Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x(1)  x(n)-Q2; (b) Q2-Q1  Q3-Q2; (c) Q1- x(1)  x(n)-Q3; (d) distâncias entre mediana e Q1, Q3 menores do que distâncias entre os extremos e Q1, Q3.


Comandos summary e fivenum

Comandos summary() e fivenum()

  • O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados.

  • Exemplo:

  • x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10)

  • fivenum(x) [1] 1.0 2.0 3.5 5.5 10.0


Comandos summary e fivenum1

Comandos summary() e fivenum()

  • summary(x)

  • Min. 1st Qu. MedianMean 3rd Qu. Max. 1.00 2.00 3.50 4.10 5.25 10.00

  • O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.


Desenho esquem tico box plots

Desenho Esquemático (Box Plots)

  • A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como boxplot.

  • A figura a seguir, ilustra o boxplot.


Boxplot

Boxplot

  • O retângulo no boxplot é traçado de tal maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro quartis da distribuição.

  • O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil.

  • Assim, o retângulo do boxplot corresponde aos 50% valores centrais da distribuição.


Cosntruindo o boxplot

Cosntruindo o boxplot

  • Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)*IIQ.

  • O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)*IIQ.


Fechando o boxplot

Fechando o boxplot

  • As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e representadas por asteriscos.

  • Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos ou valores extremos.


Observa es

Observações

  • Não necessariamente haverá a presença de pontos exteriores num boxplot.

  • Quando for este o caso, o esquema terá a seguinte aparência:


A fun o boxplot no r

A função boxplot no R

  • Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)


Alguns argumentos da fun o boxplot

Alguns argumentos da função boxplot

  • Observação: é possível construir vários boxplot na mesma função.

  • boxwex: controla a largura dos retângulos no boxplot. O default é 0.8.

  • outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados


Exemplo 1

Exemplo 1

  • Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt.

  • dados<-read.table(“m:\\aed\\dados6bm.txt”,header=T)

  • Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico.

  • boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivelmedio”,”mecanico”,”administrador”,”eng.eletrico”))


Cores

Cores

col - cor de preenchimento dos retângulos


Boxplots horizontais

Boxplots horizontais

  • horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.


Outros argumentos

Outros argumentos

  • ylim: controla a escala de valores

  • main: título

  • sub: sub-título

  • names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot.

  • pch: específica o caracter a ser usado nos pontos exteriores. Ex.:pch=“*”.


Exemplo 2

Exemplo 2

  • No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras em 2004.

  • Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de habitantes e o total em reais disponível.


Exemplo 21

Exemplo 2

  • Estes dados foram armazenados no arquivo dadosaula6.txt com o número de habitantes em milhares e o investimento em milhares de reais.

  • Os nomes atribuídos às variáveis foram:

    cidade, partido, hab1000 e invest1000.


Exemplo 22

Exemplo 2

  • dados<-read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T)

  • Construa o boxplot dos investimentos.


An lise explorat ria de dados

Construa também um boxplot do número de habitantes.


An lise explorat ria de dados

Olhando apenas para a relação investimento sobre número de

habitantes, sem levar em conta outros fatores, você diria que foi

justa esta distribuição?


An lise explorat ria de dados

O título da reportagem no jornal foi Aos amigos, mais da

metade.

Você concorda com este título? Por que?

Ordenando os dados por partido:

indice<-order(dados$partido)

dadosord<-dados[indice,]


An lise explorat ria de dados

Depois de ordenar os dados por partido em dadosord,

é possível ver que de 1 a 17 tem-se outros partidos e

de 18 a 25 tem-se o PT.


An lise explorat ria de dados

resumo<-matrix(0,2) #variável que vai receber o total

# de investimentos, na posição 1: outros partidos

# na posição 2: PT

resumo[1]<-sum(dadosord$invest1000[1:17])

resumo[2]<-sum(dadosord$invest1000[18:25])

total<-resumo[1]+resumo[2]

parcial<-matrix(0,2)

parcial<-resumo/total


Resultado

Resultado

parcial

[1] 0.4077745 0.5922255


Exemplo 3

Exemplo 3

Voltemos aos dados sobre temperaturas médias mensais.

Lembre-se da última atividade sugerida na aula 5 do LIG.

Com as temperaturas médias mensais, separadas mês a mês,

para cada cidade, construa boxplots para analisar

o comportamento das mesmas, para cada cidade.


  • Login