An lise explorat ria de dados
This presentation is the property of its rightful owner.
Sponsored Links
1 / 53

Análise Exploratória de Dados PowerPoint PPT Presentation


  • 75 Views
  • Uploaded on
  • Presentation posted in: General

Análise Exploratória de Dados. Objetivos. Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.

Download Presentation

Análise Exploratória de Dados

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


An lise explorat ria de dados

Análise Exploratória de Dados


Objetivos

Objetivos

  • Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.

  • Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).


Gr fico quantis x quantis

Gráfico quantis x quantis

Suponha dados os valores

da variável X e valores

da variável Y, todos medidos pela mesma

unidade.

Por exemplo, notas parciais de uma disciplina,

ou temperaturas de duas cidades, ou porcenta-

gens da renda familiar gastas com saúde e

educação.


Gr fico quantis x quantis 1

Gráfico quantis x quantis (1)

  • O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y.

  • Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y.

  • Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a retay=x.


Gr fico quantis x quantis 2

Gráfico quantis x quantis (2)

  • Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxqmostra se valores pequenos de X estão relacionados com valores pequenos de Y,

  • se valores intermediários de X estão relacionados com valores intermediários de Y,

  • se valores grandes de X estão relacionados com valores grandes de Y.


Gr fico quantis x quantis 3

Gráfico quantis x quantis (3)

  • Num gráfico de dispersão, podemos ter x1< x2 e y1 >y2 .

  • Num gráfico qxq,não é possível ter x1< x2e y1 >y2 ,pois os valores em ambos os eixos estão ordenados, do menor para o maior.


Exemplo 1

Exemplo 1

  • Na tabela a seguir temos as notas de 20 alunos em duas provas de Estatística.

alunoP1P2

18.58.0

23.52.8

37.26.5

45.56.2

59.59.0

67.07.5

74.85.2

86.67.2

92.54.0

107.06.8

117.46.5

125.65.0

136.36.5

143.03.0

158.19.0

163.84.0

176.85.5

1810.010.0

194.55.5

205.95.0

Estes dados estão arquivados em

notasEst.txt.


Exemplo 1 cont

Exemplo 1 (cont)

Comando que constrói o gráfico de quantis

no R, após ler os dados:

qqplot(dados$P1,dados$P2,main=“

Gráfico qxq para as notas em duas provas de

Estatística”,xlab=“Quantis da primeira prova”,

ylab=“Quantis da segunda prova”)

Para inserir no gráfico a reta y=x, acrescente

abline(0,1) # o primeiro número indica o coeficiente linear

da reta desejada e, o segundo, o coeficiente angular.


Exemplo 1 cont1

Exemplo 1: (cont.)

  • Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=xcom desvios bem pequenos.


Exemplo 2

Exemplo 2:

  • Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt.

  • Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.


Exemplo 2 cont

Exemplo 2: (cont.)

  • Observe que a maior parte dos pontos está acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus.

  • Obs.: Quando mn, é necessário modificar os valores de p para os quantis da variável com maior número de pontos.

  • O R aceita vetores de tamanhos diferentes para o qqplot.


Qqplot quando m n

Qqplot quando mn

  • Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y.

  • Exemplo: Suponha n=40 e m=20.


Qqplot quando m n 1

Qqplot quando mn (1)

Neste caso, para cada valor ordenado de Y, correspondemos

um valor médio dos valores ordenados de X.


Qqplot quando m n 2

Qqplot quando mn (2)

Mais geralmente, quando n>m

correspondemos os quantis y(i) aos quantis

de X:

onde

Se j for inteiro, fazemos o gráfico de y(i) versus x(j).

Caso contrário, se j=k+r, onde k é inteiro e 0<r<1,

fazemos o gráfico de y(i) versus x*(j) onde


Exerc cio 34 do livro

Exercício 34 do livro

Faça o gráficoqxq para os dois conjuntos A e B

abaixo:

A 65 54 49 60 70 25 87 100 70 102 40 47

B 48 35 45 50 52 20 72 102 46 82

cálculos

Observe que neste caso n=12 e m=10

Quantis de X


Exerc cio 34 do livro1

Exercício 34 do livro


Exemplo 3

Exemplo 3:

  • Dados: salários em dados6bm.txt.

  • Faça o gráfico qxqda variável salário de professor secundário contra salário de administrador.

  • A variável nivelmedio da base representa os salários do professor de ensino médio.

  • Faça comentários sobre a forma do gráfico obtido.


Coment rio

Comentário

  • É possível perceber claramente, pelo gráfico qxqque os salários de professores do nível médio são menores do que os salários dos administradores.


Exemplos computacionais

Exemplos computacionais


Exemplo c1 duas vari veis quantitativas

Exemplo C1: Duas variáveis quantitativas

  • Dados: mercado em dados9bm.txt

  • Dispõe-se dos preços de fechamento diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n=39 observações.

  • Construa o diagrama de dispersão destes dados.


Coment rios

Comentários

  • A nuvem de pontos do diagrama de dispersão de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis.

  • Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.


An lise explorat ria de dados

Reta de mínimos quadrados


Correla o

Correlação

  • cor(dados$indice,dados$telebras)

  • [1] 0.9818552


Reta de m nimos quadrados

Reta de mínimos quadrados

  • Coefficients:

  • (Intercept) dados$indice

  • -3.7588 0.8808

  • Modelo: Preco_Telebras=-3.7588+0.8808x(IBOVESPA)


Valores ajustados versus res duos

Valores ajustados versus resíduos


Exemplo c2

Exemplo C2:

  • Dados sobre veículos em dados7bm.txt.

  • Dispõe-se de preço, comprimento e a capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado.

  • Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.


Exemplo c2 cont

Exemplo C2: (cont.)

  • Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado).

  • dados<-read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T)

  • indice<-order(dados$origem)

  • table(dados$origem)

  • dadosord<-dados[indice,]


Exemplo c2 cont1

Exemplo C2: (cont.)

  • I N

  • 12 18

  • Assim, em dadosord, as observações de 1 a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.


Exemplo c2 cont2

Exemplo C2: (cont.)

  • plot(dadosord$comprimento[13:30],dadosord$preco[13:30],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5))

  • points(dadosord$comprimento[1:12],dadosord$preco[1:12],pch="I",col="blue")


Motor e pre o

Motor e preço


Motor e comprimento

Motor e comprimento


Origem versus outras vari veis

Origem versus outras variáveis

  • Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento.

  • Há algum par de variáveis apresentando associação?

  • Construa os boxplots por origem e da distribuição global.

  • Calcule o R2.


An lise explorat ria de dados

> aov(dados$preco~dados$origem)

Call:

aov(formula = dados$preco ~ dados$origem)

Terms:

dados$origem Residuals

Sum of Squares 514601743 1648021011

Deg. of Freedom 1 28

Residual standard error: 7671.89

514601743/(514601743+1648021011)

[1] 0.2379526

R.: Cerca de 24% da variação total de preço

é explicada pela origem do veículo

(nacional ou importado).


An lise explorat ria de dados

> aov(dados$comprimento~dados$origem)

Call:

aov(formula = dados$comprimento ~ dados$origem)

Terms:

dados$origem Residuals

Sum of Squares 0.159609 3.750911

Deg. of Freedom 1 28

Residual standard error: 0.366007

> 0.159609/(0.159609+3.750911)

[1] 0.04081529

R.: A origem explica apenas cerca de 4% da variação

total devida ao comprimento.


An lise explorat ria de dados

> aov(dados$motor~dados$origem)

Call:

aov(formula = dados$motor ~ dados$origem)

Terms:

dados$origem Residuals

Sum of Squares 164.356 21328.444

Deg. of Freedom 1 28

Residual standard error: 27.59946

> 164.356/(164.356+21328.444)

[1] 0.007647026

R.: A origem explica apenas 0,7% da variação

total de motor.


Coment rio1

Comentário

  • Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados.

  • A origem explica cerca de 24% da variação total de preço.


Qqplot

Qqplot


Exemplo c3 tabela de conting ncia

Exemplo C3 (Tabela de contingência)

  • Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986

  • Descrição: Nível de escolaridade de americanos por idade em 1984. As contagens estão em milhares de pessoas.

  • Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.


Exemplo c3 tabela de conting ncia1

Exemplo C3 (Tabela de contingência)


Perfis linha

Perfis-linha


Perfis coluna

Perfis-coluna

O qui-quadrado desta tabela é alto: 22373.57 resultando num

coeficiente de contingência de Pearson de 0.382194.


Fun es do r usadas na aula de hoje

read.table

qqplot

lm

abline

plot

points

aov

chisq.test

Funções do R usadas na aula de hoje:


  • Login