An lise explorat ria de dados
Download
1 / 53

Análise Exploratória de Dados - PowerPoint PPT Presentation


  • 97 Views
  • Uploaded on

Análise Exploratória de Dados. Objetivos. Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Análise Exploratória de Dados' - eliora


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Objetivos
Objetivos

  • Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.

  • Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).


Gr fico quantis x quantis
Gráfico quantis x quantis

Suponha dados os valores

da variável X e valores

da variável Y, todos medidos pela mesma

unidade.

Por exemplo, notas parciais de uma disciplina,

ou temperaturas de duas cidades, ou porcenta-

gens da renda familiar gastas com saúde e

educação.


Gr fico quantis x quantis 1
Gráfico quantis x quantis (1)

  • O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y.

  • Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y.

  • Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a retay=x.


Gr fico quantis x quantis 2
Gráfico quantis x quantis (2)

  • Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxqmostra se valores pequenos de X estão relacionados com valores pequenos de Y,

  • se valores intermediários de X estão relacionados com valores intermediários de Y,

  • se valores grandes de X estão relacionados com valores grandes de Y.


Gr fico quantis x quantis 3
Gráfico quantis x quantis (3)

  • Num gráfico de dispersão, podemos ter x1< x2 e y1 >y2 .

  • Num gráfico qxq,não é possível ter x1< x2e y1 >y2 ,pois os valores em ambos os eixos estão ordenados, do menor para o maior.


Exemplo 1
Exemplo 1

  • Na tabela a seguir temos as notas de 20 alunos em duas provas de Estatística.

aluno P1 P2

1 8.5 8.0

2 3.5 2.8

3 7.2 6.5

4 5.5 6.2

5 9.5 9.0

6 7.0 7.5

7 4.8 5.2

8 6.6 7.2

9 2.5 4.0

10 7.0 6.8

11 7.4 6.5

12 5.6 5.0

13 6.3 6.5

14 3.0 3.0

15 8.1 9.0

16 3.8 4.0

17 6.8 5.5

18 10.0 10.0

19 4.5 5.5

20 5.9 5.0

Estes dados estão arquivados em

notasEst.txt.


Exemplo 1 cont
Exemplo 1 (cont)

Comando que constrói o gráfico de quantis

no R, após ler os dados:

qqplot(dados$P1,dados$P2,main=“

Gráfico qxq para as notas em duas provas de

Estatística”,xlab=“Quantis da primeira prova”,

ylab=“Quantis da segunda prova”)

Para inserir no gráfico a reta y=x, acrescente

abline(0,1) # o primeiro número indica o coeficiente linear

da reta desejada e, o segundo, o coeficiente angular.


Exemplo 1 cont1
Exemplo 1: (cont.)

  • Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=xcom desvios bem pequenos.


Exemplo 2
Exemplo 2:

  • Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt.

  • Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.


Exemplo 2 cont
Exemplo 2: (cont.)

  • Observe que a maior parte dos pontos está acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus.

  • Obs.: Quando mn, é necessário modificar os valores de p para os quantis da variável com maior número de pontos.

  • O R aceita vetores de tamanhos diferentes para o qqplot.


Qqplot quando m n
Qqplot quando mn

  • Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y.

  • Exemplo: Suponha n=40 e m=20.


Qqplot quando m n 1
Qqplot quando mn (1)

Neste caso, para cada valor ordenado de Y, correspondemos

um valor médio dos valores ordenados de X.


Qqplot quando m n 2
Qqplot quando mn (2)

Mais geralmente, quando n>m

correspondemos os quantis y(i) aos quantis

de X:

onde

Se j for inteiro, fazemos o gráfico de y(i) versus x(j).

Caso contrário, se j=k+r, onde k é inteiro e 0<r<1,

fazemos o gráfico de y(i) versus x*(j) onde


Exerc cio 34 do livro
Exercício 34 do livro

Faça o gráficoqxq para os dois conjuntos A e B

abaixo:

A 65 54 49 60 70 25 87 100 70 102 40 47

B 48 35 45 50 52 20 72 102 46 82

cálculos

Observe que neste caso n=12 e m=10

Quantis de X



Exemplo 3
Exemplo 3:

  • Dados: salários em dados6bm.txt.

  • Faça o gráfico qxqda variável salário de professor secundário contra salário de administrador.

  • A variável nivelmedio da base representa os salários do professor de ensino médio.

  • Faça comentários sobre a forma do gráfico obtido.


Coment rio
Comentário

  • É possível perceber claramente, pelo gráfico qxqque os salários de professores do nível médio são menores do que os salários dos administradores.



Exemplo c1 duas vari veis quantitativas
Exemplo C1: Duas variáveis quantitativas

  • Dados: mercado em dados9bm.txt

  • Dispõe-se dos preços de fechamento diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n=39 observações.

  • Construa o diagrama de dispersão destes dados.


Coment rios
Comentários

  • A nuvem de pontos do diagrama de dispersão de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis.

  • Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.



Correla o
Correlação

  • cor(dados$indice,dados$telebras)

  • [1] 0.9818552


Reta de m nimos quadrados
Reta de mínimos quadrados

  • Coefficients:

  • (Intercept) dados$indice

  • -3.7588 0.8808

  • Modelo: Preco_Telebras=-3.7588+0.8808x(IBOVESPA)



Exemplo c2
Exemplo C2:

  • Dados sobre veículos em dados7bm.txt.

  • Dispõe-se de preço, comprimento e a capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado.

  • Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.


Exemplo c2 cont
Exemplo C2: (cont.)

  • Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado).

  • dados<-read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T)

  • indice<-order(dados$origem)

  • table(dados$origem)

  • dadosord<-dados[indice,]


Exemplo c2 cont1
Exemplo C2: (cont.)

  • I N

  • 12 18

  • Assim, em dadosord, as observações de 1 a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.


Exemplo c2 cont2
Exemplo C2: (cont.)

  • plot(dadosord$comprimento[13:30],dadosord$preco[13:30],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5))

  • points(dadosord$comprimento[1:12],dadosord$preco[1:12],pch="I",col="blue")




Origem versus outras vari veis
Origem versus outras variáveis

  • Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento.

  • Há algum par de variáveis apresentando associação?

  • Construa os boxplots por origem e da distribuição global.

  • Calcule o R2.


> aov(dados$preco~dados$origem)

Call:

aov(formula = dados$preco ~ dados$origem)

Terms:

dados$origem Residuals

Sum of Squares 514601743 1648021011

Deg. of Freedom 1 28

Residual standard error: 7671.89

514601743/(514601743+1648021011)

[1] 0.2379526

R.: Cerca de 24% da variação total de preço

é explicada pela origem do veículo

(nacional ou importado).


> aov(dados$comprimento~dados$origem)

Call:

aov(formula = dados$comprimento ~ dados$origem)

Terms:

dados$origem Residuals

Sum of Squares 0.159609 3.750911

Deg. of Freedom 1 28

Residual standard error: 0.366007

> 0.159609/(0.159609+3.750911)

[1] 0.04081529

R.: A origem explica apenas cerca de 4% da variação

total devida ao comprimento.


> aov(dados$motor~dados$origem)

Call:

aov(formula = dados$motor ~ dados$origem)

Terms:

dados$origem Residuals

Sum of Squares 164.356 21328.444

Deg. of Freedom 1 28

Residual standard error: 27.59946

> 164.356/(164.356+21328.444)

[1] 0.007647026

R.: A origem explica apenas 0,7% da variação

total de motor.


Coment rio1
Comentário

  • Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados.

  • A origem explica cerca de 24% da variação total de preço.



Exemplo c3 tabela de conting ncia
Exemplo C3 (Tabela de contingência)

  • Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986

  • Descrição: Nível de escolaridade de americanos por idade em 1984. As contagens estão em milhares de pessoas.

  • Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.




Perfis coluna
Perfis-coluna

O qui-quadrado desta tabela é alto: 22373.57 resultando num

coeficiente de contingência de Pearson de 0.382194.


Fun es do r usadas na aula de hoje

read.table

qqplot

lm

abline

plot

points

aov

chisq.test

Funções do R usadas na aula de hoje:


ad