An lise explorat ria de dados l.jpg
This presentation is the property of its rightful owner.
Sponsored Links
1 / 51

Análise Exploratória de Dados PowerPoint PPT Presentation


  • 119 Views
  • Uploaded on
  • Presentation posted in: General

Análise Exploratória de Dados. R – LIG/09 – maio de 2008. Objetivos. Análise de duas variáveis quantitativas:. obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados; apresentar outros critérios para a determinação de uma reta que se ajuste aos dados;

Download Presentation

Análise Exploratória de Dados

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


An lise explorat ria de dados l.jpg

Análise Exploratória de Dados

R – LIG/09 – maio de 2008


Objetivos l.jpg

Objetivos

Análise de duas variáveis quantitativas:

  • obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;

  • apresentar outros critérios para a determinação de uma reta que se ajuste aos dados;

  • realizar análises exploratórias dos resíduos do modelo ajustado.


Crit rio de m nimos quadrados l.jpg

Critério de mínimos quadrados

  • Como são obtidos os coeficientes da reta de mínimos quadrados?

Nossos dados podem ser pensados como uma coleção

bivariada:

Foi considerado adequado o modelo

para explicar

.


Crit rio de m nimos quadrados4 l.jpg

Critério de mínimos quadrados

Resíduo (ri): diferença entre o valor observado da

variável resposta e o valor ajustado pelo modelo:

valor

observado

valor ajustado

pelo modelo


Crit rio de m nimos quadrados5 l.jpg

Critério de Mínimos Quadrados

  • Escolha =a e =b de tal maneira que a soma de quadrados dos resíduos seja um mínimo.

Minimizar


Coeficientes da reta de m nimos quadrados l.jpg

Coeficientes da reta de mínimos quadrados

  • Solução:

Coeficiente de inclinação da reta

Coeficiente linear da reta (intercepto)


Coeficientes da reta de m nimos quadrados7 l.jpg

Coeficientes da reta de mínimos quadrados

Coeficiente angular da reta de mínimos quadrados


Exemplo 1 idade versus altura1 l.jpg

Exemplo 1: Idade versus altura1

  • Fonte: http://lib.stat.cmu.edu/DASL/

  • Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics, p. 118.

  • A altura de uma criança aumenta ao longo do tempo. Como o padrão de crescimento varia de criança para criança, uma forma de compreender o padrão geral de crescimento é usar a média das alturas de várias crianças, como é feito com os dados a seguir.


Idade versus altura l.jpg

Idade versus altura

  • Descrição: Alturas médias de um grupo de crianças de Kalama, um povoado egípcio que é o local de um estudo de nutrição em países em desenvolvimento. Os dados foram obtidos medindo-se as alturas de 161 crianças no povoado cada mês.

  • Número de casos: 12

  • Nomes das variáveis:

  • idade: idade em meses

  • altura: altura média em cm


Idade versus altura dados l.jpg

Idade versus altura: Dados

  • idadealtura

  • 1876.1

  • 1977

  • 2078.1

  • 2178.2

  • 2278.8

  • 2379.7

  • 2479.9

  • 2581.1

  • 2681.2

  • 2781.8

  • 2882.8

  • 2983.5


Idade versus altura11 l.jpg

Idade versus altura

  • Investigue possíveis relações entre idade e altura nesta base de dados.

  • Diagrama de dispersão

  • Coeficiente de correlação

  • Os dados estão no arquivo idadealtura.txt, com a primeira linha indicando os nomes das variáveis.


Slide13 l.jpg

cor(dados$idade,dados$altura)

[1] 0.994366

É visível a forte relação entre a idade em meses e a altura!


Coment rio l.jpg

Comentário

A altura de uma criança não é estável, mas cresce ao longo do

tempo. Como o padrão de crescimento varia de criança para criança,

uma forma de compreender o modelo geral de crescimento é usar a

média de altura de várias crianças, como apresentado neste conjunto

de dados.

O diagrama de dispersão da altura versus idade é quase

uma linha reta, mostrando um modelo de crescimento linear.


Extrapola o l.jpg

Extrapolação

  • Deve-se tomar cuidado com previsões fora do campo de variação da variável explicativa.

  • Quanto mais distante estiver o valor da variável explicativa do conjunto de valores efetivamente observado, mais imprecisa será a previsão.

  • De fato, nada garante que fora deste intervalo, a relação linear obtida continue valendo.


Coment rios l.jpg

Comentários

  • O caso deste exemplo é típico.

  • A altura média pode crescer linearmente com a idade em meses nos primeiros anos de vida, mas a curva de altura de uma pessoa certamente não é linear ao longo de sua vida!

  • Quando falamos em modelos, uma das coisas que se deve ter em mente é a abrangência deles.


Reta de m nimos quadrados l.jpg

Reta de mínimos quadrados

  • reta1=lm(dados$altura~dados$idade)

  • Coefficients:

  • (Intercept) dados$idade

  • 64.928 0.635

    Modelo ajustado: altura=64.928+0.635xidade

variável

explicativa

variável

resposta

Coef. linear

Coef. angular


Slide19 l.jpg

Outros métodos para obter a reta

O critério de minimização da soma dos resíduos ao quadrado não é o único!

Há outros critérios para obter uma reta que se ajuste aos dados.

Um deles é minimizar a soma dos resíduos tomados em valor absoluto.

Este critério é conhecido como critério L1.

Escolha  e  de modo a minimizar:


Slide20 l.jpg

Métodos robustos de ajuste da reta

Métodos conhecidos como robustos, envolvem minimizar alguma função dos resíduos ao quadrado ordenados.

1) (lmsreg) least median squares:

escolha  e  de modo a minimizar:

Neste caso, não há uma solução analítica como no caso do critério de

mínimos quadrados. O algoritmo para a obtenção dos coeficientes é bem

mais complexo.

O R possui uma função que nos retorna os coeficientes

da reta resultantes, com base nesse critério: lmsreg no

pacote MASS.


Slide21 l.jpg

Métodos robustos de ajuste da reta

Para usar funções do pacote MASS, há a necessidade de carregar o pacote.

O único pacote que não precisa ser carregado no R é o base, que contém as funções básicas que trabalhamos até agora (pie, barplot,mean,sd,summary,boxplot, quantile,plot,lm,round,etc.)


Slide22 l.jpg

Carregando o pacote MASS

Clique em

1) Packages(barra de menus na parte superior da tela)

2) load packages

3) MASS


Slide23 l.jpg

Exemplo 2

Voltemos aos dados do arquivo fumo.txt, trabalhados na aula passada.

Compare as retas de mínimos quadrados e via critério lms (least median squares) (lmsreg).

dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/fumo.txt”,header=T)

reta1=lm(dados$imorte~dados$ifumo)

reta2=lmsreg(dados$imorte~dados$ifumo)

plot(dados$ifumo,dados$imorte,main=“Fumo versus câncer”)

abline(reta1$coefficients,col=“blue”)

abline(reta2$coefficientes,col=“red”)


Slide25 l.jpg

Métodos robustos de ajuste da reta

2) Um outro método é o lts (least trimmed squares)

que consiste em

escolha  e  de modo a minimizar:

onde r(i) representa os resíduos ordenados, i=1,...,n, e h é um natural menor que n, ou seja, minimiza-se a soma dos h menores resíduos ao quadrado.

No R a função que realiza este ajuste também está

disponível no pacote MASS: ltsreg.


Slide26 l.jpg

Continuação do exemplo

Compare com os outros dois ajustes obtidos, a reta

ajustada via ltsreg.

reta3=ltsreg(dados$imorte~dados$ifumo)

abline(reta3$coefficients,col=“green”)


Slide28 l.jpg

Comentários

Quando o conjunto de dados não apresentar observações muito diferentes das demais (outliers) e o comportamento da variável dependente (resposta) for aproximadamente “normal”, não haverá muita diferença entre as retas obtidas por métodos robustos e a reta de mínimos quadrados.


Slide29 l.jpg

Comentários

Depois de ajustado um modelo é fundamental realizar a etapa de verificação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo.

Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões.


An lise dos res duos l.jpg

Análise dos resíduos

Por exemplo, o diagrama de pontos dos resíduos

NÃO deve apresentar nenhuma estrutura aparente.

Caso, o diagrama de pontos apresente alguma

estrutura é sinal de que o modelo proposto para os

dados ainda não está suficientemente adequado e

deve ser reformulado.

Vejamos como está o diagrama dos resíduos da

reta de mínimos quadrados para este último ajuste.


Diagrama de pontos dos res duos da reta de m nimos quadrados l.jpg

Diagrama de pontos dos resíduos da reta de mínimos quadrados

dotchart(reta1$residuals,main=“Diagrama de pontos da reta de

mínimos quadrados”)


Outra possibilidade l.jpg

Outra possibilidade

>plot(reta1$residuals,main="Dispersão dos resíduos da reta de

mínimos quadrados",type=”l")

> abline(h=0,lty=2)


Res duos versus valores ajustados l.jpg

Resíduos versus valores ajustados

Outro gráfico que também não deve apresentar

nenhuma estrutura é o diagrama de dispersão dos

valores ajustados versus os resíduos do modelo.

plot(reta1$fitted,reta1$residuals,main=“Valores

ajustados versus resíduos”)


Outros crit rios l.jpg

Outros critérios

Construa o diagrama de pontos dos resíduos e o

diagrama de dispersão dos resíduos versus valores

ajustados para os outros dois ajustes deste exemplo

(reta2 e reta3).


Slide35 l.jpg

Exemplo 3: Contas de energia

Os dados a seguir referem-se à temperatura média mensal e a quantidade de energia elétrica (em $) na conta mensal.

Os dados foram armazenados no arquivo energia.txt

os nomes das variáveis são data, temp e conta.

Fonte: Rossman & Chance (1998). Workshop Statistics:

Discovery with data and Minitab.

Springer. (Capítulo 9, pg. 159).


Slide36 l.jpg

Contas de energia (cont.)

Antes de examinar a relação entre temperatura média e conta de energia, examine a distribuição dos dados referentes a contas de energia. Descreva a forma da distribuição dos valores das contas.

Construa o diagrama de dispersão de temperatura versus conta e avalie uma possível associação positiva ou negativa entre estas variáveis.


Slide39 l.jpg

Contas de energia (cont.)

Observe que em regiões com temperaturas muito baixas, diferente de regiões quentes, o consumo de energia é maior quanto menor for a temperatura!

Calcule a correlação entre temperatura e conta de energia.

Obtenha as retas de mínimos quadrados, lms e lts para estes dados.


Slide40 l.jpg

> cor(dados$temp,dados$conta)

[1] -0.6883143

reta1=lm(dados$conta~dados$temp)


Slide42 l.jpg

Coefficients:

(Intercept) dados$temp

55.0286 -0.2112

Modelo ajustado:

Conta=55.0286-0.2112x(temperatura)


Slide43 l.jpg

Contas de energia (cont.)

Usando a reta de mínimos quadrados, determine o resíduo e o valor ajustado para o mês de março de 1992.

Faça um boxplot dos resíduos da reta de mínimos quadrados e verifique se há algum ponto exterior. Em caso afirmativo, identifique qual a data a que este resíduo se refere.


Slide44 l.jpg

> reta1$residuals[12]

12

-1.937377

> reta1$fitted[12]

12

46.36738

12 mar/92: temp=41, conta=44.43


Slide46 l.jpg

É possível verirficar que a observação cujo

resíduo é um ponto exterior no boxplot é a de

julho de 1993.


Slide47 l.jpg

Contas de energia (cont.)

Faça um dotchart dos resíduos e comente sobre a forma do mesmo.

“Um modelo é adequado entre outras coisas, se o diagrama de pontos dos resíduos não apresentar nenhum tipo de estrutura”.

De acordo com a afirmação anterior, você diria que o modelo é adequado?


Slide50 l.jpg

Parece que nessa figura os resíduos tendem a ser positivos

nos extremos e negativos no meio. Talvez o modelo linear não

seja adequado nesse caso.


Retas robustas l.jpg

Retas robustas

  • Investigue o comportamento dos resíduos para os critérios lms e lts.


  • Login