An lise explorat ria de dados
This presentation is the property of its rightful owner.
Sponsored Links
1 / 70

Análise Exploratória de Dados PowerPoint PPT Presentation


  • 55 Views
  • Uploaded on
  • Presentation posted in: General

Análise Exploratória de Dados. R – LIG/11 – 06 de junho de 2006. Objetivos. representar graficamente as duas variáveis combinadas; definir e calcular uma medida de associação entre as variáveis. Análise bivariada: uma variável qualitativa e uma quantitativa :. Exemplo 1.

Download Presentation

Análise Exploratória de Dados

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


An lise explorat ria de dados

Análise Exploratória de Dados

R – LIG/11 – 06 de junho de 2006


Objetivos

Objetivos

  • representar graficamente as duas variáveis combinadas;

  • definir e calcular uma medida de associação entre as variáveis.

Análise bivariada: uma variável qualitativa e

uma quantitativa:


Exemplo 1

Exemplo 1

  • Os dados referem-se ao exemplo 2.1 do livro-texto (Bussab e Morettin, pag. 11)

  • Arquivo: ciaMB.txt

  • Conteúdo: informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos da Companhia MB.


Exemplo 1 nomes das vari veis no arquivo

Exemplo 1: nomes das variáveis no arquivo

  • ecivil: variável nominal cujos níveis são solteiro ou casado.

  • instrucao: variável ordinal cujos níveis são F(Ensino Fundamental), M(Ensino Médio) e S(Ensino Superior).

  • nfilhos: número de filhos (apenas para os funcionários casados), entre os solteiros a informação está como NA.


Exemplo 1 nomes das vari veis no arquivo1

Exemplo 1: nomes das variáveis no arquivo

  • sal: salário expresso como fração do salário mínimo

  • idadea: idade em anos completos

  • idadem: meses

  • rp: região de procedência (interior, capital e outros).


Exemplo 1 sal rio versus n vel de instru o

Exemplo 1:salário versus nível de instrução

  • Suponha que estejamos interessados em analisar o comportamento dos salários dentro de cada nível de instrução, ou seja, investigar o comportamento conjunto das variáveis sal e instrucao.

  • Para facilitar, vamos primeiro ordenar os dados numa nova base (dadosord) pela variável instrução.


Ordenando por instru o

Ordenando por instrução

  • dados=read.table(“http://www.im.ufrj.br/~flavia/aed06/ciaMB.txt”,header=T)

  • indice=order(dados$instrucao)

  • dadosord=dados[indice,]

  • table(dados$instrucao)

F M S

12 18 6

Logo, em dadosord as observações de 1 a 12 são de

empregados com Ensino Fundamental, de 13 a 30 com

Ensino Médio e de 31 a 36 com Ensino Superior.


An lise explorat ria de dados

ecivil instrucao filhos sal idadea idadem rp

1 solteiro F NA 4.00 26 3 interior

2 casado F 1 4.56 32 10 capital

3 casado F 2 5.25 36 5 capital

5 solteiro F NA 6.26 40 7 outra

6 casado F 0 6.66 28 0 interior

7 solteiro F NA 6.86 41 0 interior

8 solteiro F NA 7.39 43 4 capital

12 solteiro F NA 8.46 27 11 capital

14 casado F 3 8.95 44 2 outra

18 casado F 2 9.80 39 7 outra

23 solteiro F NA 12.00 41 0 outra

27 solteiro F NA 13.85 46 7 outra

4 solteiro M NA 5.73 20 10 outra

9 casado M 1 7.59 34 10 capital

10 solteiro M NA 7.44 23 6 outra

11 casado M 2 8.12 33 6 interior

13 solteiro M NA 8.74 37 5 outra

15 casado M 0 9.13 30 5 interior

16 solteiro M NA 9.35 38 8 outra

17 casado M 1 9.77 31 7 capital

20 solteiro M NA 10.76 37 4 interior

21 casado M 1 11.06 30 9 outra

22 solteiro M NA 11.59 34 2 capital

25 casado M 2 13.23 32 5 interior

26 casado M 2 13.60 35 0 outra

28 casado M 0 14.69 29 8 interior

29 casado M 5 14.71 40 6 interior

30 casado M 2 15.99 35 10 capital

32 casado M 1 16.61 36 4 interior

35 casado M 2 19.40 48 11 capital

19 solteiro S NA 10.53 25 8 interior

24 casado S 0 12.79 26 1 outra

31 solteiro S NA 16.22 31 5 outra

33 casado S 3 17.26 43 7 capital

34 solteiro S NA 18.75 33 7 capital

36 casado S 3 23.30 42 0 interior

observações de 1 a

12 em dadosord

dadosord

observações de 13 a 30 em dadosord

observações de 31 a 36 em dadosord


Medidas resumo por n vel de instru o

Medidas resumo por nível de instrução

Vamos começar descrevendo o comportamento dos salários por

nível de instrução, a partir das estatísticas resumo dentro de cada

nível.

sink(“a:\\relatorio1.txt”) #gera um relatório no disquete

“Comportamento de salários para Ensino Fundamental”

summary(dadosord$sal[1:12])

“Desvio-padrão:”

sd(dados$sal[1:12])

“Comportamento de salários para Ensino Médio”

summary(dadosordsal[13:30])

“Desvio-padrão:”

sd(dadosord$sal[13:30])

“Comportamento de salários para Ensino Superior”

summary(dadosord$sal[31:36])

“Desvio-padrão:”

sd(dadosord$sal[31:36])

sink() #fecha o relatório


Lista de comandos

Lista de comandos

  • source(“http://www.im.ufrj.br/~flavia/aed06/instrusal.txt”)

  • O conteúdo será gravado no arquivo relatorio1.txt no disquete no drive A

  • Se você preferir, edite o arquivo instrusal.txt e na primeira linha altere o endereço e/ou o nome do arquivo que conterá os resultados.


An lise explorat ria de dados

[1] "Comportamento de salários para Ensino Fundamental"

Min. 1st Qu. Median Mean 3rd Qu. Max.

4.000 6.008 7.125 7.837 9.163 13.850

desvio-padrão: 2.956464

[1] "Comportamento de salários para Ensino Médio"

Min. 1st Qu. Median Mean 3rd Qu. Max.

5.730 8.838 10.910 11.530 14.420 19.400

desvio-padrão: 3.715144

[1] "Comportamento de salários para Ensino Superior"

Min. 1st Qu. Median Mean 3rd Qu. Max.

10.53 13.65 16.74 16.47 18.38 23.30

desvio-padrão: 4.502438


Resumindo

Resumindo

Resumindo

nível fundamentalmédiosuperior

mínimo 4,005,7310,53

Q1 6,018,8413,65

Q2 7,1210,9116,74

Q3 9,1614,4218,38

máximo 13,8519,4023,30

média 7,8411,5316,47

desvio padrão 2,963,724,50

Percebe-se claramente que as medidas de posição

crescem conforme aumenta o nível de instrução.


Gr fico de sal rio versus n vel de instru o

Gráfico de salário versus nível de instrução

Quando se dispõe de um par de variáveis, onde

uma é qualitativa e outra é quantitativa, é comum

representar o comportamento conjunto delas

usando-se boxplots das distribuições das variáveis

quantitativas, segundo as respostas da variável

qualitativa.

No R podemos usar a função já conhecida plot indi-

cando primeiro o vetor que contém a variável

qualitativa.


Gr fico de sal rio versus n vel de instru o 1

plot(dados$instrucao,dados$sal,main="Box-plots de salário segundo o nível de instrução")

Gráfico de salário versus nível de instrução (1)


Comportamento dos sal rios sem discriminar por n vel de instru o todos

Comportamento dos salários sem discriminar por nível de instrução (todos)

summary(dadosord$sal)

Min. 1st Qu. Median Mean 3rd Qu. Max.

4.000 7.553 10.160 11.120 14.060 23.300

sd(dados$sal)

[1] 4.587458

nível todos fundamentalmédiosuperior

mínimo 4,00 4,005,7310,53

Q1 7,55 6,018,8413,65

Q2 10,16 7,1210,9116,74

Q3 14,06 9,1614,4218,38

máximo 23,30 13,8519,4023,30

média 11,12 7,8411,5316,47

desvio padrão 4,59 2,963,724,50

Ver tabela 2


Boxplot dados sal dadosord sal 1 12 dadosord sal 13 30 dadosord sal 31 36 names c todos f m s

boxplot(dados$sal,dadosord$sal[1:12],dadosord$sal[13:30],dadosord$sal[31:36],names=c("Todos","F","M","S"))


Coment rio

Comentário

  • É possível perceber, a partir destes dados e gráficos, uma dependência entre salário e nível de instrução:

o salário tende a ser maior conforme

é maior a escolaridade do empregado.


An lise explorat ria de dados

Exemplo 2: salário versus região de procedência

  • Vamos agora analisar o comportamento dos salários dentro de cada região de procedência, ou seja, investigar o comportamento conjunto das variáveis cujos nomes na base de dados são sal e rp.

  • Para facilitar, vamos primeiro ordenar os dados numa nova base (dadosrp) pela variável rp.


An lise explorat ria de dados

Ordenando por Região de Procedência

  • indice=order(dados$rp)

  • dadosrp=dados[indice,]

  • table(dados$rp)

capital interior outra

11 12 13

Logo, em dadosrp as observações de 1 a 11 são de

empregados cuja procedência é a capital, de 12 a 23

é o interior e de 24 a 36 são outras regiões.


An lise explorat ria de dados

Medidas resumo por região de procedência

sink(“a:\\relatoriorp.txt”) #abre arquivo que conterá os resultados

“Comportamento de salários para Capital”

summary(dadosrp$sal[1:11])

‘’Desvio-padrão:’’

sd(dadosrp$sal[1:11])

“Comportamento de salários para Interior”

summary(dadosrp$sal[12:23])

‘’Desvio-padrão:’’

sd(dadosrp$sal[12:23])

“Comportamento de salários para Outras”

summary(dadosrp$sal[24:36])

‘’Desvio-padrão:’’

sd(dadosrp$sal[24:36])

sink() # fecha arquivo


Lista de comandos1

Lista de comandos

  • source(“http://www.im.ufrj.br/~flavia/aed06/rpsal.txt”)

  • O conteúdo será gravado no arquivo relatoriorp.txt no disquete no drive A

  • Se você preferir, edite o arquivo rpsal.txt e na primeira linha altere o endereço e/ou o nome do arquivo que conterá os resultados.


An lise explorat ria de dados

[1] "Comportamento de salários para Capital"

Min. 1st Qu. Median Mean 3rd Qu. Max.

4.56 7.49 9.77 11.46 16.63 19.40

desvio-padrão: 5.476653

[1] "Comportamento de salários para Interior"

Min. 1st Qu. Median Mean 3rd Qu. Max.

4.000 7.805 10.650 11.550 14.700 23.300

desvio-padrão: 5.296055

[1] "Comportamento de salários para Outras"

Min. 1st Qu. Median Mean 3rd Qu. Max.

5.73 8.74 9.80 10.45 12.79 16.22

desvio-padrão: 3.145453


Resumindo sal rio versus regi o de proced ncia

Resumindo: salário versus região de procedência

Volta


An lise explorat ria de dados

Gráfico de salário versus região de procedência

plot(dados$rp,dados$sal,main="Box-plots de salário

segundo a região de procedência")


An lise explorat ria de dados

Comportamento dos salários sem discriminar por nível de instrução (todos)

boxplot(dados$sal,dadosrp$sal[1:11],dadosrp$sal[12:23],

dadosrp$sal[24:36],names=c("Todos",”Capital",”Interior”,

”Outras"))


Coment rio1

Comentário

  • É possível perceber, a partir destes dados e gráficos que não há uma relação bem definida entre salário e região de procedência.

  • Os salários parecem estar mais relacionados com o nível de instrução do que com a região de procedência.


Problema

Problema

  • Como quantificar a dependência entre estas variáveis?

  • No caso de duas variáveis quantitativas usa-se a correlação.

  • No caso de duas variáveis qualitativas usa-se o qui-quadrado.

  • O que usar no caso de uma variável qualitativa e uma quantitiativa?


Medida de depend ncia uma vari vel qualitativa e uma quantitativa

Medida de dependência: uma variável qualitativa e uma quantitativa

  • Vamos usar as variâncias dentro de cada categoria de resposta da variável qualitativa e a variância global, para definir uma medida de associação entre uma variável qualitativa e uma quantitativa.


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 1

Medida de dependência: uma variável qualitativa e uma quantitativa (1)

  • Se a variância dentro de cada categoria de resposta for pequena e menor do que a global, significa que a variável qualitativa melhora a capacidade de previsão da variável quantitativa e, portanto, existe uma relação entre as duas variáveis.

Ver tabela 1


An lise explorat ria de dados

Instrução versus salário

Região de procedência versus salário

Parece haver uma melhora na capacidade

de previsão de salário, segundo o nível de

instrução.

Não parece haver melhora na capacidade

de previsão de salário, segundo a região

de procedência.


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 2

Medida de dependência: uma variável qualitativa e uma quantitativa (2)

  • Observe que para as variáveis salário e instrução, as variâncias dentro de cada nível são menores do que a variância global:

var(dados$sal) # variância global de salários

21.04477

var(dadosord$sal[1:12]) #var. de salários para Ens. Fund.

8.740679

var(dadosord$sal[13:30]) #var. de salários para Ens. Médio

13.80230

var(dadosord$sal[31:36]) #var. de salários para Ens. Sup.

20.27195


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 3

Medida de dependência: uma variável qualitativa e uma quantitativa (3)

  • Para as variáveis sal e rp, vemos que as variâncias dentro de cada região de procedência não são menores do que a global:

var(dados$sal) # variância global de salários

21.04477

var(dadosrp$sal[1:11]) #var. de salários para capital

29.99373

var(dadosrp$sal[12:23]) #var. de salários para interior

28.0482

var(dadosrp$sal[24:36]) #var. de salários para outra

9.893877


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 4

Medida de dependência: uma variável qualitativa e uma quantitativa (4)

  • Utiliza-se a média das variâncias, porém ponderada pelo número de observações em cada categoria, ou seja,

Essa variância média será comparada à variância global.


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 5

Medida de dependência: uma variável qualitativa e uma quantitativa (5)

número de categorias

de resposta da variável

qualitativa

número de observações

na i-ésima categoria

de resposta

variância dentro da

i-ésima categoria de

resposta, i=1,...,k.

=n (total de observações.

Nos dois exemplos trabalhados k foi igual a 3:

instrução (F,M,S) e região de procedência

(capital,interior,outra).


Vari ncia dentro de cada grupo

Variância dentro de cada grupo

Se xij representa o salário do j-ésimo indivíduo da i-ésima categoria de instrução, i=1,2,3 e j=1,...,ni onde ni é o total de indivíduos com escolaridade de nível i, a variância dentro do i-ésimo nível de escolaridade

Vari(S) é dada por

representa a média

de salário para o

nível de escolaridade i.

onde


Continua o

Continuação

Fórmula para o cálculo de


Vari ncia global

Variância Global

é o número total de observações

representa a média global.


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 51

Medida de dependência: uma variável qualitativa e uma quantitativa (5)

onde Var(S) é a variância global e

é a média ponderada das variâncias

dentro de cada categoria da variável

qualitativa.


An lise explorat ria de dados

é igual a zero


An lise explorat ria de dados

soma dos desvios da média em cada

grupo.


An lise explorat ria de dados

Portanto,

tal que


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 6

Medida de dependência: uma variável qualitativa e uma quantitativa (6)

O grau de associação entre as duas

variáveis é definido como o ganho

relativo na variância, obtido pela

introdução da variável qualitativa.

A medida é baseada na decomposição de

somas de quadrados vista anteriormente.


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 7

Medida de dependência: uma variável qualitativa e uma quantitativa (7)

Se a média das variâncias for muito parecida com a variância

global,

o ganho relativo na variância será pequeno.

Já se a média das variâncias for bem menor do que a variância global,

o ganho relativo na variância será grande.


Medida de depend ncia uma vari vel qualitativa e uma quantitativa 71

Medida de dependência: uma variável qualitativa e uma quantitativa (7)

Observe que 0R2 1.

O símbolo R2 é usual em análise de variância

e regressão, tópicos que vão ser abordados

nas disciplinas Análise de Regressão e

Planejamento de Experimentos.

Quanto mais próximo de 1 for o valor de R2, maior será

a associação.


C lculo de r 2

Cálculo de R2

Calcule o R2 para o par salário e instrução.

s=35*var(dados$sal)/36 #variância global de salários com denominador n

s1=11*var(dadosord$sal[1:12])/12 #var. sal. Ens. Fund.

s2=17*var(dadosord$sal[13:30])/18 #var. sal. Ens. Médio

s3=5*var(dadosord$sal[31:36])/6 #var.sal. Ens. Superior

sbarra=(12*s1+18*s2+6*s3)/36 #média pond. variâncias

R2=(s-sbarra)/s #cálculo de R2

R2  0.4133

Dizemos que 41,33% da variação total

do salário é explicada pela variável

instrução.


Tabela para o c lculo de r 2

Tabela para o cálculo de R2

Variação residual

Variação total


C lculo de r 2 continua o

Cálculo de R2 (continuação)


C lculo de r 21

Cálculo de R2

Calcule o R2 para o par salário e região de procedência.

s=35*var(dados$sal)/36 #variância global de salários com denominador n

s1=10*var(dadosrp$sal[1:11])/11#capital

s2=11*var(dadosrp$sal[12:23])/12#interior

s3=12*var(dadosrp$sal[24:36])/13#outra

sbarra=(11*s1+12*s2+13*s3)/36

R2=(s-sbarra)/s

R2  0.0127

Dizemos que apenas 1,27%

da variabilidade dos salários

é explicada pela região de procedência.


Tabela para o c lculo de r 21

Tabela para o cálculo de R2


C lculo de r2 continua o

Cálculo de R2 (continuação)


Observa o

Observação

  • A comparação dos valores de R2 em cada exemplo confirma comentário anterior de que há uma relação entre salário e instrução e, que entre salário e região de procedência, não há relação.


Usando fun es do r para calcular o r 2

Usando funções do R para calcular o R2

No R, o comando aov(dados$sal~dados$instrucao),

gerará a seguinte tabela:

Terms:

dados$instrucao Residuals

Sum of Squares 304.4206 432.1463

Deg. of Freedom 2 33

é a variação

residual

é a variação devido aos grupos – numerador de R2

Logo,


Sal rio versus regi o de proced ncia

Salário versus região de procedência

aov(dados$sal~dados$rp)

Terms:

dados$rp Residuals

Sum of Squares 9.3728 727.1940

Deg. of Freedom 2 33

Logo,


Revendo as f rmulas

Revendo as fórmulas

Decomposição da variação total – soma de quadrados total - SQ

variação devida

aos grupos –

SQExp

variação total - SQTot

variação residual - SQRes


Exerc cio 1

Exercício 1

Calcule o grau de associação entre as variáveis estado

civil e idade (em anos completos) nos dados da

companhia MB.

> indice=order(dados$ecivil)

> dadosec=dados[indice,]

> table(dados$ecivil)

casado solteiro

20 16

> s=35*var(dados$idadea)/36

> s1=19*var(dadosec$idadea[1:20])/20

> s2=15*var(dadosec$idadea[21:36])/16

> sbarra=(20*s1+16*s2)/36

> R2=(s-sbarra)/s

> R2

[1] 0.0090952

Sugestão:

R.: O estado civil explica apenas 0,9% da variabilidade total da idade.


Exerc cio 1 cont

Exercício 1 (cont.)

Alternativamente,

aov(dados$idadea~dados$sal)

Terms:

dados$ecivil Residuals

Sum of Squares 14.45 1574.30

Deg. of Freedom 1 34

R2=14.45/(1574.3+14.45)

> R2

[1] 0.0090952


Exerc cio 2

Exercício 2

  • Voltando aos dados da pesquisa de telemarketing (telemark.txt), investigue possíveis dependências entre os seguintes pares de variáveis:

  • cia e uso

  • renda e uso

  • instrucao e uso

  • idade e uso.


An lise explorat ria de dados

aov(tel$uso~tel$cia)

Call:

aov(formula = tel$uso ~ tel$cia)

Terms:

tel$cia Residuals

Sum of Squares 17905.1 584990.0

Deg. of Freedom 1 998

R2=17905.1/(17905.1+584990)

> R2

[1] 0.02969853

R.: A Companhia explica apenas cerca de 3% da variabilidade

total da variável uso.


Renda versus uso

Renda versus uso


Renda versus uso1

Renda versus uso

Call:

aov(formula = tel$uso ~ tel$renda)

Terms:

tel$renda Residuals

Sum of Squares 19314.2 387447.2

Deg. of Freedom 6 778

> R2=19314.2/(19314.2+387447.2)

> R2

[1] 0.04748287

R.: A faixa de renda explica apenas cerca de 4,7% da

variabilidade total da variável uso.


Instru o e uso

Instrução e uso


Instru o e uso1

Instrução e uso

> aov(tel$uso~tel$instrucao)

Call:

aov(formula = tel$uso ~ tel$instrucao)

Terms:

tel$instrucao Residuals

Sum of Squares 25333.6 547578.7

Deg. of Freedom 5 959

> R2=25333.6/(25333.6+547578.7)

> R2

[1] 0.04421898

R.: A escolaridade explica apenas cerca de 4,4% da

variabilidade total da variável uso.


Idade e uso

Idade e uso


Idade e uso1

Idade e uso

Call:

aov(formula = tel$uso ~ tel$idade)

Terms:

tel$idade Residuals

Sum of Squares 18638.8 559852.2

Deg. of Freedom 5 961

R2=18638.8/(18638.8+559852.2)

> R2

[1] 0.03221969

R.: A idade explica apenas cerca de 3,2% da variabilidade

total da variável uso.


Conclus o

Conclusão

  • Pelas análises feitas, não percebe-se nenhuma dependência entre a variável intensidade de uso do telefone e as variáveis cia, renda, idade e escolaridade.


Fun es do r usadas na aula de hoje

read.table

order

sink

summary

sd

var

plot

boxplot

aov (analysis of variance)

Funções do R usadas na aula de hoje:


  • Login