510 likes | 639 Views
Análise Exploratória de Dados. Medidas de Dispersão. Objetivos da aula. Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis, desvio-médio, variância e desvio-padrão. Definir e calcular o coeficiente de variação amostral.
E N D
Análise Exploratória de Dados Medidas de Dispersão
Objetivos da aula • Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis, desvio-médio, variância e desvio-padrão. • Definir e calcular o coeficiente de variação amostral. • Definir e calcular quantis de uma distribuição de freqüências.
Exemplo 1 • Suponha que um grupo de 120 estudantes foi aleatoriamente distribuído em 6 grupos de 20. • Cada grupo recebeu um tipo de treinamento e depois todos foram submetidos a um mesmo teste. • Ao teste é atribuída uma nota de zero a 10.
Exemplo 1 (continuação) • Os dados (fictícios) com as notas dos testes para os seis grupos estão no arquivo notas.txt. • notas<-read.table(“m:\\aed\\notas.txt”) • names(notas)<-c(“G1”,”G2”,”G3”,”G4”,”G5”,”G6”)
Exemplo 1 (continuação) • Calcule a média e a mediana das notas para cada grupo. • É possível ver que todos os grupos apresentam a mesma média 5 e a mesma mediana 5. • Será que podemos afirmar que as performances foram iguais para os diferentes grupos?
> mean(notas$G1) 5 > median(notas$G1) 5 > mean(notas$G2) 5 > median(notas$G2) 5 > mean(notas$G3) 5 > median(notas$G3) 5 > mean(notas$G4) 5 > median(notas$G4) 5 > mean(notas$G5) 5 > median(notas$G5) 5 > mean(notas$G6) 5 > median(notas$G6) 5
Medidas de Dispersão • É necessário caracterizar o conjunto também usando medidas que avaliam a variabilidade dos dados no conjunto. • A seguir, apresentaremos algumas medidas de dispersão comuns.
Amplitude Amostral R • A amplitude amostral é uma das medidas de dispersão mais simples. • É dada pela diferença entre os valores máximo e mínimo observados na amostra. • Se x é o vetor que contém os dados, podemos calcular a amplitude amostral como amplitude<-max(x)-min(x).
Amplitude amostral (continuação) • Obtenha a amplitude amostral dos diferentes grupos. • É claro que no grupo 1 a amplitude amostral é zero. • Vemos que nos grupos 2, 4 e 6, a amplitude é 8; e nos grupos 3 e 5 são respectivamente 2 e 3.
Desvantagens da amplitude amostral • A grande desvantagem da amplitude amostral como medida para caracterizar a dispersão num conjunto de dados é que ela só leva em conta o mínimo e o máximo dos dados, ignorando todo o resto. • Observe que há diferenças nos grupos 2, 4 e 6. Porém, todos eles têm a mesma amplitude amostral.
Função range() • Se x é um vetor numérico, a função range(x) retorna o valor mínimo e o valor máximo em x. • Assim, range(x)[2]-range(x)[1] é equivalente àmax(x)-min(x).
Intervalo interquartílico ou Distância entre quartis (IIQ) • Uma medida de dispersão um pouco mais refinada que a amplitude amostral é a distância entre quartis (IIQ). • Depois de ordenada a amostra, divide-se ela em quatro partes de freqüência relativa ¼. Tomam-se então os valores que correspondem à freqüência relativa acumulada de ¼ e ¾, que são chamados respectivamente de primeiro e terceiro quartis (Q1 e Q3).
Distância entre quartis • IIQ=Q3-Q1 • No R, podemos calcular a distância entre quartis para um vetor de dados x da seguinte forma : • iiq<-IQR(x) • Para as notas do exemplo temos os valores 0.00 4.00 2.00 6.00 2.05 8.00 para as distâncias entre quartis dos grupos 1, 2, 3, 4, 5 e 6, respectivamente.
Distância entre quartis (continuação) • Podemos ver que a distância entre quartis apresenta diferenças que não foram detectadas pela amplitude amostral entre os diferentes grupos. • Mas, esta medida, ainda tem a desvantagem de só levar em conta dois valores do conjunto, ignorando os extremos e o meio.
Função quantile(x,p) • A função quantile(x,p) retorna o valor que na distribuição de freqüências tem freqüência relativa acumulada p, 0<p<1. • Assim, pedir IRQ(x) é equivalente à pedir quantile(x,0.75)-quantile(x,0.25).
Variância • É a média dos desvios da média tomados ao quadrado. • Veremos na disciplina Introdução à Estatística, que no caso particular da variância, é comum adotar o denominador da média em n-1. • O R possui uma função própria para calcular a variância com denominador n-1 dada por var(x), se x é o vetor contendo os valores cuja variância está para ser calculada.
Variância de notas • Neste exemplo, temos para os grupos, respectivamente, as variâncias (arredondadas para duas casas decimais): 0.00 5.47 0.63 9.58 1.11 13.89 • No R, peça var(notas[,i]), onde i=1,2,3,4,5,6; para obter cada variância.
Desvio-padrão • É a raiz quadrada positiva da variância: sqrt(var(x)) ou sd(x). • Neste exemplo temos os seguintes desvios-padrão (arredondados para duas casas decimais): 0.00 2.34 0.79 3.09 1.06 3.73
Coeficiente de Variação Amostral • É uma medida da variação relativa em um conjunto de valores numéricos. • Costuma ser expresso em termos percentuais. • Mede a dispersão dos dados em relação à média aritmética. • É definido por CV=(DP/média)x100%, onde DP é o desvio-padrão dos dados, média é a média aritmética dos dados.
Exemplo 2: (cont.) Os comandos estão em exemplo2.txt Calcule a variância de cada um dos três conjuntos de dados. dadosA<-c(12,15,23,22,23,16) dadosB<-c(0.65,3.65,11.65,10.65,11.65,4.65) dadosC<-c(551,554,555,562,562,561) var(dadosA) 22.7 var(dadosB) 22.7 var(dadosC) 22.7 mean(dadosA) 18.5 mean(dadosB) 7.15 mean(dadosC) 557.5
Exemplo 2: coeficiente de variação • CV para o conjunto A: • sqrt(var(dadosA))*100/mean(dadosA) 25.75% • CV para o conjunto B: • sqrt(var(dadosB))*100/mean(dadosB) 66.66% • CV para o conjunto C: • sqrt(var(dadosC))*100/mean(dadosC) 0.85% • Conclusão: O conjunto C é o que apresenta menor variabilidade relativa à média.
Quantis de uma distribuição de freqüências • Tanto a média como o desvio-padrão podem não ser medidas adequadas para representar um conjunto de dados, pois: • (i) são afetados, de forma exagerada por valores extremos; • (ii) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados.
Quantis de uma distribuição de freqüências (2) • Por exemplo, vimos que a mediana é o valor que deixa 50% dos dados (depois de ordenados) abaixo dela e 50%, acima dela. • Analogamente, podemos definir outras medidas, variando o percentual 50% (abaixo e acima de), para um percentual qualquer.
Quantis de uma distribuição de freqüências (3) • De um modo geral, podemos definir uma medida chamada QUANTIL de ordem p, ou p-quantil, onde p é uma proporção qualquer, 0<p<1, tal que 100p% das observações sejam menores do que o p-quantil. • NOTAÇÃO: q(p)
Quantis Especiais: QUARTIS • q(0,25),q(0,50) e q(0,75) • q(0,25): primeiro quartil (Q1) ou vigésimo-quinto percentil; • q(0,50): segundo quartil (Q2), ou mediana ou qüinquagésimo percentil; • q(0,75): terceiro quartil (Q3) ou septuagésimo-quinto percentil.
Quantis Especiais: DECIS • q(0,1),q(0,2),q(0,3),...,q(0,9) • q(0,1): primeiro decil (D1) ou décimo percentil; • q(0,2): segundo decil (D2), ou vigésimo percentil; • q(0,3): terceiro decil (D3), ou trigésimo percentil; • etc.
Quantis Especiais: PERCENTIS • q(0,01),q(0,02),q(0,03),...,q(0,99) • q(0,01): primeiro percentil; • q(0,02): segundo percentil; • q(0,03): terceiro percentil; • etc.
Determinação dos quantis usando o R • A função apropriada do R para obter os quantis de um vetor numérico x é a função quantile. • Se x é o vetor contendo os dados, e desejamos determinar os três quartis, pedimos quantile(x,c(0.25,0.5,0.75)). • Se desejamos o quinto e o nonagésimo-quintopercentis, pedimos quantile(x,c(0.05,0.95)), etc.
Exemplo 3: Emissão de Dióxido de Carbono • Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de 1995. • Fonte: StabilizingTheAtmosphere: Population, ConsumptionandGreenhouse Gases.
Exemplo 3: Emissão de Dióxido de Carbono (cont.) • Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.
Exemplo 3: Emissão de Dióxido de Carbono (cont.) • dados<-read.table(”m:\\aed\\dados13bm.txt",header=T) • names(dados) • [1] "pais" "emissao" • quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% • 0.0675 0.4150 1.4725 • quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) • 10% 20% 30% 40% 50% 60% 70% 80% 90%0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02
Exemplo 3: Emissão de Dióxido de Carbono (cont.) • > mean(dados$emissao) • [1] 1.174167 • > sqrt(var(dados$emissao)) • [1] 1.689093
Dados em histograma das emissões $breaks [1] 0 1 2 3 4 5 6 7 8 9 $counts [1] 46 12 6 3 2 1 0 1 1 $mids [1] 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 round(histEmissao$counts/72,digits=2) # freqüências relativas [1] 0.64 0.17 0.08 0.04 0.03 0.01 0.00 0.01 0.01 # freqüências relativas acumuladas 0.64 0.81 0.89 0.93 0.96 0.97 0.97 0.98 1.00
Quantis para dados agrupados • Uma aproximação para obter o p-quantil quando os dados estão agrupados em classes é a seguinte. • Passo 1: Encontre a classe que contém o p-quantil. Seja [a,b[ o intervalo da classe e Fp a freqüência relativa acumulada desta classe. • Passo 2: Calcule q(p) como a+m(p-Fp-1), onde m é dado por (b-a)/(Fp- Fp-1).
Quantis para dados agrupados (a,b) - classe que compreende q(p); Fp - freqüência acumulada da classe (a,b); Fp-1 - freqüência acumulada da classe imediatamente anterior
Caso agrupado (comparação) • O R nos forneceu como terceiro quartil para emissões o valor: 1.4725 • Para usar a aproximação sugerida no slide anterior vemos que a classe que contém o primeiro quartil é a classe [1,2[ e que F=0,81 e F anterior é 0,64. Logo, o terceiro quartil é aproximadamente 1+(0.75-0.64)/(0.81-0.64)=1.647059.
Dados agrupados • Ao tentar obter aproximações para quantis mais baixos desta distribuição, obteremos resultados pobres, pois as classes mais baixas apresentam uma freqüência muito alta neste exemplo. • Este tipo de aproximação será necessário quando não dispusermos dos dados brutos.
Atividade • Trabalhe com os dados sobre temperaturas médias mensais de Cananéia e Ubatuba no estado de São Paulo. • Selecione as temperaturas de janeiro, para as duas cidades, ao longo dos anos estudados. • Determine os quartis das temperaturas médias de janeiro para as duas cidades