1 / 233

ADD010 - M todos Estat sticos

2. Introduo. O que estatstica?. 3. Introduo. Porque estudar estatstica?. 4. Introduo. Problemas ilustrativos .... 5. Introduo. O que estatstica? Estatstica descritiva Estatstica inferencialProbabilidades, amostragemPor que estudar estatstica?Tomada de decises, literatura t

stacy
Download Presentation

ADD010 - M todos Estat sticos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. ADD010 - Métodos Estatísticos João Luiz Becker jlbecker@ea.ufrgs.br Denise Lindstrom Bandeira dlbandeira@ea.ufrgs.br

    2. 2 Introdução O que é estatística?

    3. 3 Introdução Porque estudar estatística?

    4. 4 Introdução Problemas ilustrativos ...

    5. 5 Introdução O que é estatística? Estatística descritiva Estatística inferencial Probabilidades, amostragem Por que estudar estatística? Tomada de decisões, literatura técnica e profissional, pesquisa científica, ... Problemas ilustrativos Prévias eleitorais, pesquisa de mercado, auditoria, previsões econômicas, previsões de vendas, controle de qualidade, avaliação de performance, pesquisa científica, ...

    6. 6 Introdução (cont.) Dados multivariados são observações realizadas (e registradas) de múltiplas (e distintas) variáveis para um conjunto de indivíduos ou objetos Dados desta espécie surgem em praticamente todos os ramos do conhecimento científico “Para os propósitos de qualquer campo de aplicação, a maioria de nossas técnicas são, ou deveriam ser, multivariadas. Se um problema não está sendo tratado como um problema multivariado, está sendo tratado superficialmente.” (Gatty, 1966 apud Hair et al., 1998, p.4)

    7. 7 Preliminares Papel dos microcomputadores Tipos básicos de dados: métricos (quantitativos) e não métricos (qualitativos) Escalas de mensuração de dados não métricos: nominais e ordinais Escalas de mensuração de dados métricos: intervalares e de razão Erros de mensuração: validade e fidedignidade

    8. 8 Notação p - número de variáveis n - número de indivíduos ou objetos (então tem-se um total de n ? p medidas) xrj - r-ésima observação da j-ésima variável (r = 1,...,n ; j = 1,...,p) X = - matriz de dados

    9. 9 Notação (cont.) yj = - j-ésimo vetor coluna, correspondente à j-ésima variável xrT = - r-ésimo vetor linha, correspondente ao r-ésimo indivíduo xrT - transposta de xr

    10. 10 Notação (cont.) X = =

    11. 11 Estatística descritiva Objetivo Coletar, organizar, resumir e apresentar dados Conceitos importantes Dados e informação Unidade de análise Variabilidade Amostras e populações

    12. 12 Dados, informação e decisão

    13. 13 Estatística inferencial Objetivo Obter ou formular inferências (predições, decisões) sobre uma população com base em informações contidas em uma amostra Elementos de um problema estatístico Definição clara dos objetivos do experimento e da população pertinente Desenho experimental e procedimento de amostragem Coleta e análise de dados Procedimento de inferência Medição da qualidade (confiabilidade) da inferência

    14. 14 Transformando dados em informação Distribuição de freqüências e histogramas Intervalos iguais Quantos intervalos? Procura-se perceber ... Tendência central Uniformidade Concentração Multimodalidade Variabilidade Simetria Curtose “Outliers”

    15. 15 Medidas descritivas Tendência central Médias Mediana Moda Dispersão Amplitude ou intervalo Variância Desvio-padrão Outras (percentis, quartis, decis)

    16. 16 Medidas descritivas Média aritmética: Variância: Desvio-padrão:

    17. 17 Chebyshev Para qualquer conjunto de dados, o intervalo entre a média menos k desvios-padrão e a média mais k desvios-padrão contém sempre pelo menos 100?(1-1/k2)% dos dados

    18. 18 Incerteza e sua mensuração Na próxima lâmina são feitas algumas afirmações. Decida se as afirmações são verdadeiras ou falsas. Há certeza em sua decisão? Por exemplo, negue as afirmações e decida se as novas afirmações são verdadeiras ou falsas. Há certeza em sua decisão? Qual a diferença estrutural entre a 2ª e a 3ª afirmações? E entre a 5ª e a 6ª?

    19. 19 Incerteza e sua mensuração (cont.) Pegue uma moeda; você está a ponto de jogá-la para o ar; ao cair a face “cara” ficará voltada para cima Considere os dígitos decimais de p, contados a partir do ponto decimal; o 100.000o dígito é um 1 Considere os dígitos decimais de p, contados a partir do ponto decimal; o 1o dígito é um 1 Existem mais de 10000 telefones residenciais em Maputo, capital de Moçambique O governador do RGS é “da capital” O próximo governador do RGS será “da capital” A próxima páscoa cairá no período de lua cheia A última páscoa caiu no período de lua cheia

    20. 20 Incerteza É uma propriedade do nosso conhecimento acerca de eventos, não do evento em si Todas as incertezas são intrinsecamente do mesmo tipo Probabilidades são números que nos ajudam a mensurar incertezas Probabilidades, em última instância, são estabelecidas com base em (e portanto representam) crenças pessoais acerca de eventos incertos e seu contexto

    21. 21 Certezas e dúvidas O filósofo questiona o estúpido: - Sabes qual é o grande mal deste mundo? - Não, qual é? - pergunta o estúpido. - O grande mal é que os parvos têm certezas, e os sensatos têm dúvidas ... - Mas tens mesmo certeza? - interrompe o estúpido. - Claro que tenho! - responde o filósofo.

    22. 22 Modelagem determinística Com base em observações e experimentação, a ciência chega a leis que governam o curso dos fenômenos (modelos causais determinísticos) O esquema mais elementar e difundido de regularidade é: Em qualquer realização de um conjunto (em geral complexo) de condições ? , o evento A ocorre

    23. 23 Exemplos A água, a uma pressão atmosférica (760 mm Hg), aquecida acima de 100°C (conjunto de condições ? ), transforma-se em vapor (evento A) Para qualquer reação química sem trocas com o meio externo (conjunto de condições ? ), a quantidade total de matéria permanece constante (evento A) - lei de conservação da matéria Etc ...

    24. 24 Eventos certos, impossíveis e aleatórios Um evento que inevitavelmente ocorre sempre que o conjunto de condições ? se realiza é chamado de evento certo Um evento que definitivamente não pode ocorrer quando da realização do conjunto de condições ? é chamado de evento impossível E se, quando o conjunto de condições ? é realizado o evento A puder ou não ocorrer, ele é chamado de evento aleatório (ou estocástico, ou randômico)

    25. 25 Contextualização Quando estamos falando de eventos certos, impossíveis ou aleatórios, sempre estaremos nos referindo à certeza, impossibilidade ou aleatoriedade com respeito a um conjunto definido de condições ? Sob uma ótica determinista estrita, a aleatoriedade de um evento é interpretada simplesmente como o fato de o conjunto de condições ? não englobar a completa coleção de razões necessárias e suficientes para a ocorrência de A

    26. 26 Probabilidades Para vários fenômenos, entretanto, pode-se não somente estabelecer a aleatoriedade do evento A, mas também uma estimativa quantitativa da possibilidade de sua ocorrência O esquema mais elementar e difundido de regularidade é estendido para: A probabilidade de que o evento A ocorra quando da realização de um conjunto de condições ? é igual a p

    27. 27 Exemplo Não há como prever se um determinado átomo de rádio decairá em um determinado intervalo de tempo ou não, mas é possível, com base em resultados experimentais, determinar a probabilidade de tal decaimento um átomo de rádio decai em um intervalo de tempo de t anos com uma probabilidade p = 1 - e-0,000436t

    28. 28 Exemplo (cont.) O conjunto de condições ? estabelece que o átomo de rádio não esteja sujeito a ações externas não usuais, como bombardeamento com partículas em alta velocidade; suas condições de existência não importam: em que meio ele se encontra, que temperatura ele tem, etc. O evento A consiste no fato de que o átomo decairá no intervalo de tempo de t anos

    29. 29 Outro exemplo Não há como prever se uma particular central telefônica receberá uma chamada em um determinado intervalo de tempo ou não, mas é possível, com base em observações sistemáticas, estimar a probabilidade de tal evento uma central telefônica receberá uma chamada em um intervalo de tempo de t segundos com uma probabilidade p = 1 - e-?t (cada central telefônica possui um valor para o parâmetro ?)

    30. 30 Outro exemplo (cont.) O conjunto de condições ? estabelece que a central telefônica esteja sujeita a ações externas usuais, como hábitos e tamanho da população usuária estáveis, canais de acesso em perfeito funcionamento, etc. O evento A consiste no fato de que a central telefônica receberá uma chamada no intervalo de tempo de t segundos

    31. 31 Créditos A idéia, que hoje nos parece tão natural, de que a probabilidade de um evento aleatório A, sob condições conhecidas, admite uma avaliação quantitativa p = P(A), foi elaborada no século 17, com os trabalhos de Girolamo Cardano (1501-1576) - liber de ludo aleae (manual de jogos produzido por volta de 1520, publicado em 1663) Pierre de Fermat (1601-1665) - divisão de apostas (correspondências de 1654) Blaise Pascal (1623-1662) - divisão de apostas (correspondências de 1654) Christiaan Huygens (1629-1695) - de ratiociniis in ludo aleae (1657) Jacques Bernoulli (1654-1705) - ars conjectandi (1713)

    32. 32 Créditos (cont.) Mas outros vultos também merecem créditos Luca Paccioli (1445-1514) Tartaglia (1499-1557) Galileo Galilei (1564-1642) Gottfried Leibniz (1646-1716) - arte combinatória, finanças Pierre-Rémond de Montmort (1678-1719) – essay d’analyse sur les jeux de hasard (2ª ed., 1713) Abraham de Moivre (1667-1754) - the doctrine of chances (1718) Thomas Bayes (1702-1761) – an essay towards solving a problem in the doctrine of chances (1763) - probabilidades inversas Joseph Louis Lagrange (1736-1813) – mémoire sur l’utilité de la methode de prendre le milieu entre les résultats de plusieurs observations (1776) Carl Friedrich Gauss (1777-1855) - theoria combinationis observatorium erroribus minimis obnoxia (1809)

    33. 33 Créditos (cont.) E ainda outros Pierre Simon de Laplace (1749-1827) - théorie analytique des probabilités (1812) Siméon-Denis Poisson (1781-1840) - recherches sur la probabilité des jugements (1837) Cournot (1801-1877) - exposition de la théorie des chances et des probabilités (1843) Pafnuty Lvovich Chebyshev (1821-1894) – an essay on elementary analysis of the theory of probabilities (1846) - fundador da escola russa Andrei Andreevich Markov (1856-1922) – on some applications of algebraic continued fractions (1884) Alexandr Mikhailovich Lyapunov (1857-1918)

    34. 34 Modelagem probabilista Mais genericamente, pode-se aplicar as mesmas idéias a situações envolvendo incertezas a respeito da veracidade de afirmações, estimando-se quantitativamente a possibilidade de sua veracidade com base em informações disponíveis O esquema é então estendido para: A probabilidade de que a afirmação A seja verdadeira, considerado um conjunto de informações ? , é igual a p

    35. 35 Modelagem probabilista (cont.) Incerteza é uma propriedade do nosso conhecimento acerca dos eventos, e não do evento em si Eu considero a palavra probabilidade como significando o estado de espírito com respeito a uma asserção, um evento futuro, ou qualquer outro assunto para o qual o conhecimento absoluto não existe (August de Morgan, 1838) Probabilidade não tem nada a ver com números, tem a ver com a estrutura de raciocínio (Glenn Shafer, apud Pearl, 1988)

    36. 36 Probabilidades São números que nos ajudam a mensurar incertezas, chances de ocorrência, aleatoriedade Normalização: 0 -------------------- 1 0% -------------------- 100% Bases para estimativa Pressupostos teóricos Informações disponíveis Freqüência relativa Simetria Julgamentos pessoais

    37. 37 Relações entre eventos Se, para qualquer realização de um conjunto de condições ? , sob as quais um evento A ocorre, o evento B também ocorre, diz-se que A implica em B, usando a notação A ? B ou B ? A Se A ? B e B ? A simultaneamente, isto é, se em cada realização do conjunto de condições ?, os eventos A e B ambos ocorrem ou ambos não ocorrem, diz-se que os eventos A e B são equivalentes, usando a notação A = B

    38. 38 Produto de eventos Todos os eventos certos são obviamente equivalentes; usa-se a notação ? para os eventos certos Da mesma forma, todos os eventos impossíveis são equivalentes; usa-se a notação ? para os eventos impossíveis Um evento consistindo da ocorrência de ambos eventos A e B será chamado de produto de A e B, usando-se a notação AB ou A?B

    39. 39 Soma e diferença de eventos Um evento consistindo da ocorrência de pelo menos um dos eventos A e B será chamado de soma de A e B, usando-se a notação A + B ou A?B Um evento consistindo da ocorrência de A e da não ocorrência de B será chamado de diferença de A e B, usando-se a notação A - B Dois eventos A e A’ são ditos complementares se as seguintes relações ocorrem simultaneamente: A + A’ = ? e A?A’ = ?

    40. 40 Exemplos Se, ao jogarmos dados, o evento C significa a obtenção de um resultado par, então ? - C = C’ é o evento consistindo da obtenção de um resultado ímpar Suponha que o conjunto de condições ? represente jogar um dado uma vez; se denotarmos por A o resultado seis, por B o resultado três, por C o resultado par, e por D o resultado múltiplo de três, então as seguintes relações são válidas: A ? C, A ? D, B ? D, A?B = D, e C?D = A

    41. 41 Exclusão mútua As definições de soma e produto de dois eventos é generalizada para qualquer número de eventos A + B + ... + N consiste na ocorrência de pelo menos um dos eventos A, B, ..., N AB...N (ou A?B?...?N) consiste na ocorrência de todos os eventos A, B, ..., N Dois eventos A e B são ditos mutuamente exclusivos se sua ocorrência conjunta é impossível, isto é, se AB = ?

    42. 42 Decomposição de eventos Se A = B1 + B2 + ... + Bn e os eventos Bi são mutuamente exclusivos em pares, isto é, BiBj = ? para i ? j, diz-se que o evento A é decomponível nos eventos B1, B2, ..., Bn Os eventos B1, B2, ..., Bn formam um grupo completo de eventos se ao menos um deles necessariamente ocorrer (para cada realização do conjunto de condições ? ), isto é, se B1 + B2 + ... + Bn = ? Grupos completos de eventos mutuamente exclusivos em pares são de particular interesse na modelagem probabilística

    43. 43 Propriedades Comutativa: A+B = B+A; AB = BA Associativa: A+(B+C) = (A+B)+C; A(BC) = (AB)C Distributiva: A(B+C) = AB+AC; A+(BC) = (A+B)(A+C) Idempotência: A+A = A; AA = A Absorção: se A ? B então A+B = B e AB = A Modularidade: A+?=?; A+? =A; A? = A; A? = ? Leis de De Morgan: (A+B)’=A’?B’; (AB)’=A’+B’ Dupla complementação: A’’ = A

    44. 44 Axiomas de probabilidades A1: Associado a cada evento A, existe um número não negativo P(A) A2: P(?) = 1 A3: Para eventos Ai, se A = A1+A2+...+An+... e AiAj = ? para i ? j, então P(A) = P(A1)+P(A2)+...+P(An)+... OBS: o axioma A3 é equivalente ao axioma de continuidade: para uma seqüência de eventos B1?B2?...Bn?... , se B1?B2?...Bn?... = ?, então P(Bn) ? 0 quando n ? ?

    45. 45 Alguns teoremas T1: P(?) = 0 T2: P(A’) = 1- P(A) T3: 0 ? P(A) ? 1 T4: Se A ? B então P(A) ? P(B) T5: P(A + B) = P(A) + P(B) - P(AB) T6: P(A1+A2+...+An) ? P(A1)+P(A2)+...+P(An) T7: P(B - A) = P(B) - P(AB) T8: P(A) = P(AB) + P(AB’)

    46. 46 Probabilidade condicional Em várias situações é útil avaliar a probabilidade de um evento A considerada a informação adicional (em relação ao conjunto de condições ? ) de que um outro evento B tenha ocorrido Denota-se tal avaliação por P(A|B) Falando estritamente, todas as probabilidades são condicionais, na medida em que a teoria funda-se na suposição da ocorrência do conjunto de condições ?

    47. 47 Probabilidade condicional (cont.) Se P(B) ? 0, define=se Se P(B) = 0, P(A|B) é indefinido Da definição acima, deriva-se o chamado teorema da multiplicação: P(AB) = P(A)P(B|A) = P(B)P(A|B) note que o teorema é válido mesmo quando um dos eventos A ou B é o evento impossível, pois neste caso P(A) = 0 (ou P(B) = 0), P(A|B) = 0 (ou P(B|A) = 0) e P(AB) = 0 é possível demonstrar que a definição acima satisfaz todos os axiomas de probabilidade

    48. 48 Independência Diz-se que o evento A é independente do evento B se P(A|B) = P(A), ou seja, se a ocorrência do evento B não altera a probabilidade do evento A Neste caso, pelo teorema da multiplicação de probabilidades, P(A)P(B|A) = P(B)P(A), e então P(B|A) = P(B); logo, o evento B é independente do evento A Ou seja, a propriedade de independência é simétrica

    49. 49 Independência (cont.) Se A e B são independentes, então A e B’ também são, pois P(B|A) + P(B’|A) = 1, e então P(B’|A) = 1 - P(B|A) = 1 - P(B) = P(B’) Da mesma forma, A’ e B são independentes Da mesma forma, A’ e B’ são independentes Para eventos independentes, o teorema da multiplicação toma a forma simplificada P(AB) = P(A)P(B)

    50. 50 Teorema da probabilidade total Suponha que o evento B possa ocorrer conjuntamente com um e apenas um evento da coleção de eventos mutuamente exclusivos A1, A2, ..., An Ou seja, , e os eventos BAi são mutuamente exclusivos

    51. 51 Probabilidade total (cont.) Tem-se , e, utilizando o teorema da multiplicação,

    52. 52 Teorema de Bayes De acordo com o teorema da multiplicação, tem-se P(AiB) = P(B)P(Ai|B) = P(Ai)P(B|Ai), e então Usando o teorema da probabilidade total, tem-se

    53. 53 Exercício Doze por cento das pessoas que reservam lugar nos vôos de uma companhia aérea sistematicamente faltam ao embarque. Os aviões da companhia comportam 130 passageiros. Houve 131 pedidos de reserva. Determine a probabilidade de que alguém, embora comparecendo ao balcão de embarque, fique de fora do vôo. Determine a probabilidade de que nenhuma pessoa fique de fora do vôo. Sugestão: trabalhe com pequenos números (avião menor?) para facilitar seu raciocínio e então generalize. Com bases nesses resultados, você diria que a política de “overbooking” das companhias aéreas é acertada?

    54. 54 Variáveis aleatórias Distribuições de probabilidade Discreta Contínua Distribuições acumuladas Valor esperado Variância Distribuição Normal

    55. 55 Variáveis discretas Variáveis aleatórias discretas são aquelas que podem assumir apenas um conjunto finito ou enumerável de valores Para uma descrição probabilista completa de uma variável aleatória discreta que pode assumir valores x1, x2, x3, ... com probabilidades positivas, é suficiente conhecer as probabilidades pk = P(X = xk) A função de distribuição acumulada (FDA) pode ser obtida pela equação

    56. 56 Variáveis discretas (cont.) A FDA F(x) de uma variável aleatória discreta é descontínua e cresce em saltos em seus possíveis valores (i.e. valores para os quais pk > 0) A magnitude do salto de F(x) no ponto x, é igual a F(x + 0) - F(x) Se dois possíveis valores da variável X são separados por um intervalo no qual não há outros valores possíveis de X, então F(x) é constante neste intervalo

    57. 57 Exemplo Considere-se uma seqüência de n repetições independentes, em cada uma das quais a probabilidade de ocorrência de um evento A seja constante e igual a p Os eventos elementares pertencentes a ? são seqüências de ocorrências e não ocorrências do evento A em n repetições (por exemplo, um dos eventos elementares será a ocorrência de A em todas as repetições) Há um total de 2n eventos elementares

    58. 58 Exemplo (cont.) Seja a variável X definida por X é igual ao número de ocorrências do evento A no evento elementar e É fácil constatar que X pode assumir qualquer valor inteiro de 0 a n inclusive Tem-se que Esta distribuição é chamada distribuição binomial com parâmetros n e p

    59. 59 Exemplo (cont.) A FDA de X é definida por A FDA é uma função escada com degraus nos pontos x = 0, 1, ..., n O salto no ponto x = k é igual a Pn(k)

    60. 60 Variáveis contínuas Variáveis aleatórias contínuas são aquelas para as quais existe uma função não negativa f(x) satisfazendo a seguinte equação para qualquer x A função f(x) é chamada de função densidade de probabilidades

    61. 61 Variáveis contínuas (cont.) Se a FDA é diferenciável, sua derivada é a função densidade, isto é, F’(x) = f(x) A função densidade possui as seguintes propriedades f(x) ? 0 Para quaisquer x1 e x2, Se f(x) é contínua no ponto x, então P(x ? X < x + dx) = f(x)dx

    62. 62 Exemplo (cont.) A densidade da distribuição Normal é A função f(x) atinge seu máximo no ponto x = ?, tendo pontos de inflexão em x = ? ? ? O eixo das abcissas é sua assíntota quando x ? ??

    63. 63 Algumas Normais

    64. 64 Esperança matemática (variáveis discretas) Para uma variável aleatória discreta X com possíveis valores x1, x2, ..., xn, ... e respectivas probabilidades p1, p2, ..., pn, ... , tem-se E(X) = , se a série converge absolutamente

    65. 65 Exemplo Se X é binomial com parâmetros n e p, tem-se

    66. 66 Esperança matemática (variáveis contínuas) Para uma variável aleatória contínua X, tem-se E(X) = , se existe

    67. 67 Exemplo Se X é normal, então A mudança de variáveis z = (x - ?)/? reduz a integral a Como , tem-se E(X) = ?

    68. 68 Variância (variáveis discretas) Para uma variável aleatória discreta X com possíveis valores x1, x2, ..., xn, ... e respectivas probabilidades p1, p2, ..., pn, ... , tem-se Var(X) = Se X é binomial com parâmetros n e p, pode-se demonstrar que Var(X) = np(1-p)

    69. 69 Variância (variáveis contínuas) Para uma variável aleatória contínua X, tem- se Var(X) = Se X é normal, pode-se demonstrar que Var(X)= ?2

    70. 70 Amostragem aleatória Um processo de amostragem é dito aleatório simples se e somente se todos os elementos da população têm iguais chances de serem escolhidos para participar da amostra A variabilidade (entre possíveis amostras distintas) de uma estatística amostral (p.ex. média, desvio-padrão, proporção, ...) é aleatória se e somente se o procedimento de amostragem foi aleatório A distribuição de probabilidades da estatística chama-se distribuição amostral

    71. 71 Amostragem

    72. 72 Teorema do limite central Se a população sob amostragem tem distribuição Normal (com média m e variância s2), a distribuição das médias amostrais de tamanho n será Normal (com média m e variância s2/n) Se a população sob amostragem não tem distribuição Normal (mas tem média m e variância s2), a distribuição das médias amostrais de tamanho n tende para uma distribuição Normal (com média m e variância s2/n) à medida que n cresce

    73. 73 Exercício As leis de proteção ao consumidor em vigência fazem com que os engarrafadores de bebidas se preocupem com a quantidade contida nas garrafas que vendem ao público. Um engarrafador seleciona ao acaso 10 garrafas de 600 ml por hora e mede a quantidade de bebida em cada uma para checar se a máquina envasadora está funcionando bem. Registros passados mostram que a quantidade de bebida por garrafa tem desvio-padrão de 5 ml. A máquina está ajustada para descarregar em média 610 ml da bebida por garrafa. Qual é a probabilidade de que a média amostral das 10 garrafas seja menor do que 604 ml?

    74. 74 Distribuição amostral de proporções Num processo de amostragem aleatória de uma população binomial com parâmetro de proporção p, a distribuição amostral da proporção amostral p^ converge para a distribuição Normal com média mp^=p e variância s2p^=px(1-p)/n à medida que n cresce obs: para efeitos práticos, a aproximação é adequada se mp^-2 sp^ e mp^+2 sp^ caírem no intervalo de 0 a 1

    75. 75 Exercício Antes de tomar a decisão de modificar o sabor da Coca-Cola em 1985, a companhia testou os sabores com aproximadamente 40.000 consumidores em 30 cidades americanas. Sem qualquer marca de identificação, 55% preferiram a nova fórmula à anterior. Há boa confiança de que os 40.000 consumidores representem uma amostra aleatória da população de consumidores de refrigerantes tipo “cola”. Descreva a distribuição amostral de p^. Encontre a probabilidade de que p^ se localize a menos de 0,005 da proporção populacional dos consumidores que preferem o novo sabor.

    76. 76 Distribuição amostral da diferença de médias Num processo de amostragem aleatória independente (tamanhos n1e n2) de duas populações (com médias m1 e m2 e variâncias s21 e s22), a distribuição da diferença de médias amostrais converge para a distribuição Normal com média m1-m2 e variância s21/n1+s22/n2 à medida que n1 e n2 crescem

    77. 77 Distribuição amostral da diferença de proporções Num processo de amostragem aleatória independente (tamanhos n1e n2) de duas populações binomiais (com parâmetros de proporção p1 e p2), a distribuição da diferença de proporções amostrais p^1-p^2 converge para a distribuição Normal com média p1-p2 e variância p1x(1-p1)/n1+p2x(1-p2)/n2 à medida que n1 e n2 crescem

    78. 78 Inferência estatística Estimação de parâmetros Estimativas pontuais Estimativas por intervalo de confiança Teste de hipóteses Hipótese nula e hipótese alternativa Nível de significância Erros tipo I e tipo II Testes bilaterais e unilaterais Testes paramétricos e não paramétricos

    79. 79 Testes de hipóteses Todos os testes estatísticos seguem, em princípio, o mesmo modelo lógico Passo 1: formular hipótese nula Passo 2: selecionar amostra aleatória Passo 3: calcular estatística de teste (para a particular amostra selecionada no passo 2) Passo 4: determinar a probabilidade de que a estatística de teste (variável aleatória), sob a hipótese nula, seja tão extrema quanto o valor calculado no passo 3 Passo 5: se a probabilidade calculada no passo 4 for pequena, a hipótese nula é rejeitada, caso contrário, ela é aceita (usualmente em ciências sociais, usa-se o “divisor de águas” de 0,05, ou 5%)

    80. 80 Associação entre variáveis Gráfico de dispersão Correlação e regressão linear Estimação de parâmetros Método dos mínimos quadrados Outros métodos Regressão linear múltipla Outros modelos de regressão Correlação e causalidade

    81. 81 Introdução à análise multivariada É usual decompor o processo de investigação em geral, e em ciências sociais em particular, em um conjunto de etapas sistemicamente interligadas, iniciando pela fase preliminar de problematização e revisão do conhecimento existente sobre algum fenômeno, para depois concretizar objetivos, talvez formulando hipóteses, delimitando o alcance e as características gerais da investigação Tendo optado por uma metodologia de cunho quantitativo, e utilizando dados primários, é necessário delinear todo o processo de trabalho de campo, com os procedimentos de coleta, as características da amostra, a instrumentação (questionários?) antes de passar à ação propriamente dita

    82. 82 Introdução à análise multivariada (cont.) Em seqüência, é necessário tratar os problemas das não respostas (dados omissos), dos erros, tanto de campo (respostas inválidas) como de digitação, e dos dados incomuns (“outliers”) A fase seguinte é a análise dos dados obtidos, objeto desta nossa apresentação Nunca é demais ressaltar que as diferentes etapas, incluindo o controle e a depuração dos dados, tenham sido realizadas adequadamente, pois a análise dos dados não poderá corrigir eventuais deficiências derivadas de um mau desenho do questionário, de uma amostra pouco representativa, de erros dos entrevistadores, ou de outras causas relacionados ao trabalho de campo

    83. 83 Introdução à análise multivariada (cont.) O principal objetivo da análise de dados multivariados é a simplificação: resumir um grande conjunto de dados por meio de poucos (relativamente) parâmetros Muitas das técnicas são exploratórias, na medida em que procuram gerar hipóteses ao invés de testá-las Há dois tipos principais de análise, que buscam estabelecer relações entre variáveis ou entre indivíduos Entretanto, às vezes é interessante observar as variáveis e criar uma ou mais novas variáveis por meio de transformações adequadas para comparar indivíduos mais facilmente

    84. 84 Valor teórico Basicamente as técnicas fazem uso de transformações (artificiais) das variáveis originais, criando novas variáveis (combinações lineares) do tipo valor teórico = w1Y1 + w2Y2 + ... + wpYp Os coeficientes wi são escolhidos de acordo com os objetivos da técnica

    85. 85 Tipos de análises Análise de componentes principais Análise fatorial Regressão múltipla Análise discriminante Análise de variância e covariância multivariada Análise conjunta (“conjoint analysis”) Correlação canônica Análise de conglomerados Escalas multidimensionais Análise de correspondências Modelos probabilísticos lineares (“logit analysis”) Modelagem de equações estruturais

    86. 86 Distribuições multivariadas X - variável aleatória de dimensão p, também chamado de vetor aleatório XT = [X1, ..., Xp], onde X1, ..., Xp são variáveis aleatórias univariadas Função de probabilidade conjunta: P(x) = P(x1, ..., xp) = Prob(X1=x1, ..., Xp=xp) P(x) ? 0 para todo x ?x P(x) = 1 Distribuição marginal: Pi(xi) = Prob(Xi= xi) = ?x com xi fixo P(x) (OBS: também é possível fixar mais de uma variável)

    87. 87 Distribuições multivariadas (cont.) Independência: P(x) = ?i Pi(xi) Probabilidade condicional: Prob(A|B) = P(A?B)/P(B) Distribuição condicional: P(x1|x2) = Prob(X1=x1|X2=x2) = P(x1, x2)/P2(x2) P(x1, ..., xk|xk+1, ..., xp) = P(x)/PM(xk+1, ..., xp), onde PM(xk+1, ..., xp) denota a distribuição marginal conjunta de Xk+1, ..., Xp.

    88. 88 Exemplo Uma moeda é atirada quatro vezes. Sejam X1 = número de caras nas duas primeiras jogadas; X2 = número de caras nas três últimas jogadas Qual é a distribuição conjunta de probabilidades de X1 e X2? Qual é a distribuição marginal de X1? Qual é a distribuição condicional de X1 dado que X2 = 2?

    89. 89 Solução

    90. 90 Variáveis contínuas Função de distribuição acumulada (FDA): F(x) = P(X < x) Função densidade de probabilidade (fdp): f(x) = dF(x)/dx FDA conjunta: F(x) = F(x1, ..., xp) = Prob(X1< x1, ..., Xp< xp) fdp conjunta: f(x) = f(x1, ..., xp) = ?pF(x1, ..., xp)/?x1?x2 ...?xp assumindo que F(x) é contínua f(x) ? 0 para todo x ? ... ? f(x)dx1 ... dxp = 1

    91. 91 Variáveis contínuas fdp marginal: fi(xi) = ? ... ? f(x)dx1 ... dxi-1 dxi+1 ... dxp (OBS: também é possível fixar mais de uma variável) Independência: f(x) = ?i fi(xi) fdp condicional: h(x1|x2) = f(x1, x2)/f2(x2) h(x1, ..., xk|xk+1, ..., xp) = f(x)/fM(xk+1, ..., xp), onde fM(xk+1, ..., xp) denota a fdp marginal conjunta de Xk+1, ..., Xp.

    92. 92 Exemplo( variáveis contínuas) 2 se 0< x1< x2<1 Seja a fdp f(x1, x2) = [ 0 caso contrário Quais são as distribuições marginais de X1 e X2? As variáveis aleatórias X1 e X2 são independen-tes? Qual a distribuição condicional de X1 dado que X2 = 3/4?

    93. 93 Solução

    94. 94 Distribuição Normal univariada X~N(? , ?2) - variável aleatória unidimensional Normal, com média ? e variância ?2 Sua fdp é dada por: A função f(x) atinge seu máximo no ponto x = ?, tendo pontos de inflexão em x = ? ? ? O eixo das abcissas é sua assíntota quando x ? ??

    95. 95 Algumas Normais

    96. 96 Distribuição Normal bivariada Quando há apenas duas variáveis envolvidas, denotamos o vetor média por ?T = [?1, ?2], e a matriz de covariância por ? = onde ? denota o coeficiente de correlação entre as duas variáveis Neste caso |?|1/2 = ?1?2(1-?2)1/2 e ?-1 =

    97. 97 Distribuição Normal bivariada (cont.) A fdp conjunta é então: ? é não singular e positiva definida se |?| < 1 Se |?| = 1 as duas variáveis são linearmente relacionadas

    98. 98 Distribuição Normal bivariada (cont.) Se ? = 0 a equação se reduz ao produto de duas Normais univariadas e as duas variáveis são de fato independentes Note que as variáveis x1 e x2 aparecem apenas na expressão exponencial; então f(x1, x2) é constante quando z12 - 2?z1z2 + z22 = constante onde zi = (xi - ?i)/?i para |?| < 1 esta é a equação de uma elipse (veja figuras a seguir) f(x1, x2) é máxima no ponto (?1, ?2)

    99. 99 Distribuição Normal bivariada (cont.)

    100. 100

    101. 101

    102. 102

    103. 103 Distribuição Normal bivariada (cont.) As equações de regressão de X1 como função de X2 e X2 como função de X1 são linhas retas As distribuições marginais, tanto de X1 como de X2, são Normais Todas as distribuições condicionais, tanto em X1 como em X2, são Normais

    104. 104 Análise preliminar Para escolha da particular análise multivariada a empregar, é conveniente examinar preliminarmente as variáveis disponíveis, para compreender suas características e verificar se seus pressupostos são satisfeitos, em particular se o número de casos é suficiente Por outro lado, é sempre importante revisar os dados para identificar casos com dados omissos ou incomuns Avanços computacionais, em particular dos microcomputadores, popularizaram as técnicas multivariadas, livrando o usuário de cálculos tediosos e do conhecimento de fórmulas complicadas Entretanto, isto aumenta a responsabilidade do usuário, pois os pacotes computacionais não têm condições de criticar os pressupostos das técnicas ou dos dados

    105. 105 Análise preliminar (cont.) Codificação Dados qualitativos e ordinais Unidades de medida dos dados quantitativos Tratamento de respostas múltiplas Tratamento de valores omissos (respostas em branco, não se aplica, não sei, etc.) Digitação e verificação de erros Edição Dados estão completos? Dados são consistentes? Há credibilidade? Identificação de “outliers”

    106. 106 Análise preliminar (cont.) Resumo estatístico Médias Desvios-padrão Histogramas e outros gráficos Correlações Diagramas de dispersão

    107. 107 Médias, variâncias e covariâncias Médias: ?T = [?1, ..., ?p], onde ?i = E(Xi) = ?xfi(x)dx, se Xi é contínua ?i = E(Xi) = ?xxPi(x), se Xi é discreta Variâncias: ?i2 = Var(Xi) = E[(Xi - ?i)2] = E(Xi2) - ?i2 Covariâncias: ?ij = Cov(Xi , Xj) = E[(Xi - ?i)(Xj - ?j)] = E[XiXj] - ?i?j (OBS: note que ?ii = ?i2)

    108. 108 Médias, variâncias e covariâncias ? = - matriz de covariâncias ?ij = ?ji , de modo que ? é simétrica ? = E[(X - ?)T(X - ?)] = E[XTX] - ??T

    109. 109 Correlações Coeficiente de correlação: ?ij = ?ij /?i?j -1 ? ?ij ? 1 Se duas variáveis são independentes, então sua correlação será zero. O inverso não necessariamente é verdadeiro P = - matriz de correlações (simétrica)

    110. 110 Correlações (cont.) Seja D = ? = DPD P = D-1?D-1 0 ? Var(aTX) = aT? a para todo a; logo ? é positiva semidefinida 0 ? aT?a = aTDPDa para todo a e D é não singular; logo P é positiva semidefinida

    111. 111 Revisão de álgebra matricial matriz - arranjo retangular de elementos ordem - (m?n), correspondente a m linhas e n colunas aij - elemento correspondente à i-ésima linha e j-ésima coluna da matriz A C = A ? B - produto da matriz A, de ordem (m?n), pela matriz B, de ordem (n?p), resultando na matriz C, de ordem (m?p), onde cik = ?j aij?bjk A(BC) = (AB)C Em geral AB ? BA

    112. 112 Revisão de álgebra matricial (cont.) AT - Matriz transposta de A, obtida pela troca de suas linhas por suas colunas (AB)T = BTAT A (matriz quadrada) é dita simétrica se A = AT, ou seja, se aij = aji para todo i e todo j traço de uma matriz quadrada A é a soma dos elementos de sua diagonal, ou seja, ?i aii traço(AB) = traço(BA) A (matriz quadrada) é dita diagonal se todos os elementos fora de sua diagonal principal são iguais a 0

    113. 113 Revisão de álgebra matricial (cont.) Iq - Matriz identidade de ordem q é a matriz diagonal com q linhas (e conseqüentemen- te q colunas) cujos elementos são todos iguais a 1 0 - Matriz nula é a matriz cujos elementos são todos iguais a 0 |A| - Determinante de A (matriz quadrada de ordem p) é o número definido por a11A11+ a12A12+?+ a1pA1p , onde Aij = (-1)i+j?determinante da matriz resul- tante após a remoção da i-ésima linha e j-ésima coluna da matriz A

    114. 114 Revisão de álgebra matricial (cont.) Se A é de ordem 2?2 seu determinante é facilmente calculado por a11a22 - a12a21, ou seja, o produto da diagonal principal subtraído do produto da diagonal secundária Se A é de ordem 3?3 seu determinante é facilmente calculado usando-se o seguinte esquema (regra de Sarrus)

    115. 115 Revisão de álgebra matricial (cont.) O determinante não muda se múltiplos iguais de uma linha (ou coluna) são adicionados aos elementos correspondentes de qualquer outra linha (ou coluna) O determinante muda de sinal se quaisquer duas linhas (ou colunas) são trocadas de lugar A é dita não-singular se |A| ? 0 |AB|= |A|?|B| A-1 - Matriz inversa de A, definida de tal modo que A A-1 = A-1A = I A-1 existe se e somente se A é não-singular

    116. 116 Revisão de álgebra matricial (cont.) Se A (matriz quadrada) pode ser escrita como A = , onde A11 é quadrada e não- singular, então |A| = |A11| ? |A22- A21A11-1 A12| (AT)-1 = (A-1)T (AB)-1 = B-1A-1

    117. 117 Revisão de álgebra matricial (cont.) Um conjunto de vetores x1,...,xp é dito linearmente dependente se existem constantes c1,...,cp não todas nulas tais que ?i cixi = 0 De outra forma, os vetores são ditos linearmen-te independentes posto de uma matriz é o número máximo de linhas linearmente independentes (equivalente-mente, o número máximo de colunas linear-mente independentes), representando a dimen-são do subespaço gerado por seus vetores linha (ou por seus vetores coluna)

    118. 118 Revisão de álgebra matricial (cont.) posto(A) ? min(m,n), se A é de ordem (m?n) posto(A) = posto(AT)=posto(AAT)=posto(ATA) posto(A) = posto(BA) = posto(AC), onde B e C são matrizes (quadradas) não-singulares A, matriz quadrada de ordem p tem posto igual a p (posto máximo) se e somente se é não-singular Os vetores x e y, de ordem (p?1), são ditos or-togonais, se xTy = 0 Os vetores ortogonais x e y são ditos ortonor-mais se xTx = yTy = 1

    119. 119 Revisão de álgebra matricial (cont.) Uma matriz quadrada B é dita ortogonal se BTB = BBT = I, de modo que suas linhas são ortonormais Neste caso B é não-singular e B-1 = BT Adicionalmente, |B| = ?1 Uma matriz ortogonal pode ser interpretada como uma transformação linear consistindo de uma rotação rígida (|B| = +1) ou uma rotação seguida de uma reflexão (|B| = -1), pois preserva distâncias e ângulos

    120. 120 Análise de regressão A análise de regressão é uma ferramenta fundamental em análise de dados, servindo como referência para outras técnicas Tem origem nos trabalhos de Galton em 1886 Trata-se do estudo da explicação da variabilidade de uma variável (chamada dependente) pelas variabilidades de outras variáveis (chamadas independentes) Deve ser observado que o conceito de explicação ou de dependência é meramente informacional, não constituindo prova irrefutável de relação de causa e efeito

    121. 121 Análise de regressão (cont.) Os objetivos da análise compreendem, em geral Determinação da forma da relação entre as variáveis (uma equação matemática) Verificação de hipóteses deduzidas da teoria analisada Previsão de valores para a variável dependente a partir das variáveis independentes, realizando simulações Genericamente, a relação matemática entre as variáveis é expressa por Y = f(X), onde Y representa a variável dependente e XT = [X1, ..., Xp] é um vetor de variáveis independentes Se p = 1, o modelo é dito modelo de regressão simples, se p > 1, é dito múltiplo

    122. 122

    123. 123

    124. 124

    125. 125

    126. 126 Regressão linear simples A equação de regressão linear simples toma a forma yr = ?0 + ?1xr, onde yr representa a r-ésima observação da variável dependente Y, xr a r-ésima observação da variável independente X, ?0 o coeficiente linear, ou termo independente (ordenada da reta na origem), e ?1 o coeficiente angular da reta (tangente do ângulo formado pela reta e o eixo horizontal) A relação raramente é exata, tratando-se em geral de uma aproximação da realidade, em que outras variáveis de importância menor talvez tenham sido omitidas A equação, portanto, merece ser escrita como yr = ?0 + ?1xr + er, onde er representa um termo de erro, ou perturbação aleatória

    127. 127 Regressão linear simples (cont.) Em termos matriciais, a equação pode ser escrita como Y = ?01+ ?1X + e, onde O problema fundamental da análise de regressão simples consiste em estimar, a partir de observações empíricas, os valores dos parâmetros ?0 e ?1

    128. 128 Estimação dos parâmetros Se a relação de dependência entre as variáveis fosse exata, todas as observações se alinhariam perfeitamente Neste caso er = 0, e as estimativas mais adequadas para ?0 e ?1 seriam, respectivamente, a ordenada na origem da reta e a tangente trigonométrica do ângulo da reta com o eixo horizontal

    129. 129 Estimação dos parâmetros (cont.) Se entretanto a relação entre as variáveis for estocástica, em geral as observações não estarão perfeitamente alinhadas, mas formarão uma nuvem de pontos

    130. 130 Estimação dos parâmetros (cont.) Usando a notação b0 e b1 para designar estimativas de ?0 e ?1, respectivamente, a reta será equacionada por O problema é encontrar estimadores b0 e b1 tais que a reta se ajuste aos pontos (xr, yr) da melhor forma possível A diferença entre o valor observado da variável dependente e o valor estimado denomina-se erro ou resíduo

    131. 131 Estimação dos parâmetros (cont.) Dentre os vários critérios disponíveis para o ajuste da reta, o mais utilizado é o critério de mínimos quadrados, segundo o qual a melhor reta é aquela que minimize a soma dos quadrados dos resíduos É preciso notar que as “variáveis” desta expressão são os coeficientes b0 e b1, pois os valores de X e de Y são os observados empiricamente

    132. 132 Estimação dos parâmetros (cont.) Para determinar a reta de mínimos quadrados, portanto, basta encontrar os valores dos coeficientes b0 e b1 que minimizem aquela expressão Tomando as derivadas e igualando a zero, encontram-se as equações

    133. 133 Estimação dos parâmetros (cont.) Desenvolvendo-se o sistema de equações, chega-se a O sistema pode ser escrito na forma matricial como

    134. 134 Estimação dos parâmetros (cont.) Tal sistema é facilmente resolvido por Tal solução é facilmente automatizável em pacotes computacionais

    135. 135 Regressão linear múltipla O modelo de regressão linear geral é expresso pela equação yr = ?0 + ?1xr1 + ?2xr2 + ... + ?pxrp + er Em termos matriciais, o modelo se expressa por Y = ?01+ X? + e, onde

    136. 136 Hipóteses básicas As hipóteses básicas do modelo são A forma funcional é linear nos parâmetros As variáveis independentes são independentes (não correlacionadas) dos erros e entre si Os erros têm distribuição Normal, com média 0 e variância constante e igual a ?2, sendo não correlacionados entre si Se as variáveis são corrigidas pela média, o estimador de mínimos quadrados de ?0 é a média de Y, e o de ? é obtido pela solução da equação , chamada de equação normal

    137. 137 Estimadores de mínimos quadrados A equação é facilmente resolvida por Os estimadores de mínimos quadrados possuem as seguintes propriedades Não têm viés, ou seja, Têm variância mínima (comparando com todos os estimadores lineares não viesados) São consistentes, isto é, A matriz de covariâncias dos estimadores é dada por

    138. 138 Variância dos estimadores Uma estimativa de ?2 é Logo, a variância estimada de é dada por , onde ajj é o j-ésimo elemento da diagonal principal da matriz (XTX)-1

    139. 139 Interpretação Os coeficientes do modelo representam as derivadas parciais de Y com respeito a cada uma das variáveis independentes Suas estimativas podem então ser interpretadas como variações marginais esperadas em Y quando a variável independente correspondente aumenta uma unidade, supondo que as demais variáveis independentes permaneçam constantes A estatística segue uma distribuição t de Student com n - p graus de liberdade

    140. 140 Testes de hipóteses A estatística segue uma distribuição F com p - 1 e n - p graus de liberdade Estas duas estatísticas permitem testar hipóteses a respeito do modelo e seus parâmetros

    141. 141 Somas de quadrados A estatística é chamada soma de quadrados explicada (SSE) A estatística é chamada soma de quadrados residual (SSR) A estatística é chamada soma de quadrados total (SST) Em geral tem-se que SST = SSE + SSR

    142. 142 Coeficiente de determinação Desta última equação, emerge uma medida da qualidade do ajuste do modelo estimado Em geral R2 situa-se entre 0 e 1, sendo usualmente tomado em percentagem, indicando a percentagem de variação em Y explicada pelo modelo (pelas variáveis independentes)

    143. 143 Análise de componentes principais (PCA) Principal objetivo: substituir as variáveis originais por um conjunto menor de variáveis “subjacentes” Procura-se identificar uma transformação ortogonal das variáveis originais em um novo conjunto de variáveis não correlacionadas, chamadas de componentes principais Os componentes são combinações lineares das variáveis originais, sendo derivados em ordem decrescente de importância Espera-se que os primeiros componentes expliquem boa parte da variabilidade nos dados originais, de modo que a dimensionalidade dos dados seja efetivamente diminuída

    144. 144 PCA (cont.) PCA resume-se, tão somente, a uma rotação ortogonal no espaço p-dimensional Freqüentemente PCA é (erroneamente) confundida com a técnica de Análise Fatorial PCA é uma técnica orientada a variáveis; não há, como nos modelos de regressão, uma variável dependente e outras explanatórias Tem origem nos trabalhos de Pearson no começo do século XX, posteriormente desenvolvida por Hotelling nos anos 30

    145. 145 PCA (cont.) PCA é uma técnica matemática, não exigindo a especificação de um modelo estatístico subjacente para explicar a estrutura de erros; nenhuma suposição é feita a respeito da distribuição de probabilidades das variáveis originais, embora melhores interpretações para os componentes sejam obtidas quando as observações provenham de uma distribuição Normal multivariada

    146. 146 Compostos lineares Seja Y = aTX, onde aT = [a1, ..., ap] é um vetor de constantes (então Y é uma variável aleatória univariada) E(Y) = aT? Var(Y) = E[{aTX - aT?}2] = E[{aT(X - ?)}2] = E[aT(X - ?)(X - ?)Ta] = aTE[(X - ?)(X - ?)T]a = aT? a

    147. 147 Revisão de álgebra matricial (cont.) Uma forma quadrática em p variáveis x1,...,xp é uma função homogênea consistindo de todos os possíveis termos de segunda ordem, ou seja ?i,j aijxixj, ou, mais convenientemente, xTAx, onde xT = ?x1 ... xp], e aij é o (i,j)-ésimo ele-mento de A (usualmente assumida simétrica) Uma matriz quadrada A e sua forma quadrática associada são ditas positiva definida se xTAx > 0 para todo x ? 0 São ditas positiva semidefinida se xTAx ? 0 para todo x

    148. 148 Revisão de álgebra matricial (cont.) Uma matriz positiva definida tem posto máximo e pode ser decomposta em A = QQT, onde Q é não singular Neste caso y = QTx transforma a forma qua-drática xTAx na forma reduzida (y12+...+ yp2), que envolve apenas termos quadrados Se A é positiva semidefinida com posto m (<p), então A = QQT, mas Q é de ordem (p?m) e também tem posto m

    149. 149 Compostos lineares (cont.) Seja A uma matriz (p?m) de constantes (então ATX é um vetor (m?1) aleatório) E(ATX) = AT? Var(ATX) = AT? A

    150. 150 Correlações (cont.) Seja D = ? = DPD P = D-1? D-1 0 ? Var(aTX) = aT? a para todo a; logo ? é positiva semidefinida 0 ? aT? a = aTDPDa para todo a e D é não singular; logo P é positiva semidefinida

    151. 151 Correlações (cont.) posto(?) = posto(P) Se posto(?) = p (posto máximo), então ? (e P) é positiva definida Se posto(?) < p, então ? (e P) é singular, e isto indica uma restrição linear nos componen-tes de X; então existe a ? 0 tal que aTX = 0; então Var(aTX) = aT?a = 0; logo ? é positiva semidefinida posto(?) é importante para determinar a di-mensionalidade efetiva, pois [p - posto(?)] é igual ao número de restrições lineares indepen-dentes nos componentes de X

    152. 152 Exemplo (revisitado) 2 se 0< x1< x2<1 Seja a fdp f(x1, x2) = [ 0 caso contrário Qual a correlação entre X1 e X2?

    153. 153 Solução

    154. 154 Exemplo Suponha que os (p - 1) primeiros componen-tes de um vetor aleatório X de dimensão p sejam variáveis aleatórias independentes X1, ..., Xp-1, todas com a mesma variância ?2, e que o p-ésimo componente seja Xp = ?i Xi Encontre as matrizes de covariância e de cor-relação de X e mostre que ambas são singula-res

    155. 155 Solução Como as primeiras variáveis são independen-tes, as únicas covariâncias não nulas são entre Xp e as outras (p - 1) variáveis Para i = 1, ..., p - 1, tem-se Cov(Xi , Xp) = Cov(Xi , Xi) = Var(Xi) = ?2 Var(Xp) = Var(?i Xi) = ?i[Var(Xi)] = (p - 1)?2

    156. 156 Solução (cont.) ?= ? é singular, pois |?| = 0 (observe que a últi-ma linha é a soma das anteriores) posto(?) = p - 1 (uma das variáveis é redun-dante)

    157. 157 Solução (cont.) P=

    158. 158 PCA (cont.) Suponha que XT = [X1, ..., Xp] seja um vetor aleató-rio com média ? e matriz de covariância ? Nosso problema é encontrar um novo conjunto de va-riáveis, digamos Y1, ..., Yp, não correlacionadas, com variâncias decrescentes Cada Yj é uma combinação linear dos X’s: Yj = a1jX1 + a2jX2 + ... + apjXp = ajTX, onde ajT = [a1j , ... ,apj] é um vetor de constantes Há uma arbitrariedade implícita na escala dos Y’s; pa-ra evitá-la, supõe-se que ajTaj = 1; esta padronização assegurará que a transformação seja ortogonal, pre-servando distâncias no espaço p-dimensional

    159. 159 PCA (cont.) O primeiro componente principal, Y1, é encontrado es-colhendo a1 de forma que Y1 tenha variância máxima Em outras palavras, escolhe-se a1 que maximize a va-riância de a1TX sujeita à restrição a1Ta1 = 1 O segundo componente principal, Y2, é encontrado es-colhendo a2 que maximize a variância de a2TX sujeita às restrições a2Ta2 = 1 e Cov(Y2,Y1) = 0 Semelhantemente, encontram-se Y3, ..., Yp, não corre-lacionados e com variâncias decrescentes

    160. 160 PCA (cont.) Para determinar Y1, queremos a1 que maximize Var(Y1) = Var(a1TX) = a1T?a1, sujeita à restrição a1Ta1 = 1 O procedimento padrão para maximizar funções de várias variáveis sujeita a uma ou mais restrições é o método dos multiplicadores de Lagrange Com apenas uma restrição, o método usa o fato de que os pontos estacionários de uma função diferenci-ável em p variáveis, digamos f(x1, ..., xp), sujeita à restrição g(x1, ..., xp) = c, são tais que existe um nú-mero ? (chamado de multiplicador de Lagrange) satis-fazendo ...

    161. 161 PCA (cont.) para i = 1, ..., p nos pontos estacio- nários Estas p equações são suficientes para determinar as coordenadas dos pontos estacionários; uma investiga-ção adicional é necessária para determinar se o ponto estacionário é de máximo, de mínimo, ou de sela É útil formar a função L(x) = f(x) - ?[g(x) - c], cha-mada Lagrangiano Então a equação de Lagrange é ?L/?x = 0

    162. 162 PCA (cont.) Aplicando o método ao nosso problema, tem-se L(a1) = a1T?a1 - ?(a1Ta1 - 1) E então ?L/?a1 = 2?a1 - 2?a1 Anulando a derivada, tem-se (? - ?I)a1 = 0 Para que esta equação tenha uma solução não nula, (? - ?I) deve ser singular; ou seja ? deve ser escolhido de tal modo que |? - ?I| = 0, ou, em outros termos, ? deve ser um autovalor de ?

    163. 163 Revisão de álgebra matricial (cont.) Se ? é de ordem p, seus autovalores (ou raízes características, ou ainda raízes latentes) são as raí-zes da equação |? -?I| = 0, que é uma equa-ção polinomial em ? de grau p Os autovalores são denotados ?1,...,?p Para cada autovalor ?i corresponde um vetor ci, chamado autovetor, tal que ?ci= ?ici Os autovetores não são únicos, contendo um fator de escala arbitrário; usualmente são nor-malizados de tal modo que ciTci = 1

    164. 164 Revisão de álgebra matricial (cont.) Encontrar os autovalores e os autovetores de uma matriz não é uma tarefa simples Fazendo A0 = ?, An = An-12, a seqüência An1/?(An1)T(An1) converge para o autovetor normalizado associado ao maior autovalor de ? (1 representa o vetor coluna cujos elementos são todos iguais a 1) Tendo obtido o autovetor associado ao maior autovalor de ? (digamos c) o autovalor (diga-mos ?) pode ser obtido invertendo-se a equa-ção ?c = ?c

    165. 165 Revisão de álgebra matricial (cont.) Tendo encontrado um autovalor e respectivo autovetor de uma matriz de ordem p, pode-se calcular os demais autovalores calculando os autovalores de uma matriz de ordem p - 1, u-sando o seguinte artifício (redução de ordem) Seja ? é um autovalor de ? (de ordem p) e c seu respectivo autovetor (assuma que cn ? 0); seja C a matriz obtida a partir da matriz identi-dade substituindo sua última coluna por c; seja B a matriz (de ordem p - 1) obtida a partir da matriz C-1?C removendo sua última linha e úl-tima coluna; os autovalores de B são também autovalores de ?

    166. 166 Revisão de álgebra matricial (cont.) Tendo encontrado um autovalor ? da matriz ? (obtida por um processo de convergência, por exemplo) seu respectivo autovetor normalizado pode ser determinado como segue Seja a matriz A (de ordem p - 1) obtida a partir da matriz ? -?I (de ordem p) removendo-se sua última linha e última coluna; seja v o vetor (de ordem p - 1) obtido a partir de sua última coluna removendo-se seu último elemento; o vetor w (de ordem p) obtido a partir do vetor A-1?v adicionado do elemento -1 (em sua última posição) é um autovetor (ainda não normalizado) de ?; para normalizá-lo, divida w pela raiz quadrada de wTw

    167. 167 Revisão de álgebra matricial (cont.) Quando há autovalores iguais, os correspon-dentes autovetores podem ser (e serão) esco-lhidos ortonormais ?i?i = traço(?) ?i?i = |?| Se ? é uma matriz simétrica real, então seus autovalores e autovetores são reais Se, adicionalmente, ? é positiva definida, então todos os autovalores são positivos Se ? é positiva semidefinida com posto m (<p), então m autovalores são positivos e p - m são nulos

    168. 168 Revisão de álgebra matricial (cont.) Os autovetores normalizados associados a dois autovalores distintos são ortonormais A matriz quadrada C, de ordem p, cuja i-ésima coluna é o autovetor normalizado ci, é tal que CTC = I e CT?C = ?, onde ? é a matriz diago-nal cujos elementos são ?1,...,?p (redução ca-nônica de ?) A matriz C transforma a forma quadrática de ? em uma forma reduzida envolvendo apenas termos quadrados

    169. 169 Revisão de álgebra matricial (cont.) Se fizermos x = Cy, tem-se xT?x = yTCT?Cy = yT?y = ?1y12+...+ ?mym2, onde m = posto(?) ? = C?CT = ?1c1c1T+...+ ?mcmcmT (decomposi-ção espectral de ?) Se f(x1,..., xp) é uma função diferenciável em p variáveis, ?f/?x denotará o vetor coluna cujo i-ésimo componente é ?f/?xi Se f é a forma quadrática xT?x, onde ? é si-métrica e de ordem p, ?f/?x = 2?x

    170. 170 PCA (cont.) ? tem p autovalores, todos não negativos, na medida em que ? é positiva semidefinida; qual deles esco-lher? Mas Var(Y1) = Var(a1TX) = a1T?a1 = a1T?Ia1 = ? Como queremos maximizar esta variância, escolhere-mos o maior autovalor de ?, digamos ?1 Então o componente principal que estamos procuran-do, a1, deve ser o autovetor associado ao maior auto-valor de ?

    171. 171 PCA (cont.) Para determinar a segunda componente principal, Y2 = a2TX, deve-se considerar a restrição adicional Cov(Y2,Y1) = 0 Mas Cov(Y2,Y1) = Cov(a2TX,a1TX) = E[(a2TX - a2T?)(a1TX - a1T?)] = E[a2T(X - ?)(X - ?)a1] = a2TE[(X - ?)(X - ?)]a1 = a2T?a1 = a2T?1Ia1 = ?1a2Ta1 Então exigir Cov(Y2,Y1) = 0 é equivalente a exigir a2Ta1 = 0, ou seja, a2 e a1 devem ser ortogonais

    172. 172 PCA (cont.) Para resolver o problema de maximização condiciona-do a duas restrições, necessitamos introduzir dois multiplicadores de Lagrange, denotados por ? e ? O Lagrangiano agora fica L(a2) = a2T?a2 - ?(a2Ta2 - 1) - ? a2Ta1 Nos pontos estacionários tem-se ?L/?a2 = 2(? - ?I)a2 - ? a1 = 0 Pré-multiplicando a equação por a1T obtém-se 2a1T?a2 - ? = 0, pois a1Ta2 = 0 e a1Ta1 = 1 Logo ? = 2a1T?a2 = 0 nos pontos estacionários

    173. 173 PCA (cont.) E a equação para determinar a2 resume-se a (? - ?I)a2 = 0 Percebe-se que desta vez devemos escolher o valor de ? igual ao segundo maior autovalor de ?, e a2 seu correspondente autovetor Continuando com este argumento, percebe-se que a j-ésima componente principal é o autovetor associado ao j-ésimo maior autovalor de ? Se alguns dos autovalores de ? são iguais, não há unicidade na determinação dos autovetores; escolhen-do-se autovetores ortogonais, entretanto, o argumen-to recursivo utilizado continua válido

    174. 174 PCA (cont.) Seja A a matriz (p ? p) de autovetores de ?, ou seja, A = [a1, ..., ap], e Y o vetor (p ? 1) de componentes principais Então Y = ATX A matriz (p ? p) de covariância de Y é claramente dada por ? =

    175. 175 PCA (cont.) Tem-se ? = AT?A e ? = A?AT, pois A é ortogonal e AAT = I Ainda, ?iVar(Yi) = ?i?i = traço(?) = traço(AT?A) = traço(?ATA) = traço(?) = ?iVar(Xi) Esta é a base da afirmação de que o i-ésimo compo-nente principal explica a proporção ?i/?j?j da variân-cia total nos dados originais Deve ser ressaltado, entretanto, que isto não repre-senta uma análise de variância no estrito sentido es-tatístico

    176. 176 PCA (cont.) É bastante comum calcularem-se os componentes principais de um conjunto de variáveis após elas te-rem sido padronizadas para terem média zero e vari-ância unitária; Isto significa tão somente que se está calculando os componentes principais da matriz de correlação P ao invés da matriz de covariância ? A derivação matemática é a mesma, de modo que os componentes principais serão os autovalores de P É importante ressaltar, entretanto, que os autovalores e autovetores de P em geral não coincidirão com os autovalores e autovetores de ?

    177. 177 Exemplo Suponha que se tenha apenas duas variáveis padronizadas, X1 e X2, com matriz de correla-ção P = Encontre os componentes principais de X, onde XT = [X1, X2]

    178. 178 Solução Precisamos encontrar os autovalores de P, ou seja, as raízes da equação |P - ?I| = 0, ou, (1 - ?)2 - ?2 = 0 Os autovalores são 1 + ? e 1 - ? (note que a soma dos autovalores é igual à soma da diagonal de P, ou seja, 2) Se ? > 0, o maior autovalor é ?1 = 1 + ? O autovetor correspondente, a1T = [a11, a21], é obtido resolvendo Pa1 = ?1a1, ou seja, o sistema de equa-ções a11 + ?a21 = (1 + ?)a11 e ?a11 + a21 = (1 + ?)a21 Este sistema é obviamente redundante, sendo equiva-lente à equação a11 = a21 (soluções múltiplas)

    179. 179 Solução (cont.) Padronizando, ou seja, fazendo a1Ta1 = 1, ou seja, a112 + a212 = 1, tem-se a11 = a21 = 1/?2 Semelhantemente, encontra-se que o segundo auto-vetor é dado por a2T = [1/?2, -1/?2] Então os componentes principais são Y1 = (X1 + X2)/?2 e Y2 = (X1 - X2)/?2, ou seja, Y1 é a soma padronizada das duas variáveis e Y2 é a diferen-ça Se ? < 0, a ordem dos autovalores (e conseqüente-mente dos componentes principais) é invertida

    180. 180 Solução (cont.) Se ? = 0, os dois autovalores são iguais a 1, e quais-quer dois componentes ortogonais poderiam ser esco-lhidos, como as próprias variáveis originais (se as duas variáveis não são correlacionadas, PCA não faz senti-do) Há uma arbitrariedade na escolha do sinal de ai (e en-tão de Yi) Usualmente escolhe-se a1i positivo

    181. 181 Solução (cont.) Repare que os componentes principais não dependem de ?, o que pode causar surpresa à primeira vista, logo dissipada em razão da simetria entre as duas variáveis Entretanto, embora os componentes principais perma-neçam os mesmos, a proporção da variância explica-da pelo primeiro componente, (1 + ?)/2, depende de ?; na medida em que ? se aproxima de 1, o primeiro componente explica quase toda a variância; na medi-da em que ? se aproxima de 0, cada um dos dois componentes explicam cerca da metade da variância total

    182. 182 PCA (cont.) A equação Y = ATX relaciona o vetor aleatório obser-vado X ao vetor de componentes principais Y A média de Y não será, em geral, igual a zero, pois E(Y) = E(ATX) = AT? É usual somar um vetor apropriado de constantes de modo que os componentes principais tenham média zero A transformação usual é Y = AT(X - x), consistindo de uma translação seguida de uma rotação ortogonal

    183. 183 PCA (cont.) Para o r-ésimo indivíduo, tem-se yr = AT(xr - x), cha-mado de vetor de escores dos componentes principais do r-ésimo indivíduo É essencial notar que se A foi obtida da matriz de cor-relação P (ao invés da matriz de covariância ?) a equação definidora de yr deve ser usada somente após a padronização das observações (xr - x), de tal modo que cada variável tenha variância unitária Invertendo-se a equação Y = AT(X - x) (multiplicando à esquerda por A) tem-se X = AY + x, chamada de transformação inversa

    184. 184 PCA (cont.) Se alguma das variáveis originais são linearmente de-pendentes, alguns dos autovalores de ? serão iguais a zero A dimensão do espaço das observações é igual a posto(?) = p - k, onde k é o número de autovalores iguais a zero Pode-se encontrar exatamente k restrições lineares in-dependentes nas variáveis, chamadas de relações es-truturais Para dados obtidos empiricamente, a existência de de-pendências lineares exatas é rara

    185. 185 PCA (cont.) Um problema prático de maior importância é detectar dependências aproximadamente lineares Se o menor autovalor, ?p, é muito próximo de zero, o p-ésimo componente principal, apTX, é “quase” cons-tante, e a dimensão de X é “quase” menor do que p Se os últimos autovalores são (julgados) pequenos, a “eficiência” de restringir a dimensão a m é dada por

    186. 186 PCA (cont.) Os componentes principais correspondentes a autova-lores pequenos são variáveis quase constantes Se ?m+1, ..., ?p são pequenos, pouca informação é perdida se trocarmos os valores dos componentes principais por suas médias (escolhidas iguais a zero) Então podemos aproximar os escores nos componen-tes principais do r-ésimo indivíduo, yrT, por [yr1, ..., yrm, 0, ..., 0] e aproximar as correspondentes observações originais, xrT, por Ayr + x A matriz de correlação S pode ser aproximada por

    187. 187 PCA (cont.) Nestas fórmulas usam-se apenas os primeiros m com-ponentes, sendo prática comum olhar somente para as primeiras colunas de A, correspondentes aos auto-valores julgados “grandes” Algumas vezes alguns dos autovalores de ? serão iguais; se ?q+1 = ... = ?q+k então ? = ?q+1 é uma raiz de multiplicidade k Os autovetores correspondentes a raízes múltiplas não são únicos, podendo-se escolher qualquer conjunto ortonormal no espaço correspondente de dimensão k; os correspondentes componentes principais terão a mesma variância

    188. 188 PCA (cont.) Na prática, o problema a ser enfrentado é que as cor-respondentes raízes da matriz de covariância amos-tral não serão iguais, e a multiplicidade de raízes ge-ralmente não é observada quando se usam amostras Ao invés disto, tem-se que distintas amostras produzi-rão estimativas de autovetores completamente distin-tas, de maneira que eles não poderiam, a rigor, serem interpretados como “variáveis características” Por esta razão, muito cuidado deve ser tomado na in-terpretação de PCA quando os autovalores são muito próximos

    189. 189 PCA (cont.) Os testes disponíveis para a igualdade de autovalores assumem normalidade das distribuições e exigem a-mostras grandes Um caso particular importante ocorre quando os últi-mos k autovalores são iguais; neste caso a variação nas últimas k dimensões são ditas esféricas e os últi-mos k componentes principais podem ser interpreta-dos como medindo alguma variabilidade não específi-ca e as características essenciais de X estão represen-tadas pelos primeiros p-k componentes

    190. 190 Exemplo Suponhamos que a matriz de covariância ? tenha elementos em sua diagonal iguais a 1 e elementos fora de sua diagonal iguais a ?, onde 0 < ? < 1 Os autovalores de ? (veja exercício 3 da TEC 6) são ?1 = 1 + (p - 1)? e ?2 = ?3 = ... = ?q = 1 - ? Há raízes repetidas quando p > 2; neste caso especial, quando apenas o primeiro autovalor é distinto dos demais, diz-se que X se distribui esfericamente sobre um único eixo principal O autovetor correspondente a ?1 é dado por a1T = [1/?p, ..., 1/?p]

    191. 191 PCA (cont.) A principal implicação da rotação ortogonal re-presentada pela matriz (ortogonal) de autove-tores A é que a soma dos quadrados dos des-vios de cada indivíduo em relação ao vetor glo-bal de médias é invariante Sejam X a matriz (n ? p) de dados corrigidos pela média e Y a matriz (n ? p) de escores dos componentes principais; então Y = XA e YYT = XAATXT = XXT YYT e XXT são matrizes (n ? n) cujos elementos da diagonal principal são as somas dos quadrados para cada indivíduo

    192. 192 PCA (cont.) É bastante comum mudar-se a escala dos autovetores aj apresentando os vetores aj* = ?j½aj para j = 1, ..., p Estes vetores são tais que a soma de quadrados de seus elementos são iguais ao correspondente autova-lor ?j, ao invés de 1, pois aj*Taj* = ?jajTaj = ?j Fazendo C = [a1*, ..., ap*], tem-se que C = A?½ e CCT = A?½?½AT = A?AT = ? Os vetores aj* têm duas interpretações diretas: cargas dos componentes (“component loadings”) e correlações entre os componentes principais e as variáveis originais (padronizadas)

    193. 193 PCA (cont.) Façamos a mudança de escala dos componentes Y* = ?-½Y, de tal modo que todos tenham variância unitária; então a transformação inversa X = AY (assu-mindo que X tenha média zero) se torna X = A?½Y* = CY* A equação acima é semelhante ao modelo de análise fatorial (a ser visto mais tarde), e os elementos de C são análogos aos coeficientes chamados cargas fato-riais, de forma que serão chamados cargas dos componentes (“component loadings”)

    194. 194 PCA (cont.) Uma segunda interpretação de C pode ser feita se a PCA for realizada com a matriz de correlação P de X; neste caso P = CCT Mas Cov(Yj, Xi) = Cov(Yj, ?k aikYk) = aijVar(Yj) = aij?j, pois Var(Yj) = ?j Como Xi foram padronizados e têm variância unitária, tem-se que Corr(Yj, Xi) = ?jaij/?j½ = aij?j½ A matriz de correlação é então Corr(Y,X) = A?½ = C, e seus elementos são chamados correlações dos componentes (com as variáveis originais padronizadas)

    195. 195 PCA (cont.) Uma propriedade interessante de PCA é o fato de ela depender da relação entre coeficientes de correlações e não de seus valores absolutos Sejam R e R* matrizes de correlação tais que r*ij = rij/k para i ? j, onde k > 1; ou seja, R* = R/k + (k - 1)I/k; os autovetores de R* são soluções de (R* - ?*I)a = 0, ou (R/k + (k - 1)I/k - ?*I)a = 0, ou (R - (k?* - k + 1)I)a = 0; os autovetores de R são soluções de (R - ?I)a = 0 Claramente os autovetores são os mesmos, sendo os autovalores relacionados por ? = k?* - k + 1 ou ?* =(? + k - 1)/k

    196. 196 PCA (cont.) Ou seja, se dividirmos os elementos fora da diagonal principal de uma matriz de correlação por uma cons-tante k > 1, os autovalores mudam, mas os autoveto-res (e consequentemente os componentes principais) não mudam Podemos ter duas matrizes qualitativamente bastante diferentes com os mesmos componentes principais, o que reforça a necessidade de olharmos para os auto-valores para interpretarmos os componentes Quando k ? ? todos os autovalores tendem a 1, o que é esperado, pois rij ? 0 para i ? j, indicando p va-riáveis padronizadas e não correlacionadas, cada uma sendo responsável por uma fração 1/p da variância total (neste caso igual a p)

    197. 197 Análise Fatorial (FA) Análise fatorial é semelhante a PCA, sendo uma técnica orientada a variáveis, apropriada quando as variáveis têm igual importância: procuram-se novas variáveis, chamadas de fatores, que facilitem o entendimento dos dados Ao contrário de PCA, entretanto, que é independente de qualquer modelo subjacente, FA se baseia em um modelo estatístico específico, preocupando-se em explicar mais a estrutura de covariâncias das variáveis do que em explicar variâncias Qualquer variância não explicada pelos fatores pode ser descrita por “erros” residuais

    198. 198 FA (cont.) As idéias básicas de FA foram sugeridas na virada do século passado por Galton e Spearman, originadas dos esforços em psicologia para melhor entender a inteligência Testes de inteligência usualmente contêm uma grande variedade de questões, cujas respostas dependem, em maior ou menor grau, de habilidades verbais, habilidades matemáticas, memória, etc. FA foi desenvolvida para analisar se a inteligência compõe-se de um único fator geral ou de vários fatores mais limitados medindo atributos como habilidade matemática por exemplo

    199. 199 FA (cont.) Suponha que tenhamos observações sobre p variáveis, X1, ..., Xp, com vetor de médias ? e matriz de covariância ? (XT = [X1, ..., Xp]) Como estaremos interessados em explicar a estrutura de covariância das variáveis, podemos assumir, sem perda de generalidade que ? = 0; também é conveniente assumir que ? tenha posto máximo (p) FA assume que existem m fatores subjacentes (com m < p), denotados por f1, ..., fm, e que cada variável observada seja uma função linear destes fatores e de uma variável residual de erro, de tal forma que: Xj = ?j1f1 + ... + ?jmfm + ej, com j = 1, ..., p

    200. 200 FA (cont.) Os pesos ?jk são chamados de cargas fatoriais (?jk é a carga da j-ésima variável sobre o k-ésimo fator) A variável ej descreve uma variação residual, específica à j-ésima variável Os fatores fi são muitas vezes chamados de fatores comuns, enquanto as variáveis residuais ej são chamadas de fatores específicos Assume-se que os fatores específicos são independentes entre si e dos fatores comuns Geralmente assume-se também que os fatores comuns sejam independentes entre si (modelo ortogonal); esta suposição é muitas vezes relaxada quando os fatores são rotados obliquamente

    201. 201 FA (cont.) Como assumimos que as variáveis observadas têm média zero, é conveniente assumir que os fatores comuns (e os específicos) tenham média zero Analisando a equação do modelo, percebe-se que existe uma escala arbitrária relacionada a cada fator comum; é usual escolher fatores comuns com variância unitária Mas as variâncias dos fatores específicos podem ser distintas, e denotamos a variância de ej por ?j Geralmente assume-se também que os fatores comuns e os específicos sigam uma distribuição Normal multivariada; isto implica que X seja também Normal multivariada (XT = [X1, ... ,Xp])

    202. 202 FA (cont.) A equação do modelo descreve uma relação entre variáveis; para valores observados empiricamente tem-se xrj = ?k?jkfrk + erj, onde xrj denota a r-ésima observação da j-ésima variável, frk denota o escore do k-ésimo fator comum para o r-ésimo indivíduo e erj denota o escore do j-ésimo fator específico para o r-ésimo indivíduo

    203. 203 FA (cont.) Usando notação matricial, tem-se: X = ?f + e, onde fT = [f1, ... ,fm], eT = [e1, ... ,ep], e ? = ? é de ordem (p?m), não devendo ser confundida com a matriz diagonal de autovalores, denotada com o mesmo símbolo

    204. 204 FA (cont.) A partir da equação do modelo, usando a independência dos fatores, tem-se Var(Xj) = ?j12 + ... + ?jm2 + Var(ej) = ?k?jk2 + ?j , pois os fatores comuns têm variância unitária A parte da variância explicada pelos fatores comuns, ?k?jk2, é chamada comunalidade da j-ésima variável A parte da variância não explicada pelos fatores comuns, ?j , é chamada de especificidade da j-ésima variável Ainda, para i ? j, Cov(Xi,Xj) = ?k?ik?jk

    205. 205 FA (cont.) Então a matriz de covariância de X, é dada por ? = ??T + ?, onde ? =

    206. 206 FA (cont.) Esta última equação é fundamental para o entendimento de FA Ela significa que os fatores comuns “explicam” os termos fora da diagonal de ? (as covariâncias) exatamente, pois ? é diagonal Ela também evidencia que encontrar as cargas fatoriais é equivalente a fatorar a matriz de covariância de X nesta forma particular (? = ??T + ?), com a condição adicional que os elementos de ? sejam não negativos

    207. 207 FA (cont.) O problema fundamental correspondente a FA pode ser então enunciado: dado ?, sob que condições a fatoração ? = ??T + ? existe e, caso exista, sob que condições ela é única O número total de parâmetros a serem estimados é igual ao número de cargas fatoriais (pm) mais o nú-mero de variâncias residuais (p), ou seja, p(m+1) Existem p(p - 1)/2 covariâncias e p variâncias (em princípio independentes) em ?, ou seja, p(p - 1)/2 + p = p(p+1)/2 equações independentes Usualmente exige-se p(m+1) < p(p+1)/2, ou seja, m < (p - 1)/2 (mas isto não garante que a solução exista)

    208. 208 FA (cont.) Considere-se o caso m = 1 Neste caso ? é um vetor coluna, com ?T = [?11,?21, ... ,?p1], e pela equação de fatoração percebe-se que os elementos fora da diagonal de ? devem ser da forma ?i1?j1 (i ? j) Isto implica que ?ik/?jk = ?i1/?j1 independe de k Ou seja, os termos fora da diagonal de ? são tais que elementos correspondentes em quaisquer duas linhas (ou colunas) possuem o mesmo quociente Por exemplo, analisando a matriz de correlações ao invés da matriz de covariância: se sua primeira linha for [1, ?12, ?13, ... , ?1p], a segunda deve ser da forma [?12, 1, k?13, ... , k?1p], onde k = ?21/?11

    209. 209 FA (cont.) Este padrão deve valer aproximadamente para matrizes de correlações amostrais; foi esta característica em uma matriz de correlações entre escores de questões de um exame, que, percebida por Spearman, levou-o a propor um modelo de um único fator de inteligência Os elementos fora da diagonal de ? nem sempre seguirão este padrão, e, conseqüentemente, a solução de um único fator nem sempre existirá Há exemplos conhecidos na literatura em que, ao estimarem-se os parâmetros do modelo de fator único, encontram-se variâncias residuais negativas, ou soluções complexas para as cargas fatoriais

    210. 210 FA (cont.) Se existe uma solução para o modelo de fator único, esta será, em geral (mas não sempre) única Se, entretanto, existe uma solução para o caso m > 1, esta solução não é única: se T é uma matriz ortogo-nal de ordem m, então (?T)(?T)T = ?TTT?T = ??T Ou seja, ? e ?T possuem a mesma capacidade para gerar as covariâncias de X, embora suas cargas fatoriais sejam distintas Qualquer rotação ortogonal dos fatores em seu espa-ço m-dimensional produz um novo conjunto de fato-res que também satisfaz a equação de fatoração Esta característica geralmente é usada para obtenção de maior clareza na interpretação dos fatores

    211. 211 FA (cont.) Os parâmetros do modelo, ou seja, as cargas fatoriais (?jk) e as variâncias residuais (?j) são quase sempre desconhecidas, necessitando serem estimadas a partir de dados amostrais A matriz de covariância amostral é usada raramente, sendo mais comum utilizar-se a matriz de correlações amostrais; isto eqüivale ao uso de variáveis padronizadas, com média zero e variância unitária Os parâmetros satisfazem P = ??T + ?, ou seja, Corr(Xi,Xj) = ?k?ik?jk, para i ? j, e 1 = ?k?jk2 + ?j, para j = 1, ..., p,

    212. 212 FA (cont.) Vários métodos de estimativa (usualmente iterativos) das cargas fatoriais têm sido desenvolvidos, em geral envolvendo julgamentos subjetivos, como atribuição de valores para as comunalidades (como conseqüência, diferentes pesquisadores analisando o mesmo conjunto de dados podem encontrar fatores completamente diferentes) Um método bastante popular é o chamado método dos fatores principais, que escolhe o primeiro fator de maneira a maximizar a variância comunal, o segundo de maneira a maximizar a variância comunal restante, e assim por diante O método exige uma adequada estimativa para as comunalidades; se elas forem unitárias, o método reduz-se a PCA

    213. 213 FA (cont.) O método de máxima verossimilhança, desenvolvido por Lawley em 1940, é um dos mais recomendados Exige-se que a matriz ?T?-1? seja diagonal, com seus elementos arranjados em ordem decrescente, restrição relacionada à condição imposta ao método dos fatores principais Uma das principais vantagens do método é que ele é invariante a mudanças de escala A solução (resolução das equações de máxima verossimilhança) obtida é aproximada; podem existir problemas de instabilidade no processo numérico de convergência

    214. 214 FA (cont.) A interpretação dos fatores não é sempre uma tarefa simples Vários métodos têm sido desenvolvidos para rotar os fatores e encontrar novos que sejam mais fáceis de interpretar A idéia baseia-se no fato de que se existe uma solução para a fatoração da matriz ? (quando m > 1), então existem infinitas, pois qualquer rotação ortogonal dos fatores iniciais também a fatora Um método freqüentemente utilizado é o chamado critério varimax de rotação

    215. 215 FA (cont.) Chama-se simplicidade de um fator a variância dos quadrados de suas cargas fatoriais; a soma das simplicidades de todos os fatores é a simplicidade total do modelo O critério de rotação varimax bruto escolhe a rotação ortogonal que maximiza a simplicidade total do modelo Kaiser argumentou em 1958 que os resultados são mais satisfatórios se os quadrados das cargas fatoriais forem normalizadas (pelas comunalidades das variáveis) antes de calcularem-se as variâncias; este é o critério de rotação varimax normalizado, ou critério de normalização de Kaiser

    216. 216 Análise de Conglomerados O objetivo básico da Análise de Conglomerados (Cluster Analysis) é encontrar os agrupamentos naturais, se existirem, de um conjunto de indivíduos (ou objetos, ou pontos, ou unidades, etc.) Alocam-se indivíduos a um conjunto mutuamente exclusivo e exaustivo de grupos (chamado de partição) de tal modo que indivíduos de um mesmo grupo sejam semelhantes entre si enquanto que indivíduos de grupos diferentes sejam dessemelhantes Os grupos formadores de uma partição podem ser subdivididos em conjuntos menores ou agrupados em conjuntos maiores, de modo que se obtém, na verdade, uma estrutura hierárquica completa do conjunto de indivíduos (chamada árvore hierárquica)

    217. 217 Análise de Conglomerados (cont.)

    218. 218 Análise de Conglomerados (cont.) Análise de Conglomerados tem sido usada principalmente para: exploração de dados redução de dados geração de hipóteses previsão baseada nos grupos Tanto pode ser usada para agrupar indivíduos como para agrupar variáveis; tudo o que precisamos é alguma medida de “semelhança” (ou dessemelhança) entre variáveis, a mais óbvia delas sendo algum coeficiente de correlação

    219. 219 Análise de Conglomerados (cont.) Uma árvore hierárquica pode ser definida como uma seqüência de partições de um conjunto de indivíduos em g grupos (g variando de 1 a n) com a propriedade de que partições em k grupos e em k+1 grupos são tais que k-1 dos grupos são idênticos e o restante dos indivíduos formam um único grupo no primeiro caso (partição em k grupos) e dois grupos no segundo caso (partição em k+1 grupos) Ou, mais concisamente, uma árvore hierárquica é uma família de conglomerados em que quaisquer dois deles são ou disjuntos ou um contém o outro Árvores hierárquicas são usualmente representadas por dendogramas

    220. 220 Análise de Conglomerados (cont.) Método de agrupamento de elo simples (single-link clustering) ou do vizinho mais próximo (nearest-neighbour) Comece com n grupos, cada um com um indivíduo Una os dois indivíduos mais próximos, digamos r e s, de tal forma que tenha-se então n-1 grupos Defina a distância entre este novo grupo e qualquer outro indivíduo t, por min(drt,dst) Una os dois grupos mais próximos (estes serão ou dois indivíduos ou um indivíduo e o grupo formado anteriormente), de forma que tenha-se então n-2 grupos Defina novas distâncias entre os n-2 grupos restantes Continue combinando os grupos de tal forma que em cada estágio o número de grupos é reduzido em uma unidade, definindo a distância entre dois grupos quaisquer como sendo a distância entre seus membros mais próximos

    221. 221 Exemplo 200 pessoas opinaram sobre quais carros, de um conjunto de cinco, são mais semelhantes entre si

    222. 222 Exemplo (cont.) Dividindo os elementos da matriz por 200 e subtraindo de 1, obtém-se a matriz de dissimilaridades A menor dissimilaridade é 0,690, entre C4 e C5; os dois objetos são então reunidos em um grupo, a uma distância limite (threshold) de 0,690

    223. 223 Exemplo (cont.) A dissimilaridade entre este grupo e os demais obje-tos são então calculados; por exemplo, a dissimilari-dade entre C1 e o grupo é min(0,950;0,935)=0,935 A matriz de dissimilaridades revisada (segunda etapa) é A menor dissimilaridade é agora entre C1 e C2 e estes dois objetos são então reunidos, a uma distância limite de 0,725

    224. 224 Exemplo (cont.) A nova matriz de dissimilaridades (terceira etapa) é A menor dissimilaridade é agora entre C3 e C1/C2 e C3 é reunido ao grupo C1/C2, a uma distância limite de 0,925 A nova matriz de dissimilaridades (quarta etapa) é Agora todos os objetos são reunidos em um único grupo, a uma distância limite de 0,935

    225. 225 Análise de Conglomerados (cont.) No método de agrupamento do vizinho mais próximo, a distância entre dois grupos de objetos é definida como sendo a dissimilaridade entre os seus membros mais próximos Vários outros métodos são semelhantes em espírito, apenas definindo diferentemente a distância entre dois grupos No método de agrupamento de elo completo (complete-link clustering) ou do vizinho mais distante (furthest-neighbour), a distância entre dois grupos é definida como sendo a dissimilaridade entre seus membros mais distantes No método do centróide, a distância entre dois grupos é definida como sendo a distância entre seus centróides (vetor médio do grupo)

    226. 226 Análise de Conglomerados (cont.) No método da média grupal (group-average), a distância entre dois grupos é definida como sendo a média das dissimilaridades entre todos os pares de objetos contendo um elemento em cada grupo O método de aglomeração hierárquica de Ward é baseado na soma de quadrados de desvios (em relação à média) dentro dos grupos (within-group), ao invés de distâncias entre grupos: a cada etapa o número de grupos é reduzido em uma unidade combinando-se os dois grupos que provoquem o menor aumento possível na soma total de quadrados de desvios dentro dos grupos

    227. 227 Análise de Conglomerados (cont.) O método de Wishart, também chamado de análise modal (mode analysis), busca “pontos densos”, tais que k ou mais pontos (ou objetos) estão contidos em uma hiperesfera de raio R Começando com um valor pequeno para R o método define a hiperesfera de raio R ao redor de cada ponto e conta o número de outros pontos contidos na hiperesfera; se o numero de pontos é no mínimo k, o ponto central é chamado um ponto denso O parâmetro R é aumentado gradualmente, de tal forma que mais e mais pontos se tornam densos, até que todos os pontos pertencem a uma única hiperesfera (se k = 1, o método se reduz ao método do vizinho mais próximo)

    228. 228 Análise de Conglomerados (cont.) Todos os métodos descritos acima são essencialmente hierárquicos, cada um produzindo uma árvore; é sempre possível cortar a árvore para encontrar uma partição contendo um determinado número de grupos Outras técnicas buscam partições diretamente, não produzindo árvores hierárquicas, geralmente envolvendo algum método para iniciar um determinado número de grupos (“seeds”) Os objetos são então alocados aos grupos iniciais, sendo posteriormente realocados a outros grupos; o processo de realocação de objetos continua até que algum critério seja otimizado Tais métodos são chamados de métodos rápidos (quick clustering)

    229. 229 Análise de Conglomerados (cont.) Por exemplo, se desejamos uma partição contendo g grupos, podemos escolher os g objetos mais afastados entre si para iniciar os grupos Cada um dos demais objetos é então alocado a um dos grupos iniciais escolhendo o grupo mais próximo em algum sentido (usando alguma definição de distância) O processo de realocação prossegue iterativamente até que algum critério seja otimizado Um dos mais populares é o critério de Wilks: minimizar o determinante da matriz de somas de quadrados e produtos de desvios (em relação à média) dentro dos grupos

    230. 230 Análise Discriminante Análise Discriminante é uma técnica multivariada de dependência, que busca encontrar funções capazes de separar dois ou mais grupos de observações Estas funções são representadas por combinações lineares de variáveis independentes (métricas) que “discriminem” ou identifiquem os grupos, definidos por uma variável dependente (categórica) Busca-se, como na ACP, novas variáveis (combinação das variáveis originais), que sejam homogêneas dentro dos grupos, mas heterogêneas entre os grupos Estas novas variáveis são chamadas de funções discriminantes

    231. 231 Análise Discriminante (cont.) Distinguem-se basicamente dois tipos de análises: simples (dois grupos) e múltipla (mais de dois grupos) A principal distinção refere-se ao número de funções discriminantes geradas: uma para a análise simples, e mais de uma para a análise múltipla Análise Discriminante tem sido usada principalmente para: gerar modelos explicativos gerar modelos preditivos dar validade à Análise de Conglomerados

    232. 232 Hipóteses básicas As hipóteses básicas da Análise Discriminante são Cada grupo representa uma amostra aleatória de uma população A matriz de variâncias e covariâncias das variáveis discriminantes nos diversos grupos são iguais; o vetor de médias é distinto nos distintos grupos Para a realização de testes de significância, é necessária a hipótese de que a distribuição das variáveis discriminantes é Normal (multivariada)

    233. 233 Algumas recomendações Algumas recomendações sobre a base de dados são As variáveis escolhidas para a análise devem possuir capacidade de discriminação entre os grupos, devendo ter pouca colinearidade Deve haver no mínimo 20 casos em cada grupo O número de variáveis deve ser inferior ao tamanho do menor grupo Deve haver pelo menos 20 casos para cada variável discriminante

    234. 234 O caso de dois grupos Vamos assumir que as duas populações a serem comparadas têm a mesma matriz de variâncias e covariâncias ?, mas com vetores médios ?1 e ?2 Têm-se duas amostras multivariadas (p variáveis) das duas populações, com tamanhos n1 e n2 A função discriminante é a combinação linear das p variáveis que maximiza a distância entre os dois vetores de médias nos grupos Ou seja, a função discriminante toma a forma Z = aTX, onde aT = [a1, ..., ap] é um vetor de constantes (repare que Z é uma variável aleatória univariada)

    235. 235 O caso de dois grupos (cont.) As médias nos dois grupos são dadas por Deseja-se um vetor a que maximize o quadrado da diferença padronizada entre as médias, ou seja, , onde Spl é uma estimativa não viesada da matriz de variâncias e covariâncias comum, dada por

    236. 236 O caso de dois grupos (cont.) Derivando a expressão que se quer maximizar, e igualando a zero, obtém-se ou qualquer seu múltiplo Substituindo na expressão do quadrado da diferença padronizada entre as médias, obtém-se , que é chamada de distância padronizada (de Mahalanobis) entre os vetores e A expressão maximizada é equivalente ao quociente entre a soma de quadrados entre grupos e a soma de quadrados dentro dos grupos

    237. 237 O caso de k (k>2) grupos Quando há mais do que 2 grupos, há necessidade de mais do que uma função discriminante Vamos assumir que as k populações a serem comparadas têm a mesma matriz de variâncias e covariâncias ?, mas com vetores médios ?1, ?2,..., ?k Têm-se k amostras multivariadas (p variáveis) das k populações, com tamanhos n1,n2,...,nk As funções discriminantes Zi serão combinações lineares das p variáveis que maximizam o quociente entre a soma de quadrados entre grupos e a soma de quadrados dentro dos grupos

    238. 238 O caso de k (k>2) grupos (cont.) A expressão maximizada para o caso de dois grupos pode ser escrita como Para o caso de k (k>2) grupos, a expressão é generalizada para , onde

    239. 239 O caso de k (k>2) grupos (cont.) A expressão pode ser re-escrita como ou e queremos buscar valores para a que resulte em um valor máximo para ? A solução aT = 0T não interessa, pois teríamos ? indeterminado (= 0/0) Podemos buscar outras soluções a partir da equação , que pode ser re-escrita como , cujas soluções são os autovalores e autovetores associados de E-1H Então o autovetor associado ao maior autovalor de E-1H representa os coeficientes da função discriminante que mais discrimina entre os k grupos

    240. 240 O caso de k (k>2) grupos (cont.) O autovetor associado ao segundo maior autovalor de E-1H representa os coeficientes da segunda função discriminante que mais discrimina (depois da primeira) entre os k grupos, e assim por diante O número s de autovalores não nulos corresponde ao posto da matriz H, que pode ser demonstrado ser igual ao menor dos valores k - 1 ou p A importância relativa de cada função discriminante Zi é dada pela proporção entre seu autovalor e a soma de todos os autovalores

    241. 241 Critérios de classificação das técnicas multivariadas Os métodos dividem-se em de interdependência ou de dependência, conforme o destaque dado a algumas variáveis Nos métodos de interdependência, não há destaque entre as variáveis, todas tendo natureza similar São métodos eminentemente descritivos, utilizados para sintetizar informações, mostrar a estrutura dos dados, ou estabelecer classificações Alguns exemplos são análise fatorial, análise de conglomerados e escalas multidimensionais Nos métodos de dependência, diferenciam-se variáveis explicativas, independentes ou preditivas de variáveis explicadas ou dependentes Alguns exemplos são análise de variância, análise de regressão e análise discriminante

    242. 242 Critérios de classificação das técnicas multivariadas (cont.) O nível de mensuração das variáveis (escalas métricas, ordinais e categóricas) também é relevante para uma classificação Por exemplo, a análise de regressão em princípio pressupõe variáveis métricas, ainda que desenvolvimentos recentes permitam variáveis não métricas A análise de variância exige tanto variáveis métricas como categóricas Também o número de variáveis usadas simultaneamente é importante No caso dos métodos de interdependência o número de variáveis estará limitado, em princípio, pela capacidade computacional Nos métodos de dependência o número de variáveis é mais relevante para distinguir o tipo particular de análise

    243. 243 Métodos de interdependência Escala métrica Análise de componentes principais Análise fatorial Análise de conglomerados Escalas multidimensionais métricas Escala não métrica Escalas multidimensionais não métricas Análise não métrica de agrupamentos Análise de correspondências

    244. 244 Métodos de dependência Uma variável dependente Variável dependente métrica Variáveis independentes métricas Análise de regressão múltipla Variáveis independentes não métricas Análise de variância e covariância Regressão múltipla com variáveis fictícias (“dummy”) Segmentação hierárquica Variável dependente não métrica Variáveis independentes métricas Análise discriminante Modelos probabilísticos lineares (“logit” e “probit”) Variáveis independentes não métricas Análise discriminante com variáveis fictícias (“dummy”) Análise conjunta

    245. 245 Métodos de dependência (cont.) Várias variáveis dependentes Variáveis dependentes métricas Variáveis independentes métricas Análise de correlações canônicas Modelagem de equações estruturais Variáveis independentes não métricas Análise de variância e covariância multivariada Modelos loglineares Segmentação hierárquica Variáveis dependentes não métricas Análise de correlações canônicas com variáveis fictícias (“dummy”) Modelagem de equações estruturais

    246. 246 Análise de componentes principais Este tipo de análise proporciona em geral uma síntese do fenômeno estudado, ao resumir a informação, identificando seus aspectos fundamentais e revelando a estrutura subjacente dos dados Operacionalmente, procura-se substituir as variáveis originais por um conjunto menor de variáveis “subjacentes” Procura-se identificar uma transformação ortogonal das variáveis originais em um novo conjunto de variáveis não correlacionadas, chamadas de componentes principais Os componentes são combinações lineares das variáveis originais, sendo derivados em ordem decrescente de importância

    247. 247 Análise de componentes principais (cont.) Espera-se que os primeiros componentes expliquem boa parte da variabilidade nos dados originais, de modo que a dimensionalidade dos dados seja efetivamente diminuída Freqüentemente a técnica é (erroneamente) confundida com a técnica de análise fatorial Tem origem nos trabalhos de Pearson no começo do século XX, posteriormente desenvolvida por Hotelling nos anos 30 É útil para identificar os componentes principais da imagem de uma marca ou de uma organização, de um comportamento ou de uma atitude, para citar algumas aplicações

    248. 248 Análise de componentes principais (cont.) A análise de componentes principais é uma técnica matemática, não exigindo a especificação de um modelo estatístico subjacente para explicar a estrutura de erros Nenhuma suposição é feita a respeito da distribuição de probabilidades das variáveis originais, embora melhores interpretações para os componentes sejam obtidas quando as observações provenham de uma distribuição Normal multivariada

    249. 249 Análise fatorial Análise fatorial é semelhante em espírito à análise de componentes principais Procuram-se novas variáveis, chamadas de fatores, que facilitem o entendimento dos dados Ao contrário da análise de componentes principais, entretanto, que é independente de qualquer modelo subjacente, a análise fatorial se baseia em um modelo estatístico específico (que por sua vez se apoia em um modelo teórico pré-existente), preocupando-se em explicar mais a estrutura de covariâncias das variáveis do que em explicar variâncias Qualquer variância não explicada pelos fatores pode ser descrita por “erros” residuais

    250. 250 Análise fatorial (cont.) As idéias básicas da análise fatorial foram sugeridas na virada do século passado por Galton e Spearman, originadas dos esforços em psicologia para melhor entender a inteligência Testes de inteligência usualmente contêm uma grande variedade de questões, cujas respostas dependem, em maior ou menor grau, de habilidades verbais, habilidades matemáticas, memória, etc. A análise fatorial foi desenvolvida para analisar se a inteligência compõe-se de um único fator geral ou de vários fatores mais limitados, medindo atributos como habilidade matemática, por exemplo

    251. 251 Análise de correspondências Trata-se de técnica semelhante à análise de componentes principais e análise fatorial, com a particularidade de trabalhar com variáveis categóricas Proporciona mapas perceptuais, oferecendo uma representação de fácil compreensão É especialmente interessante para pesquisar o posicionamento de produtos ou outros objetos Tem origem nos trabalhos de Hartley nos anos 30 Os aspectos geométricos da técnica foram largamente desenvolvidos na década de 60 por Benzécri

    252. 252 Análise de conglomerados O objetivo básico desta técnica é encontrar os agrupamentos naturais, se existirem, de um conjunto de indivíduos (ou objetos, ou pontos, ou unidades, etc.) Alocam-se indivíduos a um conjunto mutuamente exclusivo e exaustivo de grupos (chamado de partição) de tal modo que indivíduos de um mesmo grupo sejam semelhantes entre si enquanto que indivíduos de grupos diferentes sejam dessemelhantes Os grupos formadores de uma partição podem ser sub-divididos em conjuntos menores ou agrupados em conjuntos maiores, de modo que se obtém, na verdade, uma estrutura hierárquica completa do conjunto de indivíduos (chamada árvore hierárquica)

    253. 253 Análise de conglomerados (cont.)

    254. 254 Análise de conglomerados (cont.) Análise de conglomerados tem sido usada principalmente para: exploração de dados redução de dados geração de hipóteses previsão baseada nos grupos Tanto pode ser usada para agrupar indivíduos como para agrupar variáveis Neste caso, tudo o que precisamos é alguma medida de “semelhança” (ou dessemelhança) entre variáveis, a mais óbvia delas sendo algum coeficiente de correlação

    255. 255 Análise de conglomerados (cont.) Algumas técnicas buscam partições diretamente, não produzindo árvores hierárquicas, geralmente envolvendo algum método para iniciar um determinado número de grupos (sementes) Os objetos são então alocados aos grupos iniciais, sendo posteriormente realocados a outros grupos O processo de realocação de objetos continua até que algum critério seja otimizado Tais métodos são chamados de métodos rápidos (“quick clustering”)

    256. 256 Escalas multidimensionais (cont.) O objetivo desta técnica é transformar avaliações de semelhanças ou de preferências realizadas por um grupo de indivíduos em distâncias, de modo a poder representá-las em um espaço multidimensional Tem origem nos estudos de Torgerson nos anos 50, no âmbito da psicologia, como resposta à necessidade de relacionar a intensidade física de certos estímulos com sua intensidade subjetiva O aspecto característico da técnica é proporcionar ao pesquisador uma representação gráfica em um espaço geométrico de poucas dimensões, permitindo compreender como os indivíduos percebem objetos, e que esquemas, em geral ocultos, estão por detrás destas percepções

    257. 257 Escalas multidimensionais (cont.) É um método bastante flexível, podendo ser utilizado com escalas métricas ou não métricas A aplicação da técnica não exige um conhecimento prévio dos atributos que os sujeitos utilizam ao realizar suas avaliações, baseadas fundamentalmente na comparação de objetos Admite-se que qualquer objeto é formado tanto por dimensões objetivas quanto por dimensões subjetivas É importante ressaltar que as dimensões percebidas pelos sujeitos da pesquisa podem não coincidir com as dimensões assumidas como relevantes pelo pesquisador, devendo haver cuidado na interpretação dos resultados

    258. 258 Análise de variância e covariância Análise de variância é uma técnica útil em desenhos experimentais, para medir os efeitos que têm fatores, medidos categoricamente, sobre variáveis dependentes, medidos em escala métrica Quando algum dos fatores é medido em escala métrica, a análise toma o nome de análise de covariância Tem origem nas ciências experimentais, particularmente na agronomia, buscando comprovação de melhorias de rendimentos com o uso de diferentes fertilizantes ou tratamentos

    259. 259 Segmentação hierárquica Estas são técnicas que auxiliam a identificação de segmentos entre os indivíduos pesquisados Distinguem-se uma variável critério, ou dependente, e outras explicativas, ou preditoras O processo é de natureza iterativa, consistindo em sucessivas partições da amostra inicial de acordo com uma ou mais variáveis preditoras que melhor expliquem a variável tomada como critério Chega-se assim a segmentos exaustivos e mutuamente exclusivos

    260. 260 Análise discriminante A análise discriminante é uma técnica multivariada de dependência que permite encontrar funções (em geral lineares) capazes de separar dois ou mais grupos de indivíduos, tomando por base um conjunto de medidas sobre os mesmos A variável dependente é categórica, servindo para definir os grupos, enquanto as variáveis independentes são métricas Usa-se a técnica fundamentalmente com três finalidades: explicativa, preditiva, e de reclassificação

    261. 261 Modelos probabilísticos lineares É um caso particular de análise de regressão em que a variável dependente é de natureza dicotômica A técnica não supõe tantas restrições sobre a natureza das distribuições das variáveis independentes É muito útil em ciências sociais, na medida em que várias variáveis não podem ser medidas em escalas Tem origem na bioestatística e epidemiologia, nos anos 50, tendo seu uso sido posteriormente estendido para a sociologia, economia e administração

    262. 262 Correlações canônicas É a técnica mais geral entre métodos de dependência Distingue as variáveis entre dependentes (várias) e independentes (várias), todos com escala métrica A técnica é basicamente descritiva, mas pode ser usada também com propósitos preditivos Os resultados obtidos com a técnica ajudam a compreender as formas de relacionamento entre dois conjuntos de variáveis, além da força e da natureza da relação

    263. 263 Modelagem de equações estruturais Um objetivo permanente dos pesquisadores é conseguir captar e representar fielmente uma realidade com um modelo que sirva para descrever, explicar e prever A modelagem de equações estruturais tenta alcançar este objetivo, mediante a identificação de uma rede de relações entre variáveis endógenas e exógenas, variáveis independentes, variáveis que são efeitos em uma relação mas são causas em outra, além de variáveis que não são medidas diretamente, mas através de outras

    264. 264 Modelagem de equações estruturais (cont.) A análise de equações estruturais constitui-se em uma poderosa técnica multivariada, cada vez mais utilizada em marketing e em ciências sociais em geral, como economia e sociologia É resultado da evolução e conjunção de várias metodologias desenvolvidas por diversas disciplinas, como a análise de variáveis latentes da psicologia, os modelos de equações simultâneas da economia e a análise de caminhos da sociologia, combinadas a partir da década de 70, pioneiramente por Jöreskog “Trata-se da mais importante revolução estatística ocorrida nas ciências sociais.” (Cliff, 1983 apud Martínez, 2000, p. 490)

    265. 265 Processo de modelagem Passo 1: definir o problema de investigação, os objetivos do estudo e a técnica multivariada apropriada Passo 2: desenvolver o projeto de análise Passo 3: avaliar os pressupostos básicos da técnica multivariada escolhida Passo 4: estimar parâmetros e avaliar o ajuste do modelo Passo 5: interpretar o valor teórico Passo 6: validar o modelo multivariado

    266. 266 Exemplo – posicionamento mercadológico Atributos de uma revenda 1. Uma revenda conhecida com tradição 2. Resolver os problemas por telefone 3. Ser conhecido do pessoal, me sentir entre amigos 4. Poder acompanhar o serviço (entrar na oficina) 5. Abrir sábados à tarde 6. Manter correspondência com o cliente 7. Ter consórcio próprio 8. Facilidade de colocação de acessórios 9. Ser uma revenda grande 10. Buscar e entregar meu carro em casa para revisões 11. Devolver todas as peças que trocam 12.Ter pessoal educado e treinado para tratar com o público 13. Poder tratar direto com o dono

    267. 267

    268. 268

    269. 269

More Related