1 / 37

Mineração de Séries Temporais e Dados Seqüenciais

Mineração de Séries Temporais e Dados Seqüenciais. Eufrásio de Andrade Lima Neto Juliana Loureiro Centro de Informática – UFPE, Janeiro.2003. Séries Temporais. Um conjunto de observações tomadas em tempos determinados, comumente em intervalos iguais (Spiegel, 1993).

omer
Download Presentation

Mineração de Séries Temporais e Dados Seqüenciais

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mineração de Séries Temporais e Dados Seqüenciais Eufrásio de Andrade Lima Neto Juliana Loureiro Centro de Informática – UFPE, Janeiro.2003

  2. Séries Temporais • Um conjunto de observações tomadas em tempos determinados, comumente em intervalos iguais (Spiegel, 1993). • Consiste de uma seqüência de valores mensurados em iguais intervalos de tempo (Han e Kamber, 2001).

  3. Séries Temporais • Principal objetivo Realizar previsões futuras baseando-se no comportamento passado dos dados. • Exemplos • Cotação Diária do Dólar • Consumo Mensal de Gasolina • Faturamento Anual da Microsoft

  4. Futuro

  5. Séries TemporaisComponentes Os movimentos (ou componentes) de uma série temporal podem ser divididos em 4 tipos principais: • Movimento de Tendência • Variações Cíclicas • Variações Sazonais • Movimentos Aleatórios - ERRO

  6. Séries TemporaisMovimentos Aleatórios Os movimentos aleatórios ou irregulares correspondem aos deslocamentos esporádicos de uma série temporal, que não podem ser captados por nenhuma das três componentes: tendência, ciclo e sazonalidade. Normalmente são denominados de erro aleatório.

  7. Séries Temporais Movimentos de Tendência Compreende o movimento dominante de uma série temporal, segundo o qual a mesma se desenvolve em um longo intervalo de tempo. A estimação da tendência de uma série temporal pode ser obtida através dos seguintes métodos:

  8. Séries Temporais Movimentos de Tendência • Principais Métodos • Método dos Mínimos Quadrados: proporciona o ajuste da MELHOR reta que minimiza a soma dos quadrados resíduos. (Gujarati, 2000). • Método do Sentimento: proporciona o ajuste de uma reta mediante uma inspeção gráfica da série. Apesar da fácil aplicabilidade, depende consideravelmente do critério individual de cada analista. • Métodos das Médias Móveis: mediante o emprego de médias móveis simples ou ponderadas, podem ser eliminadas as variações cíclicas, sazonais ou aleatórias, conservando apenas o movimento de tendência. Referência, Speigel (1993).

  9. Séries TemporaisMovimentos de Tendência Método dos Mínimos Quadrados

  10. Séries TemporaisMovimentos de Tendência Método do Sentimento R1 R2

  11. Séries TemporaisMovimentos de Tendência Método das Médias Móveis

  12. Séries TemporaisVariações Cíclicas • Compreendem nas oscilações de longo prazo que podem ocorrer em torno de uma linha de tendência. Tais movimentos podem ser ou não periódicos e somente são considerados quando ocorrem depois de intervalos de tempo superiores a um ano. • Alguns autores citam a utilização de técnicas gráficas e o uso de médias móveis para detectar possíveis variações cíclicas.

  13. Séries TemporaisVariações Cíclicas

  14. Séries TemporaisVariações Cíclicas Observação: • Vale ressaltar, que para detectar variações cíclicas de caráter não empírico necessitamos a transição para o domínio da freqüência. Referência, Brockwell e Davis, 1991.

  15. Séries TemporaisVariações Sazonais • Referem-se a movimentos similares, que uma série temporal obedece durante os mesmos meses (semanas, dias, quinzenas, etc) de anos sucessivos. • Um índice de Sazonalidade tem por objetivo, analisar o comportamento típico de uma série temporal. Para tanto, esta análise deve ser realizada em intervalos de tempos eqüidistantes. Como, por exemplo: • a cada 12 meses; • a cada 7 dias.

  16. Séries TemporaisÍndices Sazonais • Para o cálculo do índice de sazonalidade, são conhecidos vários métodos. • Percentagem Média: os dados de cada mês são expressos em percentagens da média anual; • Relação Percentual: os dados de cada mês são expressos em percentagens dos valores da tendência mensal; • Elos Relativos: os dados de cada mês são expressos em percentagens em relação aos dados do mês anterior. Referência, Spiegel, 1993.

  17. Séries TemporaisÍndices Sazonais • Método da Percentagem Média • Passo 1: os dados de cada mês são expressos em percentagens da média anual; • Passo 2: as percentagens dos meses correspondentes, para diferentes anos, são balanceadas mediante o emprego de uma nova média; • Passo 3: as 12 percentagens resultantes dão os índices de sazonalidade.

  18. Índices SazonaisMétodo da Percentagem Média

  19. Índices SazonaisMétodo da Percentagem Média

  20. Índices SazonaisMétodo da Percentagem Média

  21. Índices SazonaisMétodo da Percentagem Média

  22. Séries TemporaisModelagem • Um modelo de série temporal consiste numa descrição matemática que incorpora as componentes: • tendência - T; • cíclica - C; • sazonal - S; • erro - E. Y = f (T, C, S, E | t), onde Y é uma variável aleatória indexada ao tempo.

  23. Séries TemporaisPrincipais Famílias de Modelos • Modelos de Box-Jenkins • Autoregressivo (AR) • Médias Móvel (MA) • Autoregressivo e Média Móvel (ARMA) • Autoregressivo Integrado de Média Móvel (ARIMA) • SAR, SARIMA • Modelos de Suavizamento • Suavizamento Exponencial • Holt Winters Referência, Gujarati,2000; Hamilton,1994.

  24. Séries TemporaisModelagem • Elaborar uma previsão para a produção médica. • Dados mensais de Jan/97 a Jan/99.

  25. Séries TemporaisModelagem • Modelo Holt Winters Sazonal • O método de Holt-Winters é baseado em três equações, uma para cada componente: nível, tendência e sazonalidade. • Modelo de Previsão =>

  26. Séries TemporaisModelagem

  27. Mineração de Padrões Seqüenciais • É minerar a ocorrência de padrões freqüentes relacionados ao tempo ou outras seqüências. • Dado um conjunto de dados seqüenciais, o problema é descobrir subseqüências que são freqüentes, a partir de um suporte mínimo. • Exemplo: clientes que geralmente alugam Star Wars, alugam Empire Striks Back e Return of the Jedi.

  28. Mineração de Padrões Seqüenciais • Definições • Seqüência: lista ordenada de itens (s) • Itens simples de um conjunto literais (siki) • Itemsets – um conjunto não vazio de itens (si) • Notação • Elementos de uma seqüência s  <s1, s2,..., sn> • Elementos de um itemset si {si1, si2,..., siki} • Tamanho de uma seqüência s  |s|

  29. Mineração de Padrões Seqüenciais • Uma seqüência (a1, a2,..., an) está contida em outra seqüência (b1, b2,..., bn) se existe inteiros i1, i2,..., in, tal que a1  bi1, a2  bi2,..., an  bin. • Exemplo: A  B? • A = {(3) (4 5) (8)} B = {(7) (3 8) (9) (4 5 6) (8)} Se (3)  (3 8), (4 5)  (4 5 6), e (8)  (8). • A = {(3) (5)} B = {(3 5)} (3)  (3 5), (5)  (3 5)

  30. Mineração de Padrões Seqüenciais • Os algoritmos existentes são baseados nos algoritmos: • Apriori • FP-Tree

  31. Mineração de Padrões Seqüenciais - Algoritmo • Fases do problema de mineração • Sort – a base de dados é ordenada; • Litemset – encontra o conjunto de todos litemsets; • Seqüência – usa o conjunto de litemsets para encontrar as seqüências desejadas; • Maximal – encontra as seqüências máximas entre o conjunto de seqüências. Uma seqüência é maximal se ela não está contida em nenhuma outra seqüencia.

  32. Mineração de Padrões Seqüenciais - Exemplo • A partir de uma base de transações de clientes encontrar padrões seqüenciais. • Cada transação consiste: • id-cliente; • hora da transação; • itens comprados. • Nenhum cliente tem mais de uma transação no mesmo horário; • Cada item é uma variável binária representando se o item foi comprado ou não. • O suporte mínimo é 25%, 2 clientes.

  33. Mineração de Padrões Seqüenciais - Exemplo

  34. Mineração de Padrões Seqüenciais - Exemplo Suporte mínimo de 25% => 2 clientes

  35. Mineração de Padrões Seqüenciais - Exemplo Seqüência máxima baseada no suporte definido.

  36. Softwares • Séries Temporais • SPSS (contém módulo de Data Minning); • Statistica (contém módulo de Data Minning); • ITSM • S-Plus • R • Minitab • Dados Seqüênciais (algoritmos) • Apriori • FP-Tree

  37. Referências • Murray R. Spiegel, Estatística, Terceira Edição, Makron Books, 1993; • Damodar N. Gujarati, Econometria Básica, Terceira Edição, Makron Books, 2000; • Maddala, E., Econometrics, McGraw-Hill, Nova York, 1977; • R. Agrawai e R. Srikant, “Mining Sequential Patterns”, Proc. 11th Int’l Conf. Data Eng., March 1995; • M. Garofalakis, R. Rastogi e K. Shim, “Mining Sequential Patterns with Regular Expression Constrain”, IEEE Transaction on Knowledge and Data Engineering, Vol. 14, No.3, Ma/June 2002;

More Related