380 likes | 608 Views
Mineração de Séries Temporais e Dados Seqüenciais. Eufrásio de Andrade Lima Neto Juliana Loureiro Centro de Informática – UFPE, Janeiro.2003. Séries Temporais. Um conjunto de observações tomadas em tempos determinados, comumente em intervalos iguais (Spiegel, 1993).
E N D
Mineração de Séries Temporais e Dados Seqüenciais Eufrásio de Andrade Lima Neto Juliana Loureiro Centro de Informática – UFPE, Janeiro.2003
Séries Temporais • Um conjunto de observações tomadas em tempos determinados, comumente em intervalos iguais (Spiegel, 1993). • Consiste de uma seqüência de valores mensurados em iguais intervalos de tempo (Han e Kamber, 2001).
Séries Temporais • Principal objetivo Realizar previsões futuras baseando-se no comportamento passado dos dados. • Exemplos • Cotação Diária do Dólar • Consumo Mensal de Gasolina • Faturamento Anual da Microsoft
Séries TemporaisComponentes Os movimentos (ou componentes) de uma série temporal podem ser divididos em 4 tipos principais: • Movimento de Tendência • Variações Cíclicas • Variações Sazonais • Movimentos Aleatórios - ERRO
Séries TemporaisMovimentos Aleatórios Os movimentos aleatórios ou irregulares correspondem aos deslocamentos esporádicos de uma série temporal, que não podem ser captados por nenhuma das três componentes: tendência, ciclo e sazonalidade. Normalmente são denominados de erro aleatório.
Séries Temporais Movimentos de Tendência Compreende o movimento dominante de uma série temporal, segundo o qual a mesma se desenvolve em um longo intervalo de tempo. A estimação da tendência de uma série temporal pode ser obtida através dos seguintes métodos:
Séries Temporais Movimentos de Tendência • Principais Métodos • Método dos Mínimos Quadrados: proporciona o ajuste da MELHOR reta que minimiza a soma dos quadrados resíduos. (Gujarati, 2000). • Método do Sentimento: proporciona o ajuste de uma reta mediante uma inspeção gráfica da série. Apesar da fácil aplicabilidade, depende consideravelmente do critério individual de cada analista. • Métodos das Médias Móveis: mediante o emprego de médias móveis simples ou ponderadas, podem ser eliminadas as variações cíclicas, sazonais ou aleatórias, conservando apenas o movimento de tendência. Referência, Speigel (1993).
Séries TemporaisMovimentos de Tendência Método dos Mínimos Quadrados
Séries TemporaisMovimentos de Tendência Método do Sentimento R1 R2
Séries TemporaisMovimentos de Tendência Método das Médias Móveis
Séries TemporaisVariações Cíclicas • Compreendem nas oscilações de longo prazo que podem ocorrer em torno de uma linha de tendência. Tais movimentos podem ser ou não periódicos e somente são considerados quando ocorrem depois de intervalos de tempo superiores a um ano. • Alguns autores citam a utilização de técnicas gráficas e o uso de médias móveis para detectar possíveis variações cíclicas.
Séries TemporaisVariações Cíclicas Observação: • Vale ressaltar, que para detectar variações cíclicas de caráter não empírico necessitamos a transição para o domínio da freqüência. Referência, Brockwell e Davis, 1991.
Séries TemporaisVariações Sazonais • Referem-se a movimentos similares, que uma série temporal obedece durante os mesmos meses (semanas, dias, quinzenas, etc) de anos sucessivos. • Um índice de Sazonalidade tem por objetivo, analisar o comportamento típico de uma série temporal. Para tanto, esta análise deve ser realizada em intervalos de tempos eqüidistantes. Como, por exemplo: • a cada 12 meses; • a cada 7 dias.
Séries TemporaisÍndices Sazonais • Para o cálculo do índice de sazonalidade, são conhecidos vários métodos. • Percentagem Média: os dados de cada mês são expressos em percentagens da média anual; • Relação Percentual: os dados de cada mês são expressos em percentagens dos valores da tendência mensal; • Elos Relativos: os dados de cada mês são expressos em percentagens em relação aos dados do mês anterior. Referência, Spiegel, 1993.
Séries TemporaisÍndices Sazonais • Método da Percentagem Média • Passo 1: os dados de cada mês são expressos em percentagens da média anual; • Passo 2: as percentagens dos meses correspondentes, para diferentes anos, são balanceadas mediante o emprego de uma nova média; • Passo 3: as 12 percentagens resultantes dão os índices de sazonalidade.
Séries TemporaisModelagem • Um modelo de série temporal consiste numa descrição matemática que incorpora as componentes: • tendência - T; • cíclica - C; • sazonal - S; • erro - E. Y = f (T, C, S, E | t), onde Y é uma variável aleatória indexada ao tempo.
Séries TemporaisPrincipais Famílias de Modelos • Modelos de Box-Jenkins • Autoregressivo (AR) • Médias Móvel (MA) • Autoregressivo e Média Móvel (ARMA) • Autoregressivo Integrado de Média Móvel (ARIMA) • SAR, SARIMA • Modelos de Suavizamento • Suavizamento Exponencial • Holt Winters Referência, Gujarati,2000; Hamilton,1994.
Séries TemporaisModelagem • Elaborar uma previsão para a produção médica. • Dados mensais de Jan/97 a Jan/99.
Séries TemporaisModelagem • Modelo Holt Winters Sazonal • O método de Holt-Winters é baseado em três equações, uma para cada componente: nível, tendência e sazonalidade. • Modelo de Previsão =>
Mineração de Padrões Seqüenciais • É minerar a ocorrência de padrões freqüentes relacionados ao tempo ou outras seqüências. • Dado um conjunto de dados seqüenciais, o problema é descobrir subseqüências que são freqüentes, a partir de um suporte mínimo. • Exemplo: clientes que geralmente alugam Star Wars, alugam Empire Striks Back e Return of the Jedi.
Mineração de Padrões Seqüenciais • Definições • Seqüência: lista ordenada de itens (s) • Itens simples de um conjunto literais (siki) • Itemsets – um conjunto não vazio de itens (si) • Notação • Elementos de uma seqüência s <s1, s2,..., sn> • Elementos de um itemset si {si1, si2,..., siki} • Tamanho de uma seqüência s |s|
Mineração de Padrões Seqüenciais • Uma seqüência (a1, a2,..., an) está contida em outra seqüência (b1, b2,..., bn) se existe inteiros i1, i2,..., in, tal que a1 bi1, a2 bi2,..., an bin. • Exemplo: A B? • A = {(3) (4 5) (8)} B = {(7) (3 8) (9) (4 5 6) (8)} Se (3) (3 8), (4 5) (4 5 6), e (8) (8). • A = {(3) (5)} B = {(3 5)} (3) (3 5), (5) (3 5)
Mineração de Padrões Seqüenciais • Os algoritmos existentes são baseados nos algoritmos: • Apriori • FP-Tree
Mineração de Padrões Seqüenciais - Algoritmo • Fases do problema de mineração • Sort – a base de dados é ordenada; • Litemset – encontra o conjunto de todos litemsets; • Seqüência – usa o conjunto de litemsets para encontrar as seqüências desejadas; • Maximal – encontra as seqüências máximas entre o conjunto de seqüências. Uma seqüência é maximal se ela não está contida em nenhuma outra seqüencia.
Mineração de Padrões Seqüenciais - Exemplo • A partir de uma base de transações de clientes encontrar padrões seqüenciais. • Cada transação consiste: • id-cliente; • hora da transação; • itens comprados. • Nenhum cliente tem mais de uma transação no mesmo horário; • Cada item é uma variável binária representando se o item foi comprado ou não. • O suporte mínimo é 25%, 2 clientes.
Mineração de Padrões Seqüenciais - Exemplo Suporte mínimo de 25% => 2 clientes
Mineração de Padrões Seqüenciais - Exemplo Seqüência máxima baseada no suporte definido.
Softwares • Séries Temporais • SPSS (contém módulo de Data Minning); • Statistica (contém módulo de Data Minning); • ITSM • S-Plus • R • Minitab • Dados Seqüênciais (algoritmos) • Apriori • FP-Tree
Referências • Murray R. Spiegel, Estatística, Terceira Edição, Makron Books, 1993; • Damodar N. Gujarati, Econometria Básica, Terceira Edição, Makron Books, 2000; • Maddala, E., Econometrics, McGraw-Hill, Nova York, 1977; • R. Agrawai e R. Srikant, “Mining Sequential Patterns”, Proc. 11th Int’l Conf. Data Eng., March 1995; • M. Garofalakis, R. Rastogi e K. Shim, “Mining Sequential Patterns with Regular Expression Constrain”, IEEE Transaction on Knowledge and Data Engineering, Vol. 14, No.3, Ma/June 2002;