1 / 40

State of the Art of Graph-based Data Mining Takashi Washio e Hiroshi Motoda

State of the Art of Graph-based Data Mining Takashi Washio e Hiroshi Motoda. Delane P. O. Dias. Sumário. Introdução As 5 bases teóricas Estratégias de mineração Visual graph mining Exemplos Conclusões. Introdução.

tyler
Download Presentation

State of the Art of Graph-based Data Mining Takashi Washio e Hiroshi Motoda

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. State of the Art of Graph-based Data MiningTakashi Washio e Hiroshi Motoda Delane P. O. Dias

  2. Sumário • Introdução • As 5 bases teóricas • Estratégias de mineração • Visual graph mining • Exemplos • Conclusões

  3. Introdução Com o crescimento de dados gerados, buscaram-se formas de extrair informações destes dados, primeiramente com mineração de dados e há pouco tempo com mineração de dados baseada em grafos. A primeira visa extrair regras de conhecimento, enquanto a segunda visa a topologia dos dados. Possíveis áreas de aplicações de Graph mining: biologia, química e comunicações.

  4. As 5 bases teóricas • Categorias dos subgrafos • Isomorfismo • Graph invariants • Medidas de mineração • Métodos de solução

  5. Categorias dos subgrafos • Geral • Induzido • Conexo • Árvore ordenada • Árvore desordenada • Caminho

  6. Subgrafo geral

  7. Subgrafo induzido

  8. Subgrafo conexo

  9. Árvore ordenada

  10. Árvore desordenada

  11. Caminho

  12. Isomorfismo de (sub)grafos Mesmo dispostos de formas diferentes, dois grafos podem ser idênticos, i.e., isomorfos. O problema com grafos tem complexidade desconhecida. Já saber se um grafo está contido em outro é NP-completo.

  13. Encontre-me nos outros grafos

  14. Problema: Sejam dois grafos Gx(Vx,Ex,fx) e Gy(Vy,Ey,fy), encontrar Gsx(Vsx,Esx,fsx) e Gsy(Vsy,Esy,fsy) e a bijeção gxy entre os vértices de Vsx e Vsy,tal que Gsxe Gsysejam idênticos, i.e., onde vyi = gxy(vxi) e vyj = gxy(vxj). A existência de gxyassegura a existência da identidade topológica entre Gsxe Gsy.

  15. Representação por matrizes Se dois grafos são isomorfos então alguma permutação de linhas e colunas das matrizes será igual.

  16. Graph Invariants • Valores do grafo que ajudam no problema de isomorfismo, e.g. número de vértices, grau dos vértices e o número de laços no grafo. • Se dois grafos são isomorfos então têm valores de invariantes idênticos. • Reduz o espaço da busca • Mckay (NAUTY)

  17. NAUTY

  18. NAUTY

  19. NAUTY

  20. NAUTY

  21. Medidas de mineração As medidas dependem dos objetivos e da limitação da estratégia de busca. support

  22. Medidas de mineração Minimum support - minsup Maximum support – maxsup Outras usadas em machine learning: information entropy, information gain, gini-index e minimum descripition length(MDL).

  23. Métodos de solução São classificados em métodos de busca heurísticos e completos  com relação à completude da busca. Matching direto e indireto  com relação ao casamento de subgrafos isomorfos.

  24. Estratégias de mineração • Busca gulosa • Programação Indutiva Lógica (ILP) • Base de dados indutiva • Teoria matemática dos grafos • Função kernel

  25. Busca gulosa • Busca heurística e casamento direto • Pode ser DFS ou BFS • Trabalhos pioneiros: Cook e Holder (SUBDUE) e Yoshida e Motoda (GBI)

  26. GBI – Graph-Based Induction • Subgrafos rotulados orientados ou não • Divide grafo em subgrafos

  27. GBI

  28. GBI

  29. GBI

  30. Programação Indutiva Lógica (ILP) • Primeiro a tentar busca completa • Vantagem: conhecimento prévio • Desvantagem: espaço de busca • Pode ser heurístico, completo, direto ou indireto • Utilizado para predição de carcinogênese • Dehaspe e Toivonen (WARMR) • Nijssen e Kok (FARMER)

  31. Base de dados indutiva • Regras indutivas, relações ou padrões são gerados previamente • Armazenados numa base de dados • Vantagem: rápida mineração • Desvantagem: memória e processamento gastos • De Raedt e Kramer (MolFea)

  32. Teoria matemática dos grafos • Minera todas as categorias de subgrafos • Inokuchi et al (AGM), FSG(2001), gSpan(2002)

  33. Função kernel • Define uma similaridade entre dois grafos • Muitas invariantes são coletadas • Delas criam-se os vetores característica • Quando a dimensão é muito grande aplica-se uma função kernel • Não é computada eficientemente

  34. Mineração visual em grafos minha visão Como o grafo é uma estrutura com informações topológicas, o pensamento de visualização ocorre quase que imediatamente. Com o estudo da mineração em grafos bem fundamentada, a tendência será voltar as atenções para as formas de visualizações.

  35. Exemplos

  36. Exemplos

  37. Exemplos

  38. Exemplos

  39. Conclusões É uma área que está em franco desenvolvimento, pois está claro que as técnicas têm sofrido grandes melhoras em pouco tempo. Além disso, muitos dados de problemas reais podem ser facilmente mapeados em grafos, principalmente em química e biologia. E o que antes era impossível devido as limitações de memória e processamento, hoje já não é mais.

  40. Bibliografia • Takashi Washio and Hiroshi Motoda et al. State of the art of graph-based data mining. SIGKDD Explor. Newsl., 5(1):59–68, 2003. • Xifeng Yan and Jiawei Han et al. gspan: Graph-based substructure pattern mining. In ICDM’02: 2nd IEEE Conf. Data Mining, 2002.

More Related