400 likes | 488 Views
State of the Art of Graph-based Data Mining Takashi Washio e Hiroshi Motoda. Delane P. O. Dias. Sumário. Introdução As 5 bases teóricas Estratégias de mineração Visual graph mining Exemplos Conclusões. Introdução.
E N D
State of the Art of Graph-based Data MiningTakashi Washio e Hiroshi Motoda Delane P. O. Dias
Sumário • Introdução • As 5 bases teóricas • Estratégias de mineração • Visual graph mining • Exemplos • Conclusões
Introdução Com o crescimento de dados gerados, buscaram-se formas de extrair informações destes dados, primeiramente com mineração de dados e há pouco tempo com mineração de dados baseada em grafos. A primeira visa extrair regras de conhecimento, enquanto a segunda visa a topologia dos dados. Possíveis áreas de aplicações de Graph mining: biologia, química e comunicações.
As 5 bases teóricas • Categorias dos subgrafos • Isomorfismo • Graph invariants • Medidas de mineração • Métodos de solução
Categorias dos subgrafos • Geral • Induzido • Conexo • Árvore ordenada • Árvore desordenada • Caminho
Isomorfismo de (sub)grafos Mesmo dispostos de formas diferentes, dois grafos podem ser idênticos, i.e., isomorfos. O problema com grafos tem complexidade desconhecida. Já saber se um grafo está contido em outro é NP-completo.
Encontre-me nos outros grafos
Problema: Sejam dois grafos Gx(Vx,Ex,fx) e Gy(Vy,Ey,fy), encontrar Gsx(Vsx,Esx,fsx) e Gsy(Vsy,Esy,fsy) e a bijeção gxy entre os vértices de Vsx e Vsy,tal que Gsxe Gsysejam idênticos, i.e., onde vyi = gxy(vxi) e vyj = gxy(vxj). A existência de gxyassegura a existência da identidade topológica entre Gsxe Gsy.
Representação por matrizes Se dois grafos são isomorfos então alguma permutação de linhas e colunas das matrizes será igual.
Graph Invariants • Valores do grafo que ajudam no problema de isomorfismo, e.g. número de vértices, grau dos vértices e o número de laços no grafo. • Se dois grafos são isomorfos então têm valores de invariantes idênticos. • Reduz o espaço da busca • Mckay (NAUTY)
Medidas de mineração As medidas dependem dos objetivos e da limitação da estratégia de busca. support
Medidas de mineração Minimum support - minsup Maximum support – maxsup Outras usadas em machine learning: information entropy, information gain, gini-index e minimum descripition length(MDL).
Métodos de solução São classificados em métodos de busca heurísticos e completos com relação à completude da busca. Matching direto e indireto com relação ao casamento de subgrafos isomorfos.
Estratégias de mineração • Busca gulosa • Programação Indutiva Lógica (ILP) • Base de dados indutiva • Teoria matemática dos grafos • Função kernel
Busca gulosa • Busca heurística e casamento direto • Pode ser DFS ou BFS • Trabalhos pioneiros: Cook e Holder (SUBDUE) e Yoshida e Motoda (GBI)
GBI – Graph-Based Induction • Subgrafos rotulados orientados ou não • Divide grafo em subgrafos
Programação Indutiva Lógica (ILP) • Primeiro a tentar busca completa • Vantagem: conhecimento prévio • Desvantagem: espaço de busca • Pode ser heurístico, completo, direto ou indireto • Utilizado para predição de carcinogênese • Dehaspe e Toivonen (WARMR) • Nijssen e Kok (FARMER)
Base de dados indutiva • Regras indutivas, relações ou padrões são gerados previamente • Armazenados numa base de dados • Vantagem: rápida mineração • Desvantagem: memória e processamento gastos • De Raedt e Kramer (MolFea)
Teoria matemática dos grafos • Minera todas as categorias de subgrafos • Inokuchi et al (AGM), FSG(2001), gSpan(2002)
Função kernel • Define uma similaridade entre dois grafos • Muitas invariantes são coletadas • Delas criam-se os vetores característica • Quando a dimensão é muito grande aplica-se uma função kernel • Não é computada eficientemente
Mineração visual em grafos minha visão Como o grafo é uma estrutura com informações topológicas, o pensamento de visualização ocorre quase que imediatamente. Com o estudo da mineração em grafos bem fundamentada, a tendência será voltar as atenções para as formas de visualizações.
Conclusões É uma área que está em franco desenvolvimento, pois está claro que as técnicas têm sofrido grandes melhoras em pouco tempo. Além disso, muitos dados de problemas reais podem ser facilmente mapeados em grafos, principalmente em química e biologia. E o que antes era impossível devido as limitações de memória e processamento, hoje já não é mais.
Bibliografia • Takashi Washio and Hiroshi Motoda et al. State of the art of graph-based data mining. SIGKDD Explor. Newsl., 5(1):59–68, 2003. • Xifeng Yan and Jiawei Han et al. gspan: Graph-based substructure pattern mining. In ICDM’02: 2nd IEEE Conf. Data Mining, 2002.