Adaptive Joins in Federated Queries on Linked Data

Junções Adaptativas em consultas Federadas sobre Linked Data Macedo Maia Vânia Vidal, José Maria Monteiro, Fabio Porto, Ana Maria e Regis Pires

Sumário • Motivação; • Problema; • Contexto; • Solução Proposta; • Contribuições; • Cenário de Testes; • Conclusões.

A Web como a conhecemos!

Motivação • As práticas de Linked Data tem impulsionado a publicação de dados na Web; • Linked Data é um conjunto de boas práticas para publicar, consumir e integrar dados estruturados na Web de Dados; • No padrão Linked Data, cada fragmento de dado no formato de triplas RDF descreve a si mesmo e suas relações, com outros fragmentos de dados de forma descentralizada; • Para consultar dados de repositórios de triplas RDF, usa-se a linguagem SPARQL.

Motivação

Introdução –LOD Datasets 2007

Introdução – LOD Datasets 2009

Introdução – LOD Datasets 2011

Problema • O processamento de consultas federadas em Linked Data envolve diversos desafios: • Desempenho das consultas; • Imprevisibilidade do ambiente; • Grande volume de dados; • Ausência de informações estatísticas e históricas. • Neste contexto, a realização de operações de junção, de maneira eficiente, configura-se em um problema relevante e em aberto;

Contexto • Processamento de consultas em sistemas de integração linked-data; • Integração de fontes de dados em Linked Data; • Ex: DrugBank, Diseasome, DBpedia; • Sistemas de integração; • Ex: FedX, DARQ, Jena, Sesame,QEF

Solução Proposta • Estratégias (algoritmos) de junções adaptativas para ambientes Linked Data; • Geração de estatísticas e históricos sobre as fontes; • Monitoramento de atividades: • Checar periodicamente a disponibilidade das fontes e às atividades realizadas durante a execução. • Tratar restrições nos tipos de consultas submetidas.

Solução Proposta - Arquitetura

Soluçao Proposta - Componentes • Translator • Traduz as consultas SPARQL para o QEP(Query Execution Plan) correspondente. • Executor • Executa o QEP e retorna os resultados. • Monitor • Monitora as atividades do ambiente federado durante a execução.

Contribuições • Front-end que recebe a consulta do Usuário • O usuário escreve a consulta SPARQL de maneira intuitiva; • Depois de validada, a mesma é transformada em um QEP; • Depois de terminadas as consultas, envia o resultado da consulta para a interface.

Contribuições • Operador de Controle: • Baseado no Eddies; • Re-ordena constantemente os operadores de um plano para se adaptar às variações que podem ocorrer nos dados durante a execução; • Realiza a leitura dos dados das fontes e determina um roteamento para cada tupla segundo as informações observadas (i.e. seletividade de cada operador);

Contribuições • Arquitetura do Eddies: Project Eddy S T R S R T S

Contribuições • Arquitetura do Eddies: BufferOut Buffer RS Buffer ST R S T

Contribuições • Framework para integração de dados do PELD com o DBPedia • Dados PELD são triplificados a partir do modelo Relacional; • Parte dos dados são Materializados; • Permite ligações com o DBPedia através do predicado SameAs.

Cenário de Testes • Testes e Resultados da análise das consultas: • Domínios: • Fontes de dados sobre Lifescience(PELD, Diseasome, Drugbank, Sider, DBPEDIA); • Comparação com outros ambientes: • QEF, Fedx,Jena, Darq;

Cenário de Testes • Diagrama do PELD: Plankton Taxon & Region Catfish Fish DBPedia

Cenário de Testes • Diagrama dos Datasets D&D: Dailymed DBPedia Drugbank Diseasome Sider

Conclusão • Nóspropomosumasoluçãopara a implementação de junçõesadaptativasemconsultasfederadas; • O algoritmos de junçãoadaptativa se ajustarádinamicamenteem tempo de execução, seminterromper a transmissão dos dados do endpoint SPARQL para o ambiente de execução; • A adaptaçãodaconsulta é baseadaemestatísticasquesãocoletadasem tempo de execução.

Referências • Avnur, R. and Hellerstein, J. M. (2000). Eddies: Continuously adaptive query processing. In SIGMOD Conference, pages 261–272. • Porto, F., Tajmouati, O., Da Silva, V. F. V., Schulze, B., and Ayres, F. V. M. (2007). Qef - supporting complex query applications. In Proceedings of the Seventh IEEE International Symposium on Cluster Computing and the Grid, CCGRID ’07, pages 846–851, Washington, DC, USA. IEEE Computer Society. • Pinheiro, J. C. (2011). Processamento de consulta de um framework baseado em mediador para integração de dados no padrão de Linked Data. PhD thesis, Universidade Federal do Ceará.

Obrigado! Perguntas, comentáriosousugestões? Macedo Maia macedomaia@lia.ufc.br

Adaptive Joins in Federated Queries on Linked Data