Multilayer Failure Detection Method for Network Services Using Distributed Components

Multilayer Failure Detection Method for Network Services Based on DistributedComponents Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami, Shinji Kikuchi, Satoshi Tsuchiya, Atsuji Sekiguchi, Tsuneo Katsuyama Department of Information Networking, Osaka University, JAPAN Department of Computer Science and Intelligent Systems, Osaka Prefecture University, JAPAN Fujitsu Laboratories Limited, JAPAN Apresentação: Adriano da Luz

Definições • Componente: É uma aplicação que pode ser usada em conjunto com outras para fornecer um serviço • Os componentes podem ser distribuídos para aumentar a escalabilidade do serviço oferecido • Quando um componente falha, outro com mesma função pode substituí-lo

Proposta • Detectar falhas em uma rede baseada em componentes distribuídos • Tipos de falhas: • Falha de software do componente • Falha de hardware do nodo • Falha na estrutura física da rede

Motivações • É estimado que 75% do tempo para a recuperação de uma falha na camada de aplicação é gasto somente para encontrar a falha • Recuperação de falhas na camada física é muito demorada • É difícil fazer detecção de falhas em múltiplas camadas

Modelo

Gerência • Feita por redes overlay onde os componentes trocam informações

Modelo • Um componente troca mensagens do tipo keep-alive com seus vizinhos periodicamente • Quando um componente não recebe resposta de um vizinho ele inicia o método de detecção de falhas • O nodo que invoca o método é chamado de nodo base • O nodo suspeito de falha é chamado de nodo alvo • A resposta a uma mensagem enviada a um vizinho é chamada de response information • A verificação desta resposta é chamada de operation check

Modelo • Cada nodo possui um ID global e conhece o ID de todos os nodos que podem ser alcançados com 2 saltos

Funcionamento • O nodo base envia uma mensagem requisitando um operation check em todos os componentes do nodo alvo. Esta mensagem é enviada para a cada componente que é vizinho aos componentes do nodo alvo. Esta mensagem se chama Request for response message (RRM) • Um nodo que está na rota de passagem da RRM é chamado de relay node

Funcionamento

Falha no componente • É detectado uma falha em um componente quando o nodo base recebe resposta de um componente rodando no nodo alvo mas não recebe resposta de outro componente rodando no mesmo nodo alvo

Falha no nodo • É detectado quando não há resposta de nenhum componente no nodo • Consequentemente não há respostas em nenhuma rota da RRM

Falha na rede • É detectado quando as respostas em duas rotas de RRM são contraditórias para um mesmo componente são contraditórias

Validação do modelo • Criado uma simulação para comparar este modelo com outros modelos já existentes São comparados o número de mensagens trocadas em cada modelo e a eficiência de cada modelo em redes pequenas médias e grandes

Conclusão • Este modelo funciona apenas para casos simples. Casos mais complexos como falhas em mais de um nodo simultaneamente não são tratados • Em comparação com outros métodos ele apresenta melhor escalabilidade

Multilayer Failure Detection Method for Network Services Using Distributed Components