1 / 17

Multilayer Failure Detection Method for Network Services Based on Distributed Components

Multilayer Failure Detection Method for Network Services Based on Distributed Components. Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami, Shinji Kikuchi, Satoshi Tsuchiya, Atsuji Sekiguchi, Tsuneo Katsuyama Department of Information Networking, Osaka University, JAPAN

fox
Download Presentation

Multilayer Failure Detection Method for Network Services Based on Distributed Components

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multilayer Failure Detection Method for Network Services Based on DistributedComponents Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami, Shinji Kikuchi, Satoshi Tsuchiya, Atsuji Sekiguchi, Tsuneo Katsuyama Department of Information Networking, Osaka University, JAPAN Department of Computer Science and Intelligent Systems, Osaka Prefecture University, JAPAN Fujitsu Laboratories Limited, JAPAN Apresentação: Adriano da Luz

  2. Definições • Componente: É uma aplicação que pode ser usada em conjunto com outras para fornecer um serviço • Os componentes podem ser distribuídos para aumentar a escalabilidade do serviço oferecido • Quando um componente falha, outro com mesma função pode substituí-lo

  3. Proposta • Detectar falhas em uma rede baseada em componentes distribuídos • Tipos de falhas: • Falha de software do componente • Falha de hardware do nodo • Falha na estrutura física da rede

  4. Motivações • É estimado que 75% do tempo para a recuperação de uma falha na camada de aplicação é gasto somente para encontrar a falha • Recuperação de falhas na camada física é muito demorada • É difícil fazer detecção de falhas em múltiplas camadas

  5. Modelo

  6. Gerência • Feita por redes overlay onde os componentes trocam informações

  7. Modelo • Um componente troca mensagens do tipo keep-alive com seus vizinhos periodicamente • Quando um componente não recebe resposta de um vizinho ele inicia o método de detecção de falhas • O nodo que invoca o método é chamado de nodo base • O nodo suspeito de falha é chamado de nodo alvo • A resposta a uma mensagem enviada a um vizinho é chamada de response information • A verificação desta resposta é chamada de operation check

  8. Modelo • Cada nodo possui um ID global e conhece o ID de todos os nodos que podem ser alcançados com 2 saltos

  9. Funcionamento • O nodo base envia uma mensagem requisitando um operation check em todos os componentes do nodo alvo. Esta mensagem é enviada para a cada componente que é vizinho aos componentes do nodo alvo. Esta mensagem se chama Request for response message (RRM) • Um nodo que está na rota de passagem da RRM é chamado de relay node

  10. Funcionamento

  11. Funcionamento

  12. Funcionamento

  13. Falha no componente • É detectado uma falha em um componente quando o nodo base recebe resposta de um componente rodando no nodo alvo mas não recebe resposta de outro componente rodando no mesmo nodo alvo

  14. Falha no nodo • É detectado quando não há resposta de nenhum componente no nodo • Consequentemente não há respostas em nenhuma rota da RRM

  15. Falha na rede • É detectado quando as respostas em duas rotas de RRM são contraditórias para um mesmo componente são contraditórias

  16. Validação do modelo • Criado uma simulação para comparar este modelo com outros modelos já existentes São comparados o número de mensagens trocadas em cada modelo e a eficiência de cada modelo em redes pequenas médias e grandes

  17. Conclusão • Este modelo funciona apenas para casos simples. Casos mais complexos como falhas em mais de um nodo simultaneamente não são tratados • Em comparação com outros métodos ele apresenta melhor escalabilidade

More Related