1 / 51

Agenda

Agenda. Introduction Qu’est ce qu’un cluster distribué ? Mise en œuvre Considérations de stockage Considérations de réseaux Type de quorum Questions & Réponses. Construire les contrats de service. Réduire la perception de l'indisponibilité pour les utilisateurs

neva
Download Presentation

Agenda

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Agenda • Introduction • Qu’est ce qu’un cluster distribué ? • Mise en œuvre • Considérations de stockage • Considérations de réseaux • Type de quorum • Questions & Réponses

  2. Construire les contrats de service • Réduire la perception de l'indisponibilité pour les utilisateurs • Dialogue entre des responsables infrastructures et les clients internes • Démarche application par application • Quelle est la Qualité de Service attendue par les utilisateurs ? • Combien d'utilisateurs utilisent-ils cette application ? • Est-il possible de chiffrer la perte d'une heure d'interruption de service ? • Quels sont les risques à couvrir en priorité ? • Quelle est la fréquence des pannes? • Quelles sont les ressources déjà en place et quel est le budget d'investissement disponible ?

  3. Recovery Point/Time Objectives RPO : Point de redémarrage Jours Heures Minutes Transactions Désastre Corruption des données Erreurs humaines Perte de serveurs Opérations de maintenance Pannes du stockage 99.9% 99.99% 99.999% 99.9999% 8.75h/an 52min/an 5.2min/an 32sec/an Causes des interruptions de service Coûts JoursHeures Minutes SecondesInstantané RTO : Temps de redémarrage

  4. Robustesse matérielle Objectif : NON STOP • Agir sur les risques, en amont • Construire un ensemble cohérent • Disposer de ressources garanties avec une capacité de montée en charge • Isoler les applications entre-elles • Éliminer les Single Point Of Failure • Données, application, frontaux, clients • Redondance des composants • Connectivités Power, LAN et SAN • Serveurs redondants • Baie de stockage (contrôleurs, RAID …) • Garantir la production et la stabilité

  5. t2 t0 T1 Sauvegarde et restauration • Le principal enjeu est la restauration • Qualité et rapidité de la restauration • Protection multiple des données, protection des copies • Capacité de reprise sur erreur humaine • Utilisation des sauvegardes pour alimenterd’autres plateformes (assurance qualité) • Selon les besoins, technologies complémentaires • Snapshot (basé sur VSS) • System Center Data Protection Manager • Tierce partie : éditeur ou constructeur • Snapshot • Snapclone (copie complète) • Orchestration via VSS (Volume Shadow copy Services) tape lib t

  6. Qu’est-ce qu’un cluster distribué ?

  7. Bénéfices du service de Cluster • Disponibilité • Surveille l’état des applications ou/et services • Permet aux applications ou/et services de basculer automatiquement et de redémarrer à froid (le contenu de la mémoire n’est pas préservé) • Équilibrage de charge statique • Evolutivité • Possibilité d’ajouter du matériel:Disque, CPU • Possibilité d’ajouter jusqu’à 16 serveurs • Administration • Permet d’administrer les nœuds comme une seule entité • Permet de mettre les ressources sur un autre nœud pour des raisons de maintenance

  8. Services clusterisables Les plus courants Hyper-V SQL Server Exchange Server Serveur de fichiers Serveur d’impression Tierces parties Différents rôles, ex : base de données Les autres MSMQ DTC DHCP DFS-Namespace NFS iSNS WINS Les génériques Application Générique Script Générique Service Générique

  9. Clustering aujourd’hui Client PCs Server A Server B SQL Server SQL Server Heartbeat SQL Server Cluster management Disk cabinet A Disk cabinet B

  10. Topologie Cluster PCs clients Réseau Public Réseau Privé Nœuds cluster FC avec chemin redondant Disques partagés

  11. Site A Simple Cluster LocalSimplifions l’exemple précédent Cluster traditionnel 2 nœuds Connecté à une baie de stockage partagée Même site physique Maisque se passe-t-ildans le casd’unecatastrophe ? Comme par exemple un feu…

  12. Site B Cluster Géographiquement Dispersé Séparons les nœuds Les applications basculent automatiquement sur un autre site physique Nœud sur un site physique distant Site A Replication des données

  13. Qu’est ce qu’un cluster distribué ? • Un cluster géographiquement dispersé ou cluster distribué est un cluster dont les nœuds qui le composent sont localisés sur différents sites physiques • Principaux scénarios d’implémentations : • Donner un accès local aux utilisateurs dispersés sur une grande zone géographique • Permet une continuité d’activité en cas de problèmes électriques ou de catastrophes naturelles par exemple

  14. Différencespar rapport à un Cluster simple • Le GéoCluster se différencie par les points suivants : • Multiple baies de stockage • Indépendantes sur chaque site • Les nœuds accèdent classiquement au stockage local sur leur site • Réplication des données entre les sites Site B Site A Les changements effectués sur le site A sont répliqués sur le site B Replica

  15. Avantages du cluster distribué • Basculement automatique • Réduit le temps d’indisponibilité • Moins complexe • Réduit la charge administrative associée • Synchronisation automatique des changements cluster et des applications • Plus facile de garder consistant par rapport à de simples serveurs (« non-clusterisés») • Supprime le facteur d’erreur humaine

  16. Mise en œuvreConsidérations de stockage

  17. Considérations StockageTopologie Site B Site A Mécanismes de réplication des données Replica Changements effectués sur le Site A et répliqués sur le Site B Mode Lecture/Ecriture Mode Lecture

  18. Considérations Stockage • Requiert un système de réplication de données • Matériel (niveau bloc) • Logiciel (niveau système de fichiers) • Application

  19. Considérations Stockage • Type de réplication synchrone ou asynchrone • Synchrone : si une application fait une opération sur un nœud d’un site, cette dernière ne sera pas complète tant que le changement n’est pas rejoué sur l’autre site. • Asynchrone : si les données sont modifiées sur un site, ce changement sera éventuellement reproduit sur l’autre site.

  20. Réplication des donnéesSynchrone • L’hôte reçoit la réponse du stockage comme quoi l'opération d‘écriture est complète une fois qu'elle a été propagée sur l'ensemble des stockages Replication WriteRequest SecondaryStorage WriteComplete PrimaryStorage Acknowledgement

  21. Réplication des donnéesAsynchrone • L’hôte reçoit la réponse du stockage comme quoi l'opération d‘écriture est complète une fois qu'elle a été propagée sur le premier stockage. Replication WriteRequest SecondaryStorage WriteComplete PrimaryStorage

  22. Synchrone vs. Asynchrone

  23. IP Address Resources* Network Name Resource Disk Resource Custom Resource Resource(s) liée(s) au stockage Groupe est l’Unité de bascule Resource Group Défini l’ordre de démarrage Workload Resource (example File Server) Assure la communication entre le nœud et le stockage local et vérifie son état Assure la communication entre le nœud et le stockage local et vérifie son état Assure que l'application est en ligne une fois la réplication terminée

  24. Validation cluster Avec un système de réplication • Les tests “Stockage” de l’outil de validation cluster sont désignés pour vérifier que le stockage est partagé • Les tests ne vont pas s’exécuter et vont afficher un avertissement sur le fait qu’aucun stockage partagé n’a été détecté • Il n’est pas nécessaire de passer les tests « Stockage » sur les clusters distribués pour être supportés Validation Guide and Policy: http://go.microsoft.com/fwlink/?LinkID=119949

  25. Mise en œuvreConsidérations de réseaux

  26. Site B Considérations RéseauxTopologie • Les nœuds d’un même cluster peuvent se trouver sur des sous-réseaux différents • Communications inter-nœuds possibles au travers des routeurs • Plus besoin de connecter les nœuds via des VLANs! Réseau public WAN Site A 20.20.20.1 10.10.10.1 30.30.30.1 40.40.40.1 WAN Réseau Séparé

  27. Adresse IP Ressource A Adresse IP Ressource B Ressource Nom Réseau Nouveau modèle de Dépendances • Nouveaux Objets pour filtrer les dépendances • Le Nom Réseau reste en ligne si la ressource adresse IP A ou B est en ligne • Auparavant, les deux ressources A et B devaient être en ligne pour que le nom réseau soit accessible par les utilisateurs • Cela permet la redondance des ressources et un impact réduit pour les applications et services clusterisés OU

  28. IP Address Resources A IP Address Resources B Network Name Resource Disk Resource Workload Resource (example, File Server) Dépendances des ressources OR Comes online on site A Comes online on site B

  29. Considérations DNS • Il y a des conséquences lorsque les nœuds sont sur des sous réseaux différents • La réplication DNS peut impacter le temps de reconnexion des clients DNS Server 2 DNS Server 1 DNS Replication Record Created Record Updated Record Obtained Record Updated 10.10.10.111 20.20.20.222 FS = 20.20.20.222 FS = 10.10.10.111 Site A Site B

  30. Solution 1 : VLAN Etendre un VLAN reste une option pour minimiser le temps de reconnexion client DNS Server 2 DNS Server 1 10.10.10.111 10.10.10.111 VLAN FS = 10.10.10.111 Site A Site B

  31. Solution 2 : Basculement site local de préférence Basculement local pour les temps d'arrêt planifiés et cross-basculement de site pour PRA DNS Server 2 DNS Server 1 10.10.10.111 Ajout de noeuds FS = 10.10.10.111 Site A Site B

  32. Solution 3 : Configurer les paramètres DNS • RegisterAllProvidersIP • Contrôle quelles adresses IP dépendantes sont enregistrées • HostRecordTTL • Contrôle la durée de vie de la ressource nom réseau • Exchange recommande une valeur de 5 minutes • Configurable via la ligne de commande : • Cluster res “Cluster Name” /priv

  33. Paramétrer la pulsation • Les communications inter-noeuds sont configurables dans Windows server 2008 • Cluster.exe /prop • SameSubnetDelay • Fréquence d’envoi de la pulsation, défaut : 1 seconde • CrossSubnetDelay • Fréquence d’envoi de la pulsation lorsque les nœuds sont sur des sous réseaux différents, défaut : 1 seconde • SameSubnetThreshold • Nombre de pulsation manquée avant de considérer qu’une interface est tombée, défaut : 5 pulsations • CrossSubnetThreshold • Nombre de pulsation manquée avant de considérer qu’une interface est tombée lorsque les nœuds sont sur des sous réseaux différents, défaut : 5 pulsations

  34. Considerations RéseauxRésumé • Quel sont les attentes/besoins métiers concernant le temps de bascule? • Reprise d’activité : • Les nœuds peuvent se trouver sur des sous réseaux différents pour plus de flexibilité • Haute disponibilité et reprise d’activité : • L’utilisation de VLAN peut être une solution pour réduire au minimum le temps d’indisponibilité • Quel est l’impact pour les clients lors de la bascule sur un autre site ? • Bascule locale avant bascule sur un autre site ?

  35. Mise en œuvreChoisir le bon modèle de quorum

  36. Considérations Quorum • Lorsque les nœuds perdent la communication entre eux, il est nécessaire d’avoir un mécanisme d’arbitrage qui détermine quels sont les nœuds qui restent en ligne et ceux qui ne sont plus membres du cluster. • Différents modèles de quorum : • Majorité de nœuds et un disque • Disque témoin • Majorité de nœuds • Majorité de nœuds et un partage

  37. Evolution des modèles de Quorum Disque témoin unique Majorité de nœuds et un disque témoin Majorité de nœuds Majorité de nœuds et un partage témoin • Nouveaux modèles de Quorum basés sur la notion de vote • Il existe 4 types de quorums Vote Vote Vote Vote Vote

  38. Majorité de nœuds et un disque • Modèle de quorum basé sur la majorité de nœuds et un disque • 3 voix au total, dont 2 nécessaires pour la majorité • Le cluster peut survivre à la perte de n’importequelle voix • Modèle non utilisé traditionnellement dans un cluster dispersé Vote Vote Vote Replicated Storage

  39. Majorité de noeuds • Seuls les noeuds ont une voix • Une voix par nœud (ici, 3). Pas de voix pour le stockage partagé • Majorité de voix nécessaire pour le fonctionnement du cluster • Déployé en nombre impair de nœuds Vote Vote Vote

  40. Site et Majorité de nœuds Est-ce que je peux communiquer avec la majorité des nœuds du cluster? Oui, donc je reste en ligne Est-ce que je peux communiquer avec la majorité des nœuds du cluster? Non, donc je me retire du cluster Cluster 5 nœuds: Majorité = 3 Site A Site B SAN SAN Perte de communication réseau entre les sites Majorité sur le site primaire

  41. Site et Majorité de nœuds Est-ce que je peux communiquer avec la majorité des nœuds du cluster ? Oui, donc je reste en ligne Cluster 5 nœuds: Majorité = 3 Entire site is down! Site A Site B SAN SAN Majorité sur le site primaire

  42. Site et Majorité de nœuds Est-ce que je peux communiquer avec la majorité des nœuds du cluster ? Non, donc je me retire du cluster Cluster 5 nœuds: Majorité = 3 Perte du site Demande de “forcer le quorum” manuellement Site A Site B SAN SAN Majorité sur le site primaire

  43. Majorité de nœuds et un partage • Permet d’avoir un cluster 2 nœuds sans disque partagé • Majorité de nœuds + un partage témoin • Meilleure solution pour les Clusters Géographiques • Le partage témoin peut être hébergé sur un 3eme site • Un serveur de fichiers peut servir de témoin pour de multiples clusters • Chaque cluster doit avoir son propre partage Vote Vote Vote Le partage est sur un serveur indépendant

  44. Majoritépartagetémoin Est-ce que je peux communiquer avec la majorité des nœuds du cluster (+FSW) ? Oui, donc je reste en ligne Site C Le partage est sur un serveur indépendant \\FSW\Cluster1 WAN Site A Site B SAN SAN Perte du site 5 Votes Cluster: Majorité = 3

  45. Majoritépartagetémoin Est-ce que je peux communiquer avec la majorité des nœuds du cluster (+FSW) ? Non (lock impossible), donc je me retire du cluster Est-ce que je peux communiquer avec la majorité des nœuds du cluster (+FSW) ? Oui, donc je reste en ligne Site C Le partage est sur un serveur indépendant \\FSW\Cluster1 WAN Site A Site B SAN SAN Connexion réseau intersite perdue 5 Votes Cluster: Majorité = 3

  46. Cluster distribuésur3 sites • Permet une bascule automatique en cas de perte d’un des sites principaux • Partage témoin : • Simple serveur de fichier Windows • Doit être dans la même forêt • Peut être localisé sur un 3ième site différent • Connecté à aucun stockage partagé • N’est pas un nœud du cluster • Utilisé pour accorder la voix nécessaire pour donner la majorité au site survivant • Un seul serveur de fichiers peut être utilisé pour de multiples cluster • Chaque cluster requiert son propre partage

  47. Modèle de QuorumRésumé • Choisir le bon modèle de quorum • Majorité de nœuds et un disque • Seulement si le fournisseur le demande • Uniquement un disque • Seulement si le fournisseur le demande • Majorité de nœuds • Utiliser si limité à 2 sites • Majorité de nœuds et un partage • Meilleure solution pour la disponibilité • Recommandé pour Echange 2007 CCR

  48. Q&A

  49. Multi-Site Clustering • Cluster Team Site : http://www.microsoft.com/windowsserver2008/en/us/failover-clustering-multisite.aspx • KB Article :Deployment Considerations for Windows Server 2008 failover cluster nodes on different, routed subnets • Webcast : TechNet Webcast: Geographically Dispersed Failover Clustering in Windows Server 2008 Enterprise • Webcast : How You Can Achieve Greater Availability with Failover Clustering Across Multiple Sites (Level 300)  • Whitepaper : Multi-site Clustering • Webcast : Multi-Site Clustering in Windows Server 2008 • Blog : http://blogs.msdn.com/clustering/

More Related