1 / 19

CCT OPS SIL : Supervision des segments sols, 12 Mai 2011

CCT OPS

carolyn
Download Presentation

CCT OPS SIL : Supervision des segments sols, 12 Mai 2011

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. CCT OPS & SIL : Supervision des segments sols, 12 Mai 2011

    2. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 2 SOMMAIRE Historique Caractéristiques principales de centres de traitement Fonctions de la supervision Architecture d’un moteur d’orchestration Le projet PHOEBUS Retour d’expérience et recommandations

    3. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 3 Historique … Origine : segments sols de traitement d’images optiques 1998 : Spécifications du SD SPOT5 Supervision du centre bien adapté et apprécié (nombreux centres en opération) Développé par MS&I (…Cassidian) et réutilisé sur segment sol Hélios => CNES non propriétaire des sources 2004 : Spécifications de la chaine image Pléiades : IPU (Image Processing Unit) Retour expérience de la supervision SD SPOT5 Nouvelles technos (e.g. web services) et basé sur des open sources Réutilisable pour d’autre projets CNES => composant indépendant Prise en compte d’exigences Pléiades : défense, niveau urgent + services communs Gestion des droits d’accès (PHR_Access Rights) : interfaces LDAP/ Kerberos Echanges entre centres (GIDE) Consultation des journaux de bord (Chainsaw) Dictionnaire commun avec les autres chaînes Solution développée par Thalès encore plus performante, souple et configurable que les besoins spécifiés Produit ‘Zeus’ rapidement opérationnel Prototypage avec les utilisateurs : outil apprécié pour son ergonomie Outil puissant mais complexe 2006 à 2008 : D’autres specs de centres de traitement de données avec des besoins similaires Venus, GPP Sentinel-2, SMOS Sep 2008 : Réutilisation par Thalès pour le segment sol scientifique GAIA 2010-2011 Etude Supervision Générique pour les besoins des projets en cours/futurs PDGS Sentinel-2, CFOSAT, CSO-SSU => Produit PHOEBUS « Processing High Level Orchestration Engine & Business User Services »

    4. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 4 Planning de quelques centres développés par PS/TIS …

    5. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 5 Centres principalement de type « data-driven » Dès que la télémesure est acquise par la station, elle doit être inventoriée et les données archivées et cataloguées Production auto sur réception de fichiers de commandes des utilisateurs Diffusion des produits sur media/réseau Fortes contraintes de performance (volumes et temps de traitement ) Retour de boucle Programmation / Catalogue PHR en NRT (1h après passage) Traitements Urgents PHR (inventaire + production en moins de 1h après vidage TMI) GAIA : Traitement systématique de 100 Millions d’objets tous les 6 mois => Dimensionnement adaptable au centre Traitements automatiques 24h/24, 7j/7 avec opérateurs en heures ouvrées et minimisation actions manuelles Forte fiabilité/disponibilité (99,2% pour Pléiades) Centres parfois en plusieurs exemplaires et pas toujours exploités au CNES Enchaînements complexes de tâches définies au travers de ‘workflows’ 1 produit image ? 1 workflow Suivi en temps réel de toutes les tâches MAIS aussi des traitements manuels : imports/exports, re-traitements, expertises, changements de priorités, reconfigurations IHM opérateurs & experts Pendant la phase de développement jusqu’à mise en exploitation (3 à 6 ans): Intégration fréquente de nouvelles versions de chaînes de traitement Outils d’expertise et debug indispensables Besoin d’une version de validation du système Besoin de standardiser l’intégration de chaînes Caractéristiques principales des segments sols

    6. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 6 Adaptation à des configurations très différentes Le dimensionnement d’un centre est chaque fois spécifique mais toujours en forte augmentation / missions précédentes: Traitement de 2 à 10 passages par jour variant de 1mn à 8mn de TMI Traitement de 8 GO à 300 Go de TMI à traiter /jour => volumes de données de plus en plus conséquents (*10 tous les 10 ans) Délais de mise à disposition des produits de plus en plus courts 40mn pour ortho-image, 160mn pour une mosaïque PHR Exécution d’une chaîne peut aller de quelques minutes (inventaire urgent) à plusieurs heures, plusieurs jours pour Gaia Nombre de traitements par jour De 40 à 330 productions /jour (nombre max toujours en augmentation) pour Pléiades soit 60 000 processus LAI exécutés /jour Pour une chaîne le nb de processus mis en exécution (ie : mosaïque) peut atteindre plusieurs milliers (2000 à 3000), Plateformes cibles composées de 7 à 52 nœuds de calcul pour PHR, 150 nœuds pour Gaia => 416 cores (ou 416 traitements exécutés en //) pour PHR => 1200 pour Gaia Archivage STAF / Robotique RIMAGE/ Disque 24 To de stockage en ligne et jusque 560 Go archivés au STAF par jour pour PHR => 150To /an (1,5 Po en 10 ans) => parallélisation indispensable avec optimisation des ressources en dynamique Indépendance vis-à-vis de la plateforme cible: tout traitement doit pouvoir s’exécuter sur n’importe quel serveur (pas de logiciel installé sur les serveurs mais sur un SAN) Paramétrisation importante / difficulté de mettre au point les configurations de chaque centre

    7. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 7 Fonctions majeures de la supervision En amont : Description des workflows Installation , administration, Configuration Chef d’orchestre du système ou « Moteur d’Orchestration » Gestion des évènements déclencheurs Pilotage et surveillance en temps réel de tous les traitements Surveillance des ressources matérielles Gérer l’exécution des traitements => Intègre un « moteur de workflow » Supervision : unique interface des utilisateurs avec le système IHM multiposte Séparation entre Structure d’accueil et traitements développés par ailleurs : labos / Algos génériques t.q. LAI Pléiades

    8. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 8

    9. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 9

    10. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 10 Moyens de description des workflows langage standardisé XML (e.g. BPEL, XPDL) conformité aux ControlFlow patterns du WfMC (Workflow Management Coalition): séquence, Parallel split, synchronisation, choice, Simple merge, loop, 3 patterns de multiple instances (parallélisation d’exécution), Cancel Task, Cancel Workflow rajout d’un workflow par configuration

    11. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 11 Description de workflow (suite) Une étape peut être implémentée soit : par un web service, par un/des processus UNIX de traitement, par l’invocation d’une interface propriétaire d’un sous-système externe (ie : STAF, SEM, SEF, …). Fichiers de configuration pour chaque plan de travail : place disque nécessaire, priorité d’exécution , infos d’avancement, traitements sur les données générées Phoebus orchestre des web services qui implémentent des traitements algorithmiques ou des services de gestion de données (i.e. : archive, catalogue,…). Il intègre un serveur web "générique"  (Mars) d'exécution de traitements algorithmique implémentés par des processus conformes soit aux interfaces CNES ou ESA (JobOrder).

    12. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 12

    13. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 13 Le moteur de workflow Mise en exécution des workflows : automatique (réception fichier / périodique / web service / plan opérationnel) manuelle via une IHM gestion de la priorité (mode super-prioritaire) gestion du load-balancing Adaptation à des architectures centralisées ou réparties Gérer la complexité des enchainements de tâches déclencher automatiquement un enchaînement séquentiel de plans de travail.

    14. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 14 Job Management mise en exécution des exe sur une ferme / cluster banalisé / hétérogène en fonction : de la puissance de calcul / RAM nécessaire de la version de l’OS, du niveau de parallélisation requis (plusieurs instances en //) Serveur DRM (Distributed Resources Management) => Torque/Maui Gestion de l’exécution des processus

    15. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 15 Surveiller le bon fonctionnement du système IHM de suivi du déroulement des traitements automatiques => Avancement au niveau chaîne et au niveau étape de traitement (voir slide suivant) IHM de surveillance des ressources matérielles Occupation des ressources états et paramètres: occupation disque, mémoire, détection des indisponibilités, dépassement des seuils M&C des sous-systèmes intégrés Arrêt/démarrage/ suivi état

    16. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 16

    17. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 17 Actions de contrôle sur les traitements IHM opérateur : Déclenchement de filières manuelles de re-traitement de TMI sur une plage de temps pour prendre en compte: une nouvelle version de code corrigeant des anomalies bord ou sol de nouveaux paramètres système Perte de donnée Production à la demande pour: une commande urgente tester une nouvelle version Importer/exporter des données vers un autre centre Quelques opérations manuelles à insérer comme une étape: Contrôle d’image finale Vérification et reprise de masque de couverture nuageuse Des actions opérateur pour des échanges de données Montage/démontage de média pour imports/exports Chargement de robot média vierges Interventions en cas d’anomalies Contrôle de l’exécution des traitements : arrêt, reprise, re-planification, annulation Déclenchement de workflow d’expertise Mode debug pas à pas, points de reprise Outils d’Investigation d’anomalies bord ou sol Récupération de logs ou CR d’exécution de traitements terminés IHM de contrôle pour des utilisateurs ‘experts’ IHM permettant d’alerter l’utilisateur (actions, Logs, Rapports)

    18. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 18 Le projet Phoebus Lot A (2010) : Etude Lot A1 (06-07/2010): Définir une terminologie unique Déterminer les besoins fonctionnels d’un système de Supervision => rapport disponible : exigences d’un Phoebus ‘complet’ Lot A2 (08-09/2010): Etude des Standards => rapport disponible et riche => à analyser Lot A3 (09-10/2010): Evaluation des évolutions de la Supervision Réutilisable IPU => rapport disponible => priorisation LOT B (2011): Réalisation Version Phoebus V1 livrée mi-juin 2011 Améliorer, simplifier et automatiser l’installation et la configuration L’outillage : IzPack IHM de configuration => Eclipse/RCP Améliorer le processus de génération : Maven Rendre indépendant de l’architecture : intégration de la souche du composant Mars développé pour le projet GAIA pour éxécution des processus via le DRM Torque-Maui Intégration architecture NAS Intégration de l’interface ESA Task Table et JobOrder

    19. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 19 Réalisation Phoebus (Lot B suite) Intégration de l’interface ESA (cf. IPF Guidelines) Task Table et JobOrder (V1) 1 Task Table correspond à un step de workflow = entité autonome d’exécution Réalisation d’un convertisseur qui transforme le format XPDL/Task Table dans le format des fichiers gérés par le Moteur d’Orchestration (graphe, step, dynamic parameters, ….) Intégration d’une chaine VENUS Evolutions pour V2 fin 2011 encore à définir : remplacement Chainsaw ? Standardisation des logs IHM de suivi de lots de traitements sur plusieurs jours ? Déclenchements complexe sur plusieurs conditions ? Autres versions en 2012 rétrofits issus de Gaia : début 2012 implémentation de plans d’opérations non génériques pour production par lots) IHM de surveillance Torque/Maui Reprise étape en erreur lorsque parallélisée Rétrofits issus du dév PDGS Sentinel2 IHM Web Déclenchement par socket (traitement flux télémesure) et webservices au standard HMA Outils de test et intégration d’algos

    20. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 20 Retour d’expérience et Recommandations Internationalisation : coûte cher si trop tard Prototypage IHM et ergonomie: tout écrire, rien ne peut être considéré comme standard de fait Besoin d’unifier la terminologie (voir rapport lot A1) Besoin de standardiser le format et le contenu des messages de log et d’un outil de consultation ‘ergonomique’ => Nécessité de spécifier les logs de manière détaillée dans les STB ou par sessions de prototypage Gain de temps important sur l’intégration d’algos grâce à une standardisation des interfaces (voir ESA IPF Guidelines, interfaces LAI Pléiades) Spécifier un produit réutilisable n’est pas suffisant et difficulté de spécifier un produit générique. Le produit Phoebus est modulaire, configurable, inter-opérable, générique outil prometteur avec des possibilités d’évolution importantes Prêt pour des démos à partir de juin

More Related