E N D
1. CCT OPS & SIL : Supervision des segments sols, 12 Mai 2011
2. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 2 SOMMAIRE Historique
Caractéristiques principales de centres de traitement
Fonctions de la supervision
Architecture d’un moteur d’orchestration
Le projet PHOEBUS
Retour d’expérience et recommandations
3. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 3 Historique … Origine : segments sols de traitement d’images optiques
1998 : Spécifications du SD SPOT5
Supervision du centre bien adapté et apprécié (nombreux centres en opération)
Développé par MS&I (…Cassidian) et réutilisé sur segment sol Hélios => CNES non propriétaire des sources
2004 : Spécifications de la chaine image Pléiades : IPU (Image Processing Unit)
Retour expérience de la supervision SD SPOT5
Nouvelles technos (e.g. web services) et basé sur des open sources
Réutilisable pour d’autre projets CNES => composant indépendant
Prise en compte d’exigences Pléiades : défense, niveau urgent + services communs
Gestion des droits d’accès (PHR_Access Rights) : interfaces LDAP/ Kerberos
Echanges entre centres (GIDE)
Consultation des journaux de bord (Chainsaw)
Dictionnaire commun avec les autres chaînes
Solution développée par Thalès encore plus performante, souple et configurable que les besoins spécifiés
Produit ‘Zeus’ rapidement opérationnel
Prototypage avec les utilisateurs : outil apprécié pour son ergonomie
Outil puissant mais complexe
2006 à 2008 : D’autres specs de centres de traitement de données avec des besoins similaires
Venus, GPP Sentinel-2, SMOS
Sep 2008 : Réutilisation par Thalès pour le segment sol scientifique GAIA
2010-2011 Etude Supervision Générique pour les besoins des projets en cours/futurs
PDGS Sentinel-2, CFOSAT, CSO-SSU
=> Produit PHOEBUS « Processing High Level Orchestration Engine & Business User Services »
4. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 4 Planning de quelques centres développés par PS/TIS …
5. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 5 Centres principalement de type « data-driven »
Dès que la télémesure est acquise par la station, elle doit être inventoriée et les données archivées et cataloguées
Production auto sur réception de fichiers de commandes des utilisateurs
Diffusion des produits sur media/réseau
Fortes contraintes de performance (volumes et temps de traitement )
Retour de boucle Programmation / Catalogue PHR en NRT (1h après passage)
Traitements Urgents PHR (inventaire + production en moins de 1h après vidage TMI)
GAIA : Traitement systématique de 100 Millions d’objets tous les 6 mois
=> Dimensionnement adaptable au centre
Traitements automatiques 24h/24, 7j/7 avec opérateurs en heures ouvrées et minimisation actions manuelles
Forte fiabilité/disponibilité (99,2% pour Pléiades)
Centres parfois en plusieurs exemplaires et pas toujours exploités au CNES
Enchaînements complexes de tâches définies au travers de ‘workflows’
1 produit image ? 1 workflow
Suivi en temps réel de toutes les tâches
MAIS aussi
des traitements manuels : imports/exports, re-traitements, expertises, changements de priorités, reconfigurations
IHM opérateurs & experts
Pendant la phase de développement jusqu’à mise en exploitation (3 à 6 ans): Intégration fréquente de nouvelles versions de chaînes de traitement
Outils d’expertise et debug indispensables
Besoin d’une version de validation du système
Besoin de standardiser l’intégration de chaînes
Caractéristiques principales des segments sols
6. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 6 Adaptation à des configurations très différentes
Le dimensionnement d’un centre est chaque fois spécifique mais toujours en forte augmentation / missions précédentes:
Traitement de 2 à 10 passages par jour variant de 1mn à 8mn de TMI
Traitement de 8 GO à 300 Go de TMI à traiter /jour
=> volumes de données de plus en plus conséquents (*10 tous les 10 ans)
Délais de mise à disposition des produits de plus en plus courts
40mn pour ortho-image, 160mn pour une mosaïque PHR
Exécution d’une chaîne peut aller de quelques minutes (inventaire urgent) à plusieurs heures, plusieurs jours pour Gaia
Nombre de traitements par jour
De 40 à 330 productions /jour (nombre max toujours en augmentation) pour Pléiades soit 60 000 processus LAI exécutés /jour
Pour une chaîne le nb de processus mis en exécution (ie : mosaïque) peut atteindre plusieurs milliers (2000 à 3000),
Plateformes cibles composées de 7 à 52 nœuds de calcul pour PHR, 150 nœuds pour Gaia
=> 416 cores (ou 416 traitements exécutés en //) pour PHR => 1200 pour Gaia
Archivage STAF / Robotique RIMAGE/ Disque
24 To de stockage en ligne et jusque 560 Go archivés au STAF par jour pour PHR
=> 150To /an (1,5 Po en 10 ans)
=> parallélisation indispensable avec optimisation des ressources en dynamique
Indépendance vis-à-vis de la plateforme cible: tout traitement doit pouvoir s’exécuter sur n’importe quel serveur (pas de logiciel installé sur les serveurs mais sur un SAN)
Paramétrisation importante / difficulté de mettre au point les configurations de chaque centre
7. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 7 Fonctions majeures de la supervision En amont :
Description des workflows
Installation , administration,
Configuration
Chef d’orchestre du système ou « Moteur d’Orchestration »
Gestion des évènements déclencheurs
Pilotage et surveillance en temps réel de tous les traitements
Surveillance des ressources matérielles
Gérer l’exécution des traitements
=> Intègre un « moteur de workflow »
Supervision : unique interface des utilisateurs avec le système
IHM multiposte
Séparation entre Structure d’accueil et traitements développés par ailleurs : labos / Algos génériques t.q. LAI Pléiades
8. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 8
9. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 9
10. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 10 Moyens de description des workflows langage standardisé XML (e.g. BPEL, XPDL)
conformité aux ControlFlow patterns du WfMC (Workflow Management Coalition): séquence, Parallel split, synchronisation, choice, Simple merge, loop, 3 patterns de multiple instances (parallélisation d’exécution), Cancel Task, Cancel Workflow
rajout d’un workflow par configuration
11. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 11 Description de workflow (suite) Une étape peut être implémentée soit :
par un web service,
par un/des processus UNIX de traitement,
par l’invocation d’une interface propriétaire d’un sous-système externe (ie : STAF, SEM, SEF, …).
Fichiers de configuration pour chaque plan de travail : place disque nécessaire, priorité d’exécution , infos d’avancement, traitements sur les données générées
Phoebus orchestre des web services qui implémentent des traitements algorithmiques ou des services de gestion de données (i.e. : archive, catalogue,…).
Il intègre un serveur web "générique" (Mars) d'exécution de traitements algorithmique implémentés par des processus conformes soit aux interfaces CNES ou ESA (JobOrder).
12. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 12
13. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 13 Le moteur de workflow Mise en exécution des workflows :
automatique (réception fichier / périodique / web service / plan opérationnel)
manuelle via une IHM
gestion de la priorité (mode super-prioritaire)
gestion du load-balancing
Adaptation à des architectures centralisées ou réparties
Gérer la complexité des enchainements de tâches
déclencher automatiquement un enchaînement séquentiel de plans de travail.
14. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 14 Job Management
mise en exécution des exe sur une ferme / cluster banalisé / hétérogène en fonction :
de la puissance de calcul / RAM nécessaire
de la version de l’OS,
du niveau de parallélisation requis (plusieurs instances en //)
Serveur DRM (Distributed Resources Management) => Torque/Maui
Gestion de l’exécution des processus
15. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 15 Surveiller le bon fonctionnement du système IHM de suivi du déroulement des traitements automatiques
=> Avancement au niveau chaîne
et au niveau étape de traitement
(voir slide suivant)
IHM de surveillance des ressources matérielles
Occupation des ressources
états et paramètres: occupation disque, mémoire, détection des indisponibilités, dépassement des seuils
M&C des sous-systèmes intégrés
Arrêt/démarrage/ suivi état
16. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 16
17. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 17 Actions de contrôle sur les traitements IHM opérateur :
Déclenchement de filières manuelles de re-traitement de TMI sur une plage de temps pour prendre en compte:
une nouvelle version de code corrigeant des anomalies bord ou sol
de nouveaux paramètres système
Perte de donnée
Production à la demande pour:
une commande urgente
tester une nouvelle version
Importer/exporter des données vers un autre centre
Quelques opérations manuelles à insérer comme une étape:
Contrôle d’image finale
Vérification et reprise de masque de couverture nuageuse
Des actions opérateur pour des échanges de données
Montage/démontage de média pour imports/exports
Chargement de robot média vierges
Interventions en cas d’anomalies
Contrôle de l’exécution des traitements : arrêt, reprise, re-planification, annulation
Déclenchement de workflow d’expertise
Mode debug pas à pas, points de reprise
Outils d’Investigation d’anomalies bord ou sol
Récupération de logs ou CR d’exécution de traitements terminés
IHM de contrôle pour des utilisateurs ‘experts’
IHM permettant d’alerter l’utilisateur (actions, Logs, Rapports)
18. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 18 Le projet Phoebus Lot A (2010) : Etude
Lot A1 (06-07/2010): Définir une terminologie unique
Déterminer les besoins fonctionnels d’un système de Supervision
=> rapport disponible : exigences d’un Phoebus ‘complet’
Lot A2 (08-09/2010): Etude des Standards
=> rapport disponible et riche => à analyser
Lot A3 (09-10/2010): Evaluation des évolutions de la Supervision Réutilisable IPU
=> rapport disponible => priorisation
LOT B (2011): Réalisation
Version Phoebus V1 livrée mi-juin 2011
Améliorer, simplifier et automatiser l’installation et la configuration
L’outillage : IzPack
IHM de configuration
=> Eclipse/RCP
Améliorer le processus de génération : Maven
Rendre indépendant de l’architecture :
intégration de la souche du composant Mars développé pour le projet GAIA pour éxécution des processus via le DRM Torque-Maui
Intégration architecture NAS
Intégration de l’interface ESA Task Table et JobOrder
19. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 19 Réalisation Phoebus (Lot B suite) Intégration de l’interface ESA (cf. IPF Guidelines) Task Table et JobOrder (V1)
1 Task Table correspond à un step de workflow = entité autonome d’exécution
Réalisation d’un convertisseur qui transforme le format XPDL/Task Table dans le format des fichiers gérés par le Moteur d’Orchestration
(graphe, step, dynamic parameters, ….)
Intégration d’une chaine VENUS
Evolutions pour V2 fin 2011 encore à définir :
remplacement Chainsaw ? Standardisation des logs
IHM de suivi de lots de traitements sur plusieurs jours ?
Déclenchements complexe sur plusieurs conditions ?
Autres versions en 2012
rétrofits issus de Gaia : début 2012
implémentation de plans d’opérations non génériques pour production par lots)
IHM de surveillance Torque/Maui
Reprise étape en erreur lorsque parallélisée
Rétrofits issus du dév PDGS Sentinel2
IHM Web
Déclenchement par socket (traitement flux télémesure) et webservices au standard HMA
Outils de test et intégration d’algos
20. CCT OPS&SIL –Supervision des segments sols – 12/05/2011 20 Retour d’expérience et Recommandations Internationalisation : coûte cher si trop tard
Prototypage IHM et ergonomie: tout écrire, rien ne peut être considéré comme standard de fait
Besoin d’unifier la terminologie (voir rapport lot A1)
Besoin de standardiser le format et le contenu des messages de log et d’un outil de consultation ‘ergonomique’
=> Nécessité de spécifier les logs de manière détaillée dans les STB ou par sessions de prototypage
Gain de temps important sur l’intégration d’algos grâce à une standardisation des interfaces (voir ESA IPF Guidelines, interfaces LAI Pléiades)
Spécifier un produit réutilisable n’est pas suffisant et difficulté de spécifier un produit générique.
Le produit Phoebus est modulaire, configurable, inter-opérable, générique
outil prometteur avec des possibilités d’évolution importantes
Prêt pour des démos à partir de juin