1 / 28

Il Progetto TIER1

Il Progetto TIER1. Federico Ruggieri INFN-CNAF Riunione della CSN I Perugia 11-12 Novembre 2002. Indice. Il Progetto Tier1 Tier1 e Tier2 INFN Interazioni con GRID Infrastrutture Risorse Personale Utilizzo Monitoring Console Remota Consumo potenza Conclusioni. Obiettivi.

Download Presentation

Il Progetto TIER1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Il Progetto TIER1 Federico Ruggieri INFN-CNAF Riunione della CSN I Perugia 11-12 Novembre 2002

  2. Indice • Il Progetto Tier1 • Tier1 e Tier2 INFN • Interazioni con GRID • Infrastrutture • Risorse • Personale • Utilizzo • Monitoring • Console Remota • Consumo potenza • Conclusioni Obiettivi Stato dell’arte Tecnologia

  3. Progetto Prototipo TIER1 • Obiettivi: • Costruzione e sperimentazione di un prototipo di Tier1 INFN unico per i 4 esperimenti LHC. • Ottimizzazione delle risorse. • Formazione di personale. • Rappresentatività verso gli altri Tier1 e verso il CERN. • Coordinamento con i Tier2 e fornitura di servizi ed attrezzature non replicabili o costose.

  4. Le Capacità Richieste • CERN (Somma di tutti gli esperimenti): • Mass Storage: 10 Peta Bytes (1015 B)/anno • disk: 2 PB • CPU: 20 MSPECint2000 • Per ogni Tier 1 Multi-esperimento : • Mass Storage: 1 - 3 PB/anno • disk: 1.5 PB • CPU: 10 MSPECint2000 • Networking Tier 0 (CERN) --> Tier 1:2 Gbps

  5. La GRID dei TIER per LHC

  6. Tier1 e Tier2 • La sperimentazione in LCG ha richiesto una esplicitazione delle risorse (hw ed umane) da mettere a disposizione per una GRID comune. • Il carattere prototipale dell’attuale fase I richiede un impegno di risorse supplementare rispetto a quello che il Tier1 ed i Tier2 sono abituati a fornire agli esperimenti. • Oltre al Tier1 al CNAF sono stati prospettati 3 candidati Tier2 Italiani (Alice, Atlas, CMS). • Altri Tier2 INFN sono disposti a partecipare, se non nell’attuale fase I, sicuramente nella fase II di LCG. • Alcuni siti sono “multi-esperimento” come il Tier1. Un obiettivo di medio e lungo termine potrebbe essere quello di “esportare” il modello Tier1 unico ad i Tier2, se questo dovesse rivelarsi adatto.

  7. Il Tier1 multiutenza • Attualmente vengono assegnate le risorse in maniera statica per periodi di tempo definiti. Questo non ottimizza l’uso delle risorse, nonostante i tempi di passaggio da una configurazione ad un’altra siano brevi (poche ore) se tutto è configurabile con RPM ed LCFG. • In prospettiva dovrebbe essere assegnato in maniera statica solo un massimo del 50% delle risorse e le altre dovrebbero essere accedute dinamicamente sulla base delle richieste in coda con opportune priorità. • GRID dovrebbe permettere un accesso trasparente ad entrambe le tipologie di risorse.

  8. Schema di uso risorse 100 SPARE CAPACITY (50%) ATLAS 50 ALICE ATLAS CMS LHCb VIRGO CDF BaBar Y Z

  9. Interazioni con GRID • Il Centro Regionale Tier1 è uno dei “nodi” principali della Grid Italiana, Europea e Mondiale. • Partecipa all’attività di GRID e fornisce risorse. • Il software sviluppato in Grid è di fondamentale importanza per i servizi che il CR dovrà fornire. • Il CR, insieme ai Tier2 INFN, partecipa alla fase prototipale di LCG ed alle sue attività.

  10. Infrastrutture • Sala Macchine: • Conclusa la gara per i Lavori (CD 7673) per 519 K€ circa (Essenzialmente Impianti Tecnologici). • L’aggiudicazione sarà approvata al C.D. del 29 Novembre p.v. ed i lavori inizieranno a Dicembre ‘02. • Si pensa di avere la sala pronta per fine Aprile 2003 (160 gg per contratto). • Gruppo Elettrogeno ed UPS: • Gara Terminata con proposta di aggiudicazione alla ditte SIGEM per 357.000 € IVA inclusa.

  11. Personale • Personale di ruolo: • Pietro Matteuzzi: (Responsabile Servizi di Calcolo del CNAF) • Luca Dell’Agnello: Sistemi Linux, File Systems, Sicurezza, Rete. • Stefano Zani: Storage e Rete • Massimo Cinque: Servizi Generali ed Approvigionamento. • Personale a Contratto: • Andrea Chierici: (Art.23) LCFG, Sistemistica, Site Man. GRID. • Andrea Collamati (Art.2222) Supporto SW Esp. (LHCb) • Donato De Girolamo (Art.2222) Allarmistica e Sicurezze. • Giuseppe Lo Re (Art.2222) CASTOR/Supporto SW Esp. (ALICE) • Barbara Martelli (Art. 2222) Sviluppo SW Generale e GRID. • Guido Negri (Art. 2222/ A.R.) Supporto SW Esp. (ATLAS) • Pier Paolo Ricci: (Art.23) Storage, Robotica e CASTOR. • Felice Rosso: (Art. 15) Monitoring ed LCFG.

  12. Personale (2) • Altro personale su attività collegate: • Alessandro Italiano: (Art.15) Robotica e Libreria, VideoConferenze, Site Manager GRID. • Massimo Donatelli: (Art.15) AFS, NFS, KERBEROS. • Nuovo Personale • Assegno di Ricerca da bandire. • Un Tecnologo di ruolo (da bandire). • Un Tecnico (CTER) di ruolo (da bandire) • Richiesta di riassegnazione di 2 posti di tecnologo liberi per turnover.

  13. Risorse HW attuali

  14. Nuove Risorse da installare per Maggio 2003

  15. Switch-lanCNAF 131.154.99.253 131.154.100.253 131.154.1.9 131.154.3.57 FarmSW1 131.154.99.11 FarmSWG1 131.154.99.121 SSR2000 Vlan99 Catalyst6500 Vlan100 vlan99 (99) Vlan3 (4) vlan99 (99) lhcb1 (120) FarmSW3 131.154.99.161 FarmSW2 131.154.99.8 LHCBSW1 131.154.99.60 vlan3 (4) vlan99 (99) lhcb1 (120) vlan99 (99) vlan99 (99) lhcb1 (120) (IBM) (DELL) NAS3 NAS2 131.154.99.193 131.154.99.192 Fcds2 Fcds3 Fcds1 2T SCSI 8T F.C. LAN CNAF LAN TIER1

  16. Accesso al GARR Giornaliero 15/10 Annuale

  17. Riassunto Esperimenti

  18. Monitoring & Allarmi • Il monitoraggio è costruito con strumenti ad-hoc (scripts PHP + Java Applet) per ottenere visuali personalizzate per esperimento da esportare tramite web. Una versione più dettagliata è disponibile per il personale del Tier1. • L’allarmistica è gestita tramite Nagios un prodotto Open Source a cui collaborano anche persone INFN.

  19. NAGIOS

  20. ALICE Jobs

  21. ALICE Storage

  22. Console Remota • La Nuova Sala Macchine sarà non presidiata. • E’ richiesto l’accesso alle macchine da console per effettuare operazioni di routine, ma anche di emergenza (reboot). • E’ necessario anche un controllo remoto sull’alimentazione (Power off/on) per le situazioni non sbloccabili da console. • Bisognerà avere accesso a decine di server e centinaia o migliaia di nodi di calcolo. • Le soluzioni KVM normali (analogiche) non sono sufficienti e non scalano ai numeri suddetti. • Le due soluzioni attualmente in osservazione sono della Avocent e della Raritan con differenze di approccio che cambiano il rapporto Prezzo/Prestazioni.

  23. Esempio Raritan

  24. Controllo Remoto Alimentazione • Accensione e Spegnimento • da remoto via IP. • Sostituisce la presiera o PDU. • Accesso tramite applicazione • proprietaria su Windows. • Alternativa da National Instruments • con un sistema modulare da • Personalizzare (assemblaggio, • Cabinet, prese corrente, ecc.) .

  25. Consumo di Potenza CPU Transizione da 0.18 a 0.13 micron

  26. Evoluzione Storica Intel Tier1 con UPS di 640 KW e < 300 KW per le CPU.

  27. Scala dei tempi • Novembre 2002: Aggiudicata Gara Lavori Sala Macchine • Aprile 2003: Fine Lavori Sala Macchine • Giugno 2003: Completa operatività della nuova Sala Macchine. • Dicembre 2004: Fine della fase sperimentale. • Gennaio 2005: Revisione della sperimentazione ed aggiornamento tecnico-economico-logistico-organizzativo del piano. • Dicembre 2005: Inizio della realizzazione del Centro per la fase di Produzione.

  28. Conclusioni • Il CR è già operativo in modalità “ridotta”. • La piena operatività è prevista per metà del 2003 (con la nuova sala macchine). • Gli investimenti in materiali e persone sono già consistenti.

More Related