Download
condor n.
Skip this Video
Loading SlideShow in 5 Seconds..
Condor PowerPoint Presentation

Condor

134 Views Download Presentation
Download Presentation

Condor

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004

  2. Introduzione • Utilizzo di Condor nel mondo • Statistiche del pool INFN • Nuove funzionalità • Conclusioni

  3. Diffusione di Condor • Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. • LIGO • CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) • BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc. 5000 cpu nel 2007. • eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU.

  4. Environment from the Molecular Level A NERC eScience testbed project …AND THERE IS: WE USE WHAT’S ALREADY THERE:930 win2K PC’s (1GHz P3, 256/512Mb Ram, 1Gbit e-net.) clustered in 30 student cluster rooms across every department on the UCL campus, with the potential to scale up to ~3000 PC’s.These machines waste 95% of their CPU cycles 24/7: A MASSIVE UNTAPPED RESOURCE- A COUP FOR eMINERALS! This is where Condor enters the scene. THE ONLY AVAILABLE OF-THE-SHELF RESOURCE MANAGEMENT AND JOB BROKER FOR WINDOWS: Install Condor on our clusters, and we harness 95% of the power of 930+ machines 24 hours a day, without spending any money.

  5. ~1K Condor pools; ~38K CPUs

  6. Statistica INFN (Aprile)

  7. Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU.

  8. Condor + HawkEye • HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. • Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. • Da usare per query e scheduling. • Molti plugin disponibili: • Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti…

  9. Central Manager • I demoni possono girare su qualsiasi porta • COLLECTOR_HOST = condor.cs.wisc.edu:9019 • NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 • Utile da usare in caso di firewall.

  10. Recupero connessioni interrotte (release 6.7.x) • Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines • Mettere nel job submit file • JobLeaseDuration = <N secondi>

  11. High Availability • Condor permette una submit machine “hot spare”: • Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto

  12. Master SchedD Daemon Failover Machine A Machine B Refresh Lock Refresh Lock Obtain Lock Check Lock Master SchedD Active Active (hot spare)

  13. Computing on Demand (COD) • Pensato per calcoli brevi ma intensi. • Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. • Quando il cod-job termina i condor job riprendono l’esecuzione. • Un utente deve essere autorizzato (e autenticato) a usare COD.

  14. I/O remoto per Vanilla Job • I job Vanilla non richiedono un file system uniforme • I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine.

  15. BBS (Bologna Batch System) • Batch system basato su Condor Vanilla • Si possono creare code batchcon diverse velocità e timeout di esecuzione. • I bbs-job hanno maggiori priorità degli altri condor job. • Non richiede nè la ricompilazione del programma nè un file system uniforme. • In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili.

  16. Condor RPM • Si può installare Condor tramite file rpm • Installazione e upgrade semplificati!

  17. Conclusioni • La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. • Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) • 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. • Il costo per evitare lo spreco è inferiore al valore del bene sprecato.

  18. NON SPRECARE LA TUA CPU. QUALCUNO POTREBBE AVERNE BISOGNO.