1 / 21


Condor. III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004. Introduzione. Utilizzo di Condor nel mondo Statistiche del pool INFN Nuove funzionalit à Conclusioni. Diffusione di Condor. Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. LIGO

Download Presentation


An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.


Presentation Transcript

  1. Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004

  2. Introduzione • Utilizzo di Condor nel mondo • Statistiche del pool INFN • Nuove funzionalità • Conclusioni

  3. Diffusione di Condor • Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. • LIGO • CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) • BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc. 5000 cpu nel 2007. • eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU.

  4. Environment from the Molecular Level A NERC eScience testbed project …AND THERE IS: WE USE WHAT’S ALREADY THERE:930 win2K PC’s (1GHz P3, 256/512Mb Ram, 1Gbit e-net.) clustered in 30 student cluster rooms across every department on the UCL campus, with the potential to scale up to ~3000 PC’s.These machines waste 95% of their CPU cycles 24/7: A MASSIVE UNTAPPED RESOURCE- A COUP FOR eMINERALS! This is where Condor enters the scene. THE ONLY AVAILABLE OF-THE-SHELF RESOURCE MANAGEMENT AND JOB BROKER FOR WINDOWS: Install Condor on our clusters, and we harness 95% of the power of 930+ machines 24 hours a day, without spending any money.

  5. ~1K Condor pools; ~38K CPUs

  6. Statistica INFN (Aprile)

  7. Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU.

  8. Condor + HawkEye • HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. • Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. • Da usare per query e scheduling. • Molti plugin disponibili: • Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti…

  9. Central Manager • I demoni possono girare su qualsiasi porta • COLLECTOR_HOST = condor.cs.wisc.edu:9019 • NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 • Utile da usare in caso di firewall.

  10. Recupero connessioni interrotte (release 6.7.x) • Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines • Mettere nel job submit file • JobLeaseDuration = <N secondi>

  11. High Availability • Condor permette una submit machine “hot spare”: • Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto

  12. Master SchedD Daemon Failover Machine A Machine B Refresh Lock Refresh Lock Obtain Lock Check Lock Master SchedD Active Active (hot spare)

  13. Computing on Demand (COD) • Pensato per calcoli brevi ma intensi. • Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. • Quando il cod-job termina i condor job riprendono l’esecuzione. • Un utente deve essere autorizzato (e autenticato) a usare COD.

  14. I/O remoto per Vanilla Job • I job Vanilla non richiedono un file system uniforme • I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine.

  15. BBS (Bologna Batch System) • Batch system basato su Condor Vanilla • Si possono creare code batchcon diverse velocità e timeout di esecuzione. • I bbs-job hanno maggiori priorità degli altri condor job. • Non richiede nè la ricompilazione del programma nè un file system uniforme. • In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili.

  16. Condor RPM • Si può installare Condor tramite file rpm • Installazione e upgrade semplificati!

  17. Conclusioni • La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. • Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) • 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. • Il costo per evitare lo spreco è inferiore al valore del bene sprecato.


More Related