Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

How do you move a supercomputer?

303 visualizaciones

Publicado el

Presentation on the creation of the Dutch National HPC Datacenter project (2014 - 2016).

Publicado en: Datos y análisis
  • Super project, Tijdsplanning zat heel goed inelkaar en voorbereiding was helemaal top!!
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí

How do you move a supercomputer?

  1. 1. Hoe verhuis je een supercomputer? SURFsara is verhuisd van VANCIS naar Digital Realty van 1-7 – 16/10/16 Robert Lukkenaer
  2. 2. • SURFsara biedt een geintegreerde ICT Research infrastructuur met diensten voor berekenen, opslag, visualisatie, netwerken, cloud en e- science • SARA is opgericht in 1971 als een Amsterdams rekencenter door de UVA, VU en het CWI • Onafhankelijke stichting vanaf 1995 • Oprichting VANCIS in 2008 waarin de diensten aan ondernemingen, universiteiten, onderwijs en gezondheidszorg instituten zijn ondergebracht • Per 1 januari 2013 is SARA onderdeel geworden van Stichting SURF en gaat verder onder de naam SURFsara • SURFsara is vanaf 1984 altijd de thuisbasis geweest van de nationale supercomputer, beginnend met een Control Data Cyber 205 • Vancis is maart 2016 vervreemd SURFsara
  3. 3. SURFsara onderdeel van SURF
  4. 4. Aanleiding voor de verhuizing • Per 1 januari 2013 is SARA onderdeel van Stichting SURF • Het datacenter is gecommercialiseerd (VANCIS) • Een openbare aanbesteding voor datacenter facilities werd noodzakelijk: – gewonnen door Telecity (tegenwoordig: Digital Realty), nieuwbouw AMS-1T – Conclusie: VERHUIZEN naar een fonkelnieuw datacenter per 1/7/2016. – Het Nationaal HPC Datacenter is geboren
  5. 5. Het Nationaal HPC Datacenter • Vermogen: 1,5 MW met optie tot 1,8 MW • 800m2: – 2 grote vloeren (1 voor Cartesius, en 1 voor de E- Infrastructuur) – 45m2 tbv de tapesilo (aparte klimaatregeling) • Zeer energie-efficiënt: – PUE: 1,19 design – Waterkoeling tbv Cartesius (tot 1MW) • Hi-FOG watermist blusinstallatie
  6. 6. Verhuisscope • Cartesius, de nationale supercomputer, een BULLX bestaande uit 42 racks • Een enorme tape robot, inclusief 30pB tapes • 160 racks aan andere HPC equipment: – Front-end storage – CXFS Hierarchische storage management – Hadoop – HPC Cloud – Lisa – GRID – Ceph – Surfdrive – KA/Ondersteunende systemen
  7. 7. Definitie van een supercomputer • Capability computing: Gebruikt om hele grote complexe problemen op te lossen, bijvoorbeeld weermodellen. • Capacity computing Gebruikt om heel veel kleinere problemen op te lossen, bijvoorbeeld (ALS Icebucket Challenge)
  8. 8. Waarom een supercomputer gebruiken • Je JOB op een supercomputer draaien indien: – de verwachte rekentijd jaren is op een PC – De hoeveelheid benodigd geheugen veel groter is dan beschikbaar in een enkele computer • Cartesius, de Nationale Supercomputer, maakt het mogelijkheid om massive parallel jobs te runnen • Gebruikers zijn voornamelijk wetenschappers
  9. 9. Cartesius • BullX, introductie 2013. Recentelijk mid-life upgrade • Totaal 42 racks • Compute (46000 cores, 172 TB ram): – 18 watercooled compute racks (44kW / rack op full load) – 6 aircooled compute racks (tot 29kW) – GPU’s • Storage en management racks (9PB Storage) • 56gbps inter-node bandwidth (via 7000 infiniband kabels). Berichtuitwisseling in microseconden ipv milliseconden (tcpip over ethernet) • Lustre Parallel File system • max load: 1 Megawatt
  10. 10. Wat zijn de uitdagingen • Cartesius is groot, complex, kostbaar en kwetsbaar • We moesten gefaseerd verhuizen, ook de diensten waar Cartesius van afhankelijk is en omgekeerd (b.v. backup) • Supercomputing is niet High-Available. Er is geen backup. Het is dus geen kwestie van “vMotion” naar de overzijde • De hoeveelheid data: – veel te volatiel en groot om via datacom te kopieren. – Een restore bij data-loss zou maanden duren, een full backup kost maanden – Het risico op dataverlies moest worden gemitigeerd • De machine moest zo kort onbeschikbaar zijn, voor de gebruikers en om de (dubbele) kosten te minimaliseren. Bij oplevering van het nieuwe DC gingen we huur betalen.
  11. 11. Technische migratie uitdagingen • Gewicht en grootte van de racks (~1800kg) • Hergebruik van de infiniband bekabeling (7000 stuks a 200 euro per stuk) • Nieuwe layout van de machine • Het Telecity standaard datacenter moest worden aangepast voor de supercomputer (b.v. waterkoeling). Een supercomputer draait batchjobs. De variatie in stroomgebruik tussen idle & full-load is een factor van 3 • Noodzaak voor een Power-cycle (in een maintenance window) om de baseline vast te stellen • Ondersteunende diensten en afhankelijkheden: - Directory, Archief, Data-Services, Vancis TSM backup en restore service, SURFsara accounting. - Andere diensten die op Cartesius gehost worden, bijvoorbeeld het visualisatie cluster
  12. 12. Verhuizen … hoe doen we dat? Baseline Drain, Shutdown: Surfsara Prepare moving: remove disks, units, blades, secure De-rack equipment Move: Elevators, Truck, Temperature Rack equipment Re-install secured items, rack items Startup Verification Operational Insurance: Physical damage (no dataloss or productivity loss) SURFsara SURFsara + supplier Supplier Mover Insurance co. (SURFsara)
  13. 13. Verhuis scenario – Ramp down & up • Voorbereiden en afbouwen – Opbouwen van de landingsomgeving – 30% van de capaciteit afschakelen – Verhuizen en opbouwen “bruggehoofd” • Cutover – 100% afschakelen – Finale data (r)sync backup – Uitzetten – Management en storage verhuizen – Bruggehoofd starten – Validatie tests • Ramp-up – Afbouwen capaciteit – De-installeren, prepareren, verhuizen, installeren van alle servers & storage – Re-connect & in productie nemen 0% 100% Oud 0% Nieuw 10 dagen donker 10 weken 30% 30%
  14. 14. Waar liepen we tegenaan • Het risico van Data-loss. Mitigatie: We hebben een storage rack vrij kunnen maken en de productie via rsync synchroon gehouden • Machines waren te zwaar en moesten deels gedemonteerd worden voor transport • De machine moest toch door het donker (plan: 2 weken  werd 10 dagen). Gebruikers waren niet blij – we waren vroegtijdig begonnen met communiceren via allerlei kanalen waardoor het beheersbaar werd • De layout van de machine is gewijzigd in de nieuwe opzet (vanwege power & waterkoeling), waardoor we ~1000 nieuwe kabels nodig hadden • We hebben het transportrisico via de assurantiebeurs moeten verzekeren (dat loont overigens)
  15. 15. Learnings • Change freeze was noodzakelijk • Goede relaties opbouwen met het latende datacenter loont • Voorbereiding is cruciaal, zeer vroegtijdig betrekken van de vendor liep goed • Soepel project dankzij een zeer uitgebreid draaiboek en risicomanagement • Nauwelijks verlies aan disks of andere componenten na afkoeling en transport (er gaat iedere week wel wat kapot)
  16. 16. Benefits • Business case is positief (ook in retrospect) • Aanzienlijk lagere stroomrekening door betere PUE van het nieuwe datacenter (was ook wel nodig want de verhuizing was kostbaar) • Capaciteitsuitbreiding werd mogelijk (en is al gedaan) • Het is nu mogelijk Catesius in-place te vervangen, er is immers voldoende vloercapaciteit (power is het issue)
  17. 17. Contactgegevens • Bedrijfsnaam: Lukkenaer, NJI • Adres: Brugstraat 9, 3632 EH Loenen aan de Vecht • Telefoonnummer: 06-53860047 • E-mailadres: robert@lukkenaer.nl • www.lukkenaer.nl • Standnummer: FOREHAND / SIEMON

×