ISC Cloud ’10 – Keynote „Science in the Clouds“

Die Keynote am heutigen Freitag wurde von Kathy Yelick (NERSC, LBNL & University of California at Berkeley, USA) zum Thema “Science in the Clouds: A View from Berkeley” gehalten.

Zunächst stellte Kathy Yelick das National Energy Research Scientific Computing Center (NERSC) vor, ein Supercomputing-Center mit über 3000 Benutzern und 400 Projekten. Eines der Hauptprobleme hier ist das exponentielle Wachstum der Daten (Petabyte-Dateisystem) und die Frage, wie man diese Masse an Daten nachhaltig speichern kann. Aufgrund der Nachteile im „Midrange Computing“ wurde das Magellan Cloud Project als „Cloud testbed“ (also kein Produktivsystem) im Argonne National Laboratory (ANL) und NERSC gestartet. Es besteht aus 720 Knoten mit Quad-core Nehalem-Prozessoren, in IBM iDataplex Units; als Netzwerk wird QDR Infiniband verwendet. Die Idee hinter Magellan ist das flexible und dynamische Scheduling von Ressourcen – im Wesentlichen ist es möglich, virtuelle Private Clouds innerhalb des Magellan-Systems zu erzeugen.

Eines der interessanten Konzepte im Magellan-System ist die Kühlung: Die iDataplex-Systeme werden mit Flüssigkeit gekühlt, was so gut funktioniert, dass das warme „Abwasser“ eines anderen Cray-Systems zum Einspeisen in das Magellan-Kühlsystem verwendet werden kann. Dazu wurden die Cooling Distribution Units (CDU) modifiziert, welche nun so effizient kühlen, dass die Luft das Magellan-System kühler verlässt als zum Zeitpunkt des Ansaugens.

Zur Effizienz in der Cloud stelle Kathy Yalick die drei Hauptkosten vor: Erstens die Kosten für Energie und Hardware, welche linear steigen. Zweitens die Facility-Kosten, die zwar auch linear aber schrittweise steigen, und drittens die Personalkosten, welche mit der Maschinengröße pro Core nachlassen. Hier stellen sich die Fragen, wie groß ein IT-Zentrum sein muss, um möglichst kosteneffizient zu arbeiten, und wie man diese Effizienz misst. Entgegen der Situation in der Industrie/Wirtschaft, wo es eine feste Problemgröße gibt, die es zu lösen gilt und die als Basis für Messungen dienen kann, ist dies im wissenschaftlichen Umfeld nicht möglich: Ein Wissenschaftler wird immer die Ressourcen voll ausschöpfen und wenn mehr Ressourcen zur Verfügung stehen, so Kathy „they’ll come up with something new“. Am NERSC wurde daher die Metrik „Science Output per Watt“ eingeführt, also wie viele Publikationen pro Megawatt pro Jahr veröffentlicht werden.

Ebenfalls wurden Performance-Studien auf dem Magellan-System durchgeführt. D.h. wie verhalten sich kommerzielle Cloud-Systeme (hier: Amazon EC2) im Vergleich zu Magellan. Im Fazit ist der Slowdown in der kommerziellen Cloud leider sehr hoch. Die Probleme wurden für diesen Test zwar bereits in ihrer Größe reduziert (hunderte Cores statt tausende Cores), aber aufgrund des gesharten Netzwerks sind die Performance-Einbußen nachvollziehbar und auch nicht zu vernachlässigen. Kommerzielle HPC Clouds, die in ein Highspeed-Netzwerk investiert haben, fallen hier deutlich besser aus.

Und noch auf eine letzte Messung im Magellan-System möchte ich eingehen: Womit wird bei Berechnungen die meiste Zeit verbracht? Erstaunlicherweise zeigte eine Messung mit dem am NERSC entwickelten IPM-Tool, dass nur die Hälfte der Zeit für Computing genutzt werden kann. Die andere Hälfte wird für MPI-Kommunikation verbraucht – trotz QDR Infiniband. Nur ein im Vergleich zu vernachlässigender Anteil entfällt auf I/O.

Advertisements

Schlagwörter:

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s


%d Bloggern gefällt das: