Fraunhofer SCAI legt Studie zur Interoperabilität und Offenheit von Windows zu Linux vor

1. März 2011

Komplexe heterogene IT-Umgebungen erfordern zunehmend Interoperabilität der Softwareprodukte und Offenheit der Softwarefirmen gegenüber den Wettbewerbern. Zusammen mit meinen Kollegen vom Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI haben wir in einer Studie aktuelle Lösungen von Microsoft und Novell untersucht, die IT-Verantwortlichen und Administratoren ihre Arbeit erleichtern können.

Sie erhalten die Studie als kostenlosen Download (PDF-Datei, 1MB) unter: http://www.scai.fraunhofer.de/interoperability/

Tuning Windows HPC Server 2008 R2

1. Februar 2011

Natürlich kann man unendlich viel tunen und an jeder NTFS- und TCP-Schraube drehen, aber die folgenden drei einfachen Tuning-Tipps haben sich für mich – insbesondere während Benchmarks – als nützlich erwiesen. Mir kam es NICHT darauf an, das letzte Bit Performance aus dem TCP-Treiber raus zu kitzeln, sondern mir ging es um Grundlegendes, wie z.B. darum, dass nicht mitten in einem Benchmark Windows Update losläuft.

  1. Deaktivieren aller „scheduled tasks“ (z.B. für Windows Update) auf allen Knoten:
    clusrun SCHTASKS /Delete /TN * /F
  2. Das Power Management auf allen Knoten auf „Hochleistung“ stellen, z.B. verhindert dies das Runtertakten der CPUs. Nachteil: erhöhter Energieverbrauch.
    clusrun powercfg -s 8c5e7fda-e8bf-4a96-9a85-a6e23a8c635c
  3. Deaktivieren unnötiger Dienste auf den Rechenknoten. Das ist ein bisschen tricky. Ich habe versucht einen Mittelweg zu finden zwischen Diensten, die man (ich) wirklich nicht auf Rechenknoten braucht (wie der Media Player) und solchen, die man zwar strenggenommen auch nicht braucht, die aber das Leben für Administratoren deutlich vereinfachen (z.B. weiterhin funktionierende Remote-Desktop-Verbindung auf alle Knoten). Letztendlich muss natürlich jeder Admin selbst entscheiden, welche Dienste gebraucht werden und welche nicht (z.B. Print Spooler). Das angehängt „stop-services“-Skript stoppt ALLE Dienste, deaktiviert sie aber nicht permanent; nach einem Neustart ist der Windows-Standard wiederhergestellt. Das „disable-services“-Skript deaktiviert permanent, nützliche Dienste bleiben aber laufen; das dazu passende „restore“-Skript stellt den Windows-Default permanent wieder her (jeweils nach einem Neustart).

Skript-Download

Achtung 1: Die Skripte deaktivieren Windows-Funktionalitäten. Man sollte verstehen was sie tun, bevor man sie naiv ausführt! In dem Stop-Skript sind alle Dienste kurz erklärt.
Achtung 2: „clusrun“ führt per Default den Befehl auf allen HPC-Maschinen aus. Je nachdem kann es sinnvoll sein, die Manipulationen nur auf den Rechenknoten und nicht auf den Head Nodes durchzuführen. Dann den clusrun-Befehl entweder mittels /exclude <head_nodes> oder /nodegroup: <compute_nodes> entsprechend restriktiver ausführen.

Mehr Lesestoff: Whitepaper „Performance Tuning a Windows HPC Cluster for Parallel Applications“ und „Performance Tuning Guidelines for Windows Server 2008 R2“.

Ankündigung: Treffen der deutschsprachigen HPC Benutzergruppe

23. Dezember 2010

Das seit 2007 jährlich stattfindende Treffen der deutschsprachigen HPC Benutzergruppe wird 2011 vom 31. März bis zum 1. April  in Karlsruhe stattfinden. Die Benutzergruppe, die 2011 bereits das 4. Treffen veranstalten wird, dient als Plattform für den Erfahrungsaustausch der Windows-HPC Anwender untereinander, sowie für den Dialog zwischen den Nutzern und der Firma Microsoft. Mehr Informationen zur Nutzergruppe und deren zurückliegender Aktivitäten, sind auf der offiziellen Homepage http://www.rz.rwth-aachen.de/go/id/sbb/ zu finden.

HPC Pack 2008 R2 Service Pack 1

14. Dezember 2010

Gestern hat Microsoft das SP1 für den HPC Pack 2008 R2 und das dazugehörige SDK inkl. SP1 veröffentlicht. Microsoft verspricht eine stabilere Version (wobei ich auch ohne SP bisher keine Abstürze vermerken konnte). Größtes neues Feature ist die Möglichkeit, mit installiertem SP1 auch Windows Azure Knoten hinzufügen zu können. Verbessert haben will Microsoft ebenfalls Passwort Caching; ein Punkt der mich persönlich sehr freut, da ich schon öfter darüber gestolpert bin. Installieren/Testen konnte ich es leider bisher noch nicht. Download HPC Pack 2008 R2 SP 1

HPC-Artikel bei heise

5. Dezember 2010

Microsoft ist mit seinem HPC-Server derzeit in den beiden renommiertesten deutschsprachigen IT-Magazinen vertreten. Zum einen in der c’t 25/2010, in der erste Erfahrungen mit dem Windows HPC Server 2008 R2 geschildert werden und MPI kritisch unter die Lupe genommen wird. Zum anderen in der iX 12/2010, in der unter dem Titel „Supertabellen“ (Artikelvorschau) die neuen Excel Services in Microsofts HPC-Cluster vorgestellt werden. Zusammen mit meinem Kollegen vom Fraunhofer SCAI haben wir den beiden Schreiberlingen von heise bei der Einrichtung ein klein wenig unter die Arme gegriffen und unseren Cluster „Gambrinus“ für Testzwecke zur Verfügung gestellt.

Badrenovierung 2010

9. November 2010

2010 war es an der Zeit das Badezimmer zu renovieren. Im Wesentlichen Schönheitsrenovierungen, denn ich fühlte mich in dem kalten weißen Badezimmer nicht mehr wohl. Vor allem störten mich die kahle weiße Decke, die unzureichende Beleuchtung und die in die Jahre gekommene Dusche. Ich entschloss mich daher die Decke mit Holzpaneelen zu verkleiden, darin die Beleuchtung unterzubringen und die alte hohe Duschwanne durch eine möglichst flache moderne Wanne zu ersetzen und die alten Plexiglas-Wände durch solche aus Echtglas. Hier das berühmte „Vorher“-Bild:

Badezimmerdecke vor der Renovierung

Decke verkleiden

Als erstes die Vorbereitung der Holzlatten für die Unterkonstruktion. Dazu plante ich vorher wo ich welche Lampe eingebaut haben wollte und bohrte dann mit einer Lochsäge entsprechende Löcher in die Latten durch die später die Kabel geführt werden können.

Vorbereitung der Holzlatten für die Decke

Danach konnten die Latten mittels Schlagdübeln an die Decke montiert werden und im Anschluss daran die Holzpaneele mit Spezialkrallen an die Lattenkonstruktion.

Holzpaneele an die Decke

Dusche erneuern

Hier ein Bild der alten hässlichen Dusche:

Die alte Dusche

Erster Schritt war der Rückbau der alten Dusche. D.h. erst habe ich die Plexiglaswände entfernt und anschließend auch die Duschwanne abgebaut. Unschön waren noch die für diese Duschwannenhöhe zurechtgesägten Fliesen. Die unterste Fliesenreihe musste ich daher auch rausklopfen. Nun musste dann doch mal ein Handwerker ran, der den blanken Estrich und die Rigipswände mit einer speziellen wasserdichten Farbe abgedichtet hat.

Alte Dusche entfernt

Gott sei Dank habe ich genau die passenden Fliesen noch auftreiben können, sodass die Wand bis zur neuen flacheren Duschwanne ordentlich befliest werden konnte. Mit eingebauter Duschwanne und fertig befliest sah es dann so aus:

Duschwanne eingebaut

Jetzt fehlten noch die Duschwände. Den Einbau der massiv-schweren Echtglaswände habe ich allerdings einer Fachfirma überlassen. Ich begnügte mich damit, die vorhandene einfache Brause durch eine Kombination aus Rainshower und herkömmlicher Brause zu ersetzen. Und das Endergebnis sieht dann so aus:

Die neue Dusche

ISC Cloud ’10 – Abschlussbemerkung

29. Oktober 2010

Ein Bild des großen Konferenzraums der ISC Cloud ’10. Vielen Dank an dieser Stelle an Nikolai Zotow für die Bereitstellung des Fotos.

ISC Cloud '10 - Großer Konferenzraum im Marriott-Hotel

Eine Erklärung für die geringe Teilnehmerzahl (165) mag sein, dass viele HPC-Enthusiasten noch nicht den Wert von Clouds im HPC-Umfeld erkannt haben; oder zumindest die Koexistenz von Clouds neben traditionellem HPC. Auch wenn HPC und Grids nicht von Clouds abgelöst werden, so haben sie doch eine große Zukunft vor sich –  vor allem im Bereich der „embarassingly parallel“ Anwendungen und in dem Bereich kleinerer Unternehmen, die sich kein eigenes Cluster, wohl aber ein „Cluster on demand“ in der Cloud leisten können.

ISC Cloud ’10 – OpenNebula Cloud Case Studies

29. Oktober 2010

Prof. Dr. Ignacio M. Llorente (University of Madrid, Spain) stellte OpenNebula – ein Cloud-Toolkit für ein IaaS-System – vor. Es ist 100% OpenSource und wurde konzipiert um zehntausende virtuelle Maschinen zu verwalten. OpenNebula ist flexibel, erweiterbar, bietet eine gute Performance und besonderer Wert wurde auf die Stabilität gelegt, weshalb OpenNebula sehr robust läuft. Reichen die lokalen Kapazitäten nicht mehr aus, lässt sich OpenNebula um Ressourcen kommerzieller Anbieter – wie EC2-Ressourcen – erweitern.

Die Architektur setzt sich aus dem „OpenNebula Core“ und verschiedener Plug-ins zusammen, die über ein Driver-API mit dem Core kommunizieren. Die mit OpenNebula ausgelieferten Plug-ins sind Compute, Storage, Network, Cloud und Security. Da OpenNebula komplett OpenSource ist, lassen sich weitere Plug-ins selbst programmieren und hinzufügen. Ignocia Llorente beendet seine Präsentation mit der Vorstellung verschiedene Fallstudien und Projekte, bei denen OpenNebula bereits heute erfolgreich eingesetzt wird.

ISC Cloud ’10 – Keynote „Science in the Clouds“

29. Oktober 2010

Die Keynote am heutigen Freitag wurde von Kathy Yelick (NERSC, LBNL & University of California at Berkeley, USA) zum Thema “Science in the Clouds: A View from Berkeley” gehalten.

Zunächst stellte Kathy Yelick das National Energy Research Scientific Computing Center (NERSC) vor, ein Supercomputing-Center mit über 3000 Benutzern und 400 Projekten. Eines der Hauptprobleme hier ist das exponentielle Wachstum der Daten (Petabyte-Dateisystem) und die Frage, wie man diese Masse an Daten nachhaltig speichern kann. Aufgrund der Nachteile im „Midrange Computing“ wurde das Magellan Cloud Project als „Cloud testbed“ (also kein Produktivsystem) im Argonne National Laboratory (ANL) und NERSC gestartet. Es besteht aus 720 Knoten mit Quad-core Nehalem-Prozessoren, in IBM iDataplex Units; als Netzwerk wird QDR Infiniband verwendet. Die Idee hinter Magellan ist das flexible und dynamische Scheduling von Ressourcen – im Wesentlichen ist es möglich, virtuelle Private Clouds innerhalb des Magellan-Systems zu erzeugen.

Eines der interessanten Konzepte im Magellan-System ist die Kühlung: Die iDataplex-Systeme werden mit Flüssigkeit gekühlt, was so gut funktioniert, dass das warme „Abwasser“ eines anderen Cray-Systems zum Einspeisen in das Magellan-Kühlsystem verwendet werden kann. Dazu wurden die Cooling Distribution Units (CDU) modifiziert, welche nun so effizient kühlen, dass die Luft das Magellan-System kühler verlässt als zum Zeitpunkt des Ansaugens.

Zur Effizienz in der Cloud stelle Kathy Yalick die drei Hauptkosten vor: Erstens die Kosten für Energie und Hardware, welche linear steigen. Zweitens die Facility-Kosten, die zwar auch linear aber schrittweise steigen, und drittens die Personalkosten, welche mit der Maschinengröße pro Core nachlassen. Hier stellen sich die Fragen, wie groß ein IT-Zentrum sein muss, um möglichst kosteneffizient zu arbeiten, und wie man diese Effizienz misst. Entgegen der Situation in der Industrie/Wirtschaft, wo es eine feste Problemgröße gibt, die es zu lösen gilt und die als Basis für Messungen dienen kann, ist dies im wissenschaftlichen Umfeld nicht möglich: Ein Wissenschaftler wird immer die Ressourcen voll ausschöpfen und wenn mehr Ressourcen zur Verfügung stehen, so Kathy „they’ll come up with something new“. Am NERSC wurde daher die Metrik „Science Output per Watt“ eingeführt, also wie viele Publikationen pro Megawatt pro Jahr veröffentlicht werden.

Ebenfalls wurden Performance-Studien auf dem Magellan-System durchgeführt. D.h. wie verhalten sich kommerzielle Cloud-Systeme (hier: Amazon EC2) im Vergleich zu Magellan. Im Fazit ist der Slowdown in der kommerziellen Cloud leider sehr hoch. Die Probleme wurden für diesen Test zwar bereits in ihrer Größe reduziert (hunderte Cores statt tausende Cores), aber aufgrund des gesharten Netzwerks sind die Performance-Einbußen nachvollziehbar und auch nicht zu vernachlässigen. Kommerzielle HPC Clouds, die in ein Highspeed-Netzwerk investiert haben, fallen hier deutlich besser aus.

Und noch auf eine letzte Messung im Magellan-System möchte ich eingehen: Womit wird bei Berechnungen die meiste Zeit verbracht? Erstaunlicherweise zeigte eine Messung mit dem am NERSC entwickelten IPM-Tool, dass nur die Hälfte der Zeit für Computing genutzt werden kann. Die andere Hälfte wird für MPI-Kommunikation verbraucht – trotz QDR Infiniband. Nur ein im Vergleich zu vernachlässigender Anteil entfällt auf I/O.

ISC Cloud ’10 – Interview mit Dan Reed

28. Oktober 2010

Ich hatte das große Glück ein Interview mit Dan Reed (Corporate Vice President, Technology Strategy and Policy & Extreme Computing Group, Microsoft, USA) – übrigens ein sehr sympathischer Mensch und angenehmer Gesprächspartner – führen zu dürfen. Zusammen mit Damir Dobric von daenet.de stellten wir ihm einige Fragen (ich übersetze frei ins Deutsche):

„Traditionell ist der HPC-Markt eine Linux-Domäne, z.B. im Bereich der Simulations-Software. Nun begibt sich Microsoft in den HPC-Bereich und stellt (z.B. mit den Excel Services) neue Möglichkeiten vor. Wird Microsoft zukünftig eher in diese Richtung investieren und vorstoßen oder wird auch weiterhin versucht, den ‚traditionellen‘ HPC-Markt in Angriff zu nehmen?“ Dan Reed: Obwohl viele Wissenschaftler Linux-Cluster für Ihre Berechnungen verwenden, ist ihr Desktop-Betriebssystem oftmals Windows. Und am liebsten würde der Wissenschaftler aus dieser gewohnten Windows-Umgebung heraus das Cluster nutzen. D.h. möglichst einfach zu bedienen und voll integriert in gewohnten Windows-GUIs. Am Ende muss das richtige Ergebnis herauskommen, und ob es vielleicht etwas länger dauert als unter Linux ist nachrangig. Gleiches gilt für neue Programmiermodelle: Auch hier steht „Ease-of-use“ im Vordergrund, selbst wenn reines MPI in C schneller ist.

„In Ihrer Keynote verglichen Sie die Zeit, bis das Ergebnis einer Berechnung vorliegt im Grid, mit der Wartezeit derselben Anwendung in der Cloud. Im Grid führten Sie als Nachteil an, dass die Gesamtzeit sich aus der Wartezeit in der Queue plus der eigentlichen Laufzeit des Programms zusammensetzt, während in der Cloud diese Wartezeit entfällt. Aber kann es nicht auch in der Cloud passieren, dass man auf freie Ressourcen warten muss?“ Dan Reed: In der Cloud versuchen wir die Illusion der „unendlichen Verfügbarkeit“ aufrecht zu halten. D. h. sobald Bedarf entsteht, soll dieser unmittelbar gedeckt werden können. Wenn mehr Bedarf da ist, so werden auch mehr Ressourcen zu Verfügung gestellt (sprich: verkauft) und dadurch wird mehr Geld verdient.

„Werden Grid und Cloud zukünftig eher divergieren oder verschmelzen?“ Dan Reed: In Teilen werden sie verschmelzen, aber nicht in Gänze: Es gibt Anwendungen, die jedes Quäntchen Performance benötigen, bei denen es eher unwahrscheinlich ist, dass diese in der Cloud laufen werden. Andere Anwendungen brauchen das aber nicht. Es werden daher auch weiterhin beide Welten existieren.

„Vielleicht noch eine technische Frage: Wir sehen im Moment das Problem mit Lizenzen in der Cloud, wenn Lizenzen von ISV-Codes z.B. auf USB-Dongles ausgeliefert werden. Ein USB-Dongle kann man ja schlecht in die Cloud stecken. Arbeitet Microsoft hier an Lösungen?“ Dan Reed: Das klassische Lizenzmodell muss hier überarbeitet werden. Ähnlich wie man den Cloud-Service „pay per use“ abrechnet, könnte man sich auch ein Lizenzmodell in dieser Art vorstellen; in der Lizenzen also ‚as a Service‘ bereitgestellt werden.

Andere große „Baustellen“ sieht Dan Reed in den Bereichen der Rechtsfragen und Sicherheit, z.B. wenn Daten über Ländergrenzen hinweg verschickt werden. Verschlüsselung ist hier ganz klar die Antwort und es gibt sogar Bestrebungen, Daten nicht nur verschlüsselt zu verschicken, sondern sogar mit verschlüsselten Daten zu rechnen. So wäre gewährleistet, dass von dem Abschicken der Daten vom eigenen Rechner in die Cloud bis zur Ergebnisübermittlung aus der Cloud zurück auf den eigenen Rechner die Daten niemals mitgehört werden können.

„Ein kurzer Blick in die Zukunft: An welchen Projekten (über die Sie reden dürfen) arbeiten Sie im Moment?“ Dan Reed: An „non-traditional Cloud infrastructures“. Z.B. in Bezug auf Umwelt und die Nutzung natürlicher Energien, das Verlagern auf viele kleine Datacenter statt weniger großer. Außerdem arbeiten wir am kompletten Redesign von z.B. Hardware und Kühlkonzepten. D.h. wir versuchen z.B. nicht, klassische Kühlung zu verbessern, sondern fangen von Null, an neue umweltschonende Konzepte zu entwerfen. „Sie sprachen zu Beginn von der nahtlosen Integration von Cloud-Diensten in bestehende Systeme. Wie weit in der Zukunft sehen Sie die Vision, dass eine kleine Softwarefirma mit zwei Servern bei Bedarf auf Mausklick Ihre Ressourcen um Cloud-Ressourcen erweitern kann?“ Dan Reed: Definitiv noch in der ersten Hälfte dieses Jahrzehnts.

„Vielen Dank für das Gespräch und Ihre Zeit.“