Archive for Oktober 2010

ISC Cloud ’10 – Abschlussbemerkung

29. Oktober 2010

Ein Bild des großen Konferenzraums der ISC Cloud ’10. Vielen Dank an dieser Stelle an Nikolai Zotow für die Bereitstellung des Fotos.

ISC Cloud '10 - Großer Konferenzraum im Marriott-Hotel

Eine Erklärung für die geringe Teilnehmerzahl (165) mag sein, dass viele HPC-Enthusiasten noch nicht den Wert von Clouds im HPC-Umfeld erkannt haben; oder zumindest die Koexistenz von Clouds neben traditionellem HPC. Auch wenn HPC und Grids nicht von Clouds abgelöst werden, so haben sie doch eine große Zukunft vor sich –  vor allem im Bereich der „embarassingly parallel“ Anwendungen und in dem Bereich kleinerer Unternehmen, die sich kein eigenes Cluster, wohl aber ein „Cluster on demand“ in der Cloud leisten können.

Advertisements

ISC Cloud ’10 – OpenNebula Cloud Case Studies

29. Oktober 2010

Prof. Dr. Ignacio M. Llorente (University of Madrid, Spain) stellte OpenNebula – ein Cloud-Toolkit für ein IaaS-System – vor. Es ist 100% OpenSource und wurde konzipiert um zehntausende virtuelle Maschinen zu verwalten. OpenNebula ist flexibel, erweiterbar, bietet eine gute Performance und besonderer Wert wurde auf die Stabilität gelegt, weshalb OpenNebula sehr robust läuft. Reichen die lokalen Kapazitäten nicht mehr aus, lässt sich OpenNebula um Ressourcen kommerzieller Anbieter – wie EC2-Ressourcen – erweitern.

Die Architektur setzt sich aus dem „OpenNebula Core“ und verschiedener Plug-ins zusammen, die über ein Driver-API mit dem Core kommunizieren. Die mit OpenNebula ausgelieferten Plug-ins sind Compute, Storage, Network, Cloud und Security. Da OpenNebula komplett OpenSource ist, lassen sich weitere Plug-ins selbst programmieren und hinzufügen. Ignocia Llorente beendet seine Präsentation mit der Vorstellung verschiedene Fallstudien und Projekte, bei denen OpenNebula bereits heute erfolgreich eingesetzt wird.

ISC Cloud ’10 – Keynote „Science in the Clouds“

29. Oktober 2010

Die Keynote am heutigen Freitag wurde von Kathy Yelick (NERSC, LBNL & University of California at Berkeley, USA) zum Thema “Science in the Clouds: A View from Berkeley” gehalten.

Zunächst stellte Kathy Yelick das National Energy Research Scientific Computing Center (NERSC) vor, ein Supercomputing-Center mit über 3000 Benutzern und 400 Projekten. Eines der Hauptprobleme hier ist das exponentielle Wachstum der Daten (Petabyte-Dateisystem) und die Frage, wie man diese Masse an Daten nachhaltig speichern kann. Aufgrund der Nachteile im „Midrange Computing“ wurde das Magellan Cloud Project als „Cloud testbed“ (also kein Produktivsystem) im Argonne National Laboratory (ANL) und NERSC gestartet. Es besteht aus 720 Knoten mit Quad-core Nehalem-Prozessoren, in IBM iDataplex Units; als Netzwerk wird QDR Infiniband verwendet. Die Idee hinter Magellan ist das flexible und dynamische Scheduling von Ressourcen – im Wesentlichen ist es möglich, virtuelle Private Clouds innerhalb des Magellan-Systems zu erzeugen.

Eines der interessanten Konzepte im Magellan-System ist die Kühlung: Die iDataplex-Systeme werden mit Flüssigkeit gekühlt, was so gut funktioniert, dass das warme „Abwasser“ eines anderen Cray-Systems zum Einspeisen in das Magellan-Kühlsystem verwendet werden kann. Dazu wurden die Cooling Distribution Units (CDU) modifiziert, welche nun so effizient kühlen, dass die Luft das Magellan-System kühler verlässt als zum Zeitpunkt des Ansaugens.

Zur Effizienz in der Cloud stelle Kathy Yalick die drei Hauptkosten vor: Erstens die Kosten für Energie und Hardware, welche linear steigen. Zweitens die Facility-Kosten, die zwar auch linear aber schrittweise steigen, und drittens die Personalkosten, welche mit der Maschinengröße pro Core nachlassen. Hier stellen sich die Fragen, wie groß ein IT-Zentrum sein muss, um möglichst kosteneffizient zu arbeiten, und wie man diese Effizienz misst. Entgegen der Situation in der Industrie/Wirtschaft, wo es eine feste Problemgröße gibt, die es zu lösen gilt und die als Basis für Messungen dienen kann, ist dies im wissenschaftlichen Umfeld nicht möglich: Ein Wissenschaftler wird immer die Ressourcen voll ausschöpfen und wenn mehr Ressourcen zur Verfügung stehen, so Kathy „they’ll come up with something new“. Am NERSC wurde daher die Metrik „Science Output per Watt“ eingeführt, also wie viele Publikationen pro Megawatt pro Jahr veröffentlicht werden.

Ebenfalls wurden Performance-Studien auf dem Magellan-System durchgeführt. D.h. wie verhalten sich kommerzielle Cloud-Systeme (hier: Amazon EC2) im Vergleich zu Magellan. Im Fazit ist der Slowdown in der kommerziellen Cloud leider sehr hoch. Die Probleme wurden für diesen Test zwar bereits in ihrer Größe reduziert (hunderte Cores statt tausende Cores), aber aufgrund des gesharten Netzwerks sind die Performance-Einbußen nachvollziehbar und auch nicht zu vernachlässigen. Kommerzielle HPC Clouds, die in ein Highspeed-Netzwerk investiert haben, fallen hier deutlich besser aus.

Und noch auf eine letzte Messung im Magellan-System möchte ich eingehen: Womit wird bei Berechnungen die meiste Zeit verbracht? Erstaunlicherweise zeigte eine Messung mit dem am NERSC entwickelten IPM-Tool, dass nur die Hälfte der Zeit für Computing genutzt werden kann. Die andere Hälfte wird für MPI-Kommunikation verbraucht – trotz QDR Infiniband. Nur ein im Vergleich zu vernachlässigender Anteil entfällt auf I/O.

ISC Cloud ’10 – Interview mit Dan Reed

28. Oktober 2010

Ich hatte das große Glück ein Interview mit Dan Reed (Corporate Vice President, Technology Strategy and Policy & Extreme Computing Group, Microsoft, USA) – übrigens ein sehr sympathischer Mensch und angenehmer Gesprächspartner – führen zu dürfen. Zusammen mit Damir Dobric von daenet.de stellten wir ihm einige Fragen (ich übersetze frei ins Deutsche):

„Traditionell ist der HPC-Markt eine Linux-Domäne, z.B. im Bereich der Simulations-Software. Nun begibt sich Microsoft in den HPC-Bereich und stellt (z.B. mit den Excel Services) neue Möglichkeiten vor. Wird Microsoft zukünftig eher in diese Richtung investieren und vorstoßen oder wird auch weiterhin versucht, den ‚traditionellen‘ HPC-Markt in Angriff zu nehmen?“ Dan Reed: Obwohl viele Wissenschaftler Linux-Cluster für Ihre Berechnungen verwenden, ist ihr Desktop-Betriebssystem oftmals Windows. Und am liebsten würde der Wissenschaftler aus dieser gewohnten Windows-Umgebung heraus das Cluster nutzen. D.h. möglichst einfach zu bedienen und voll integriert in gewohnten Windows-GUIs. Am Ende muss das richtige Ergebnis herauskommen, und ob es vielleicht etwas länger dauert als unter Linux ist nachrangig. Gleiches gilt für neue Programmiermodelle: Auch hier steht „Ease-of-use“ im Vordergrund, selbst wenn reines MPI in C schneller ist.

„In Ihrer Keynote verglichen Sie die Zeit, bis das Ergebnis einer Berechnung vorliegt im Grid, mit der Wartezeit derselben Anwendung in der Cloud. Im Grid führten Sie als Nachteil an, dass die Gesamtzeit sich aus der Wartezeit in der Queue plus der eigentlichen Laufzeit des Programms zusammensetzt, während in der Cloud diese Wartezeit entfällt. Aber kann es nicht auch in der Cloud passieren, dass man auf freie Ressourcen warten muss?“ Dan Reed: In der Cloud versuchen wir die Illusion der „unendlichen Verfügbarkeit“ aufrecht zu halten. D. h. sobald Bedarf entsteht, soll dieser unmittelbar gedeckt werden können. Wenn mehr Bedarf da ist, so werden auch mehr Ressourcen zu Verfügung gestellt (sprich: verkauft) und dadurch wird mehr Geld verdient.

„Werden Grid und Cloud zukünftig eher divergieren oder verschmelzen?“ Dan Reed: In Teilen werden sie verschmelzen, aber nicht in Gänze: Es gibt Anwendungen, die jedes Quäntchen Performance benötigen, bei denen es eher unwahrscheinlich ist, dass diese in der Cloud laufen werden. Andere Anwendungen brauchen das aber nicht. Es werden daher auch weiterhin beide Welten existieren.

„Vielleicht noch eine technische Frage: Wir sehen im Moment das Problem mit Lizenzen in der Cloud, wenn Lizenzen von ISV-Codes z.B. auf USB-Dongles ausgeliefert werden. Ein USB-Dongle kann man ja schlecht in die Cloud stecken. Arbeitet Microsoft hier an Lösungen?“ Dan Reed: Das klassische Lizenzmodell muss hier überarbeitet werden. Ähnlich wie man den Cloud-Service „pay per use“ abrechnet, könnte man sich auch ein Lizenzmodell in dieser Art vorstellen; in der Lizenzen also ‚as a Service‘ bereitgestellt werden.

Andere große „Baustellen“ sieht Dan Reed in den Bereichen der Rechtsfragen und Sicherheit, z.B. wenn Daten über Ländergrenzen hinweg verschickt werden. Verschlüsselung ist hier ganz klar die Antwort und es gibt sogar Bestrebungen, Daten nicht nur verschlüsselt zu verschicken, sondern sogar mit verschlüsselten Daten zu rechnen. So wäre gewährleistet, dass von dem Abschicken der Daten vom eigenen Rechner in die Cloud bis zur Ergebnisübermittlung aus der Cloud zurück auf den eigenen Rechner die Daten niemals mitgehört werden können.

„Ein kurzer Blick in die Zukunft: An welchen Projekten (über die Sie reden dürfen) arbeiten Sie im Moment?“ Dan Reed: An „non-traditional Cloud infrastructures“. Z.B. in Bezug auf Umwelt und die Nutzung natürlicher Energien, das Verlagern auf viele kleine Datacenter statt weniger großer. Außerdem arbeiten wir am kompletten Redesign von z.B. Hardware und Kühlkonzepten. D.h. wir versuchen z.B. nicht, klassische Kühlung zu verbessern, sondern fangen von Null, an neue umweltschonende Konzepte zu entwerfen. „Sie sprachen zu Beginn von der nahtlosen Integration von Cloud-Diensten in bestehende Systeme. Wie weit in der Zukunft sehen Sie die Vision, dass eine kleine Softwarefirma mit zwei Servern bei Bedarf auf Mausklick Ihre Ressourcen um Cloud-Ressourcen erweitern kann?“ Dan Reed: Definitiv noch in der ersten Hälfte dieses Jahrzehnts.

„Vielen Dank für das Gespräch und Ihre Zeit.“

ISC Cloud ’10 – Zwischenstand

28. Oktober 2010

Wie ich soeben erfahren habe, sind genau 165 Teilnehmer auf dieser Veranstaltung – meine Schätzung (maximal 200) war also gar nicht so schlecht :-)

Eine interessante Folie aus dem Vortrag von Boyd Davis (Intel, USA) möchte ich noch erwähnen. Und zwar über die Lücke zwischen „traditionellen“ Computer-Benutzern und High End HPC-Benutzern. Traditionelle Desktop-Benutzer gibt es sehr viele, und die „Aufgaben“ die erledigt werden sollen sind vergleichsweise einfach. Auf der anderen Seite die HPC-Benutzer, wovon es sehr wenig gibt, die aber hochkomplexe Probleme zu lösen haben. Dazwischen eine Lücke. Diese Lücke möchte Intel mit seiner Cloud 2015 Vision füllen – und Intel sieht die Cloud zukünftig überall: auch z.B. auf Smartphones oder im intelligenten TV-Gerät.

Heute Nachmittag habe ich die Gelegenheit, mit dem Keynote-Speaker „Dan Reed“ (Corporate Vice President, Microsoft, USA) persönlich zu sprechen. Eine tolle Gelegenheit und ich werde heute oder morgen noch über die Ergebnisse des Gesprächs bloggen…

ISC Cloud ’10 – Keynote „Technical Clouds“

28. Oktober 2010

Die Keynote am heutigen Donnerstag von Prof. Dr. Dan Reed (Microsoft USA) zum Thema „Technical Clouds: Seeding Discovery“ war sehr interessant. Dan Reed sprach kurz über die Vergangenheit, traute sich dann aber, einen Blick in die Zukunft zu werfen – und hier vor allem auf technologische Fragestellungen und Lösung im HPC- und Cloud-Umfeld. Kurz zur Geschichte: Dan Reed stellte die verschiedene Ären vor, begonnen mit der Mainframe-Ära, der „Vor-PC-Ära“ (1980), der PC-Ära (1995), der Internet-Ära (2000) und der heutigen „Consumer era“. Das Interessante daran: dass sich die Antworten auf Technologiefragen kontinuierlich geändert haben und sich auch weiterhin ändern werden. Dies betrifft sowohl Hardware, als auch Software und mit dieser ständigen Änderung gehen auch ständig neue Herausforderungen einher. „Order of magnitude always matters“ war das Motto und dies stellte er anhand verschiedener Beispiele vor:

Die Datenexplosion. Durch den Fortschritt in der Wissenschaft fallen auch immer mehr Daten an. Z.B. sammeln neuen Satelliten in Wochen mehr Daten an, als Satelliten früherer Generationen in Monaten gesammelt haben. Und heute? Wie viele Wochen muss der LHCC messen, bis 40 Terabyte Daten anfallen? Eine Sekunde!

Bei der Frage zum Unterschied zwischen HPC und Cloud, verglich Dan Reed dies mit Zwillingen, die bei der Geburt getrennt wurden. Denn viele der Fragestellungen – wie Hardware, Netzwerk, Energie… – trifft man in beiden Umfeldern wieder. Und nicht nur die Fragestellungen sind gleich, meist sind auch die Personen, die diese Fragen bearbeiten, gleich :-) Doch natürlich gibt es auch Unterschiede, so Dan Reed, hautsächlich in den Bereichen Speicher und Netzwerk: Im HPC-Umfeld findet man üblicherweise ein SAN, in der Cloud eher selten; im HPC-Umfeld ist Infiniband oder 10GigE üblich, in der Cloud eher nicht. Und warum? Weil es zu teuer ist. Und Dan Reeds Anekdote dazu „You buy the interconnect, and get the cluster for free“ (zumindest fühlt es sich so an). Und trotz dieser Unterschiede: Die Hardware bleibt die gleiche und HPC und Clouds werden sich weiter annähern.

Speicher: Auch hier muss über neue Möglichkeiten nachgedacht werden. Denn Festplatten gelten heute als die „letzten mechanischen Komponenten“. Und damit sind sie Energiefresser und stellen die größte Fehlerquelle dar – zudem sind sie auch noch vergleichsweise langsam. Und weiter in die Zukunft gesehen, können Clouds so nicht unendlich skalieren. Irgendwann ist man nur noch mit der Fehlerbehebung beschäftigt. Auch hier muss also über neue Wege nachgedacht werden, denn Zuverlässigkeit ist ein weiterer Punkt, der in Zukunft immer wichtiger wird: Wie schafft man es, dass eine Anwendung in der Cloud weiterläuft – auch, wenn es Fehler auf Hardwareebene gibt?

Die abschließenden Worte von Dan Reed noch zu zwei Fragen: Wenn man in die Top 20 der Top 500 möchte, dann ist „Cloud“ vielleicht nicht die richtige Antwort. Und die Frage „Soll ich meine Anwendung nun ins Grid oder auf die Cloud schieben?“ lässt sich nicht pauschal beantworten. Dan Reeds erste Überlegung dazu: „Ist die Anwendung hauptsächlich parallel?“. Dann wird sie vermutlich im Grid schneller laufen. Andererseits ist MPI in der Cloud ebenfalls möglich – ggf. mit Performance-Einbußen. Allerdings sollte man nicht nur die reine Rechenzeit betrachten, sondern die Zeit bis das Ergebnis da ist. Im Grid kann es passieren, dass man zunächst einige Zeit in der Queue verbringt bis die Anwendung anläuft. In der Cloud (unter dem Motto „Just in Time Computing“) läuft die Anwendung ggf. langsamer, es entfällt allerdings die Wartezeit in der Queue.

ISC Cloud ’10 – Opening Session

28. Oktober 2010

Bevor ich zu inhaltlichen Themen komme, zunächst mein persönlicher Eindruck: Als Spin-off der ISC, das erste „ISC event“ zum Thema „cloud computing“ in Frankfurt. Auf der ISC 2010 in Hamburg waren ~2000 Besucher und ich war gespannt, wie viele es auf dem ersten ISC event werden würden. Mit maximal 500 Teilnehmern hatte ich gerechnet, geschätzt sind es jedoch nur knapp 200 – diese aber immerhin, so Prof. Dr. Hans Meuer,  aus 20 verschiedenen Ländern – von einem internationalen Event lässt sich also durchaus sprechen. Dadurch fällt das Event natürlich etwas gemütlicher als die ISC aus, immerhin findet alles in einem bzw. maximal zwei Räumen parallel statt und eine große Ausstellung gibt es auch nicht.

Dennoch, mit Cloud Computing auf der Spitze des Gartner Hype Cycles war es das richtige Thema für das erste ISC event. Und prognostiziert werden – so Prof. Dr. Wolfgang Gentzsch (ISC cloud General Chair) – Millionen neuer Jobs.

Noch kurz zu diesem Blog: Ich arbeite intensiv mit dem Windows HPC Server – daher wird dieser Blog, auch wenn er allgemein „HPC Blog“ heißt, hautpsächlich die Windows-Plattform bedienen.