Atlassian Cloud - aktuelle Probleme

DSchuck · 12. April 2022 um 14:43

Wir stehen kurz davor, die Migration von Server zu Cloud zu beginnen (für Confluence und Jira). Da sind die aktuellen Probleme, die Atlassian in der Cloud hat, nicht gerade ermutigend:

Ich weiß, dass das (vermutlich) nur einen kleinen Prozentsatz von Kunden betrifft. Die dafür aber heftig. Wenn ich mir vorstelle, dass wir zu den 60% der Betroffenen gehören würden, die nun seit einer ganzen Woche einen Totalausfall hätten, wird mir ganz anders (Stand gerade: „Functionality for 40% of impacted users has been restored.“).

Mir ist auch klar, dass Ihr da weder etwas tun könnt noch (momentan) etwas Klärendes beitragen könnt. Dennoch: wenn das gelöst und geklärt ist, würde mich sehr interessieren, was Seibert Media zu dem Vorfall sagt und ob sich daraus Konsequenzen ergeben.

Viele Grüße
Dietmar

mseibert · 12. April 2022 um 20:49

Wir haben Kunden die Betroffen sind und arbeiten gemeinsam mit Atlassian, um denen zu helfen. Es ist tatsächlich nicht schön und für die Kunden grenzt es laut deren Beschreibung an Geschäftsschädigung. Ich will da nichts beschönigen.

So ein Missgeschick und Ausfall ist natürlich auch keine Werbung für die Atlassian Cloud.

Und trotzdem stehe ich weiterhin fest hinter dem Weg von Atlassian und für die Atlassian Cloud. Unser Managed Hosting ist nämlich auch leider nicht frei von Fehlern und Problemen. Und ich bin ganz sicher, dass es bei Euch, @DSchuck auch schon intern zu Ausfällen gekommen ist.

Es gehört einfach zur Realität dazu, dass Server - auch von Cloud-Diensten - nicht erreichbar sein können.

Fakt ist:

Atlassian hat mehr Personal als wir und jeder unserer Kunden.
Atlassian kennt sich mit dem Betrieb von Atlassian-Produkten besser aus als jedes andere Unternehmen.
Seit Jahren wir fast nur noch in die Atlassian Cloud investiert. Wenn man sich jetzt die neuen Produkte von Atlassian in Kombination mit den Cloud-Produkten ansieht, dann würde ich vermutlich eher eine geplante Downtime von einer Woche pro Jahr in Kauf nehmen, als dauerhaft „on premise“ zu bleiben.

Es gibt ja weiterhin Data Center. Aber ich glaube trotzdem nicht, dass die aktuellen Probleme bei unseren Kunden dazu führen werden, dass ich das eher empfehlen kann.

Was daraus zu lernen ist? Ich bin sicher, dass Atlassian intern da Einiges heraus ziehen wird. Die dürften sich sehr wohl bewusst über die Situation sein und genau prüfen, was getan werden kann, um sowas künftig zu verhindern.

Wir selbst werden das sicher zum Anlass nehmen, um zu prüfen ob und wie ggf. „unabhängige“ Backups möglich sind. Allerdings sei auch gesagt, dass unseren betroffenen Kunden es wohl auch nicht helfen würde, wenn sie jetzt ein Backup in einer neuen Instanz einspielen könnten.

Ich hoffe, dass das ein bisschen bei der Einordnung helfen kann.

DSchuck · 13. April 2022 um 08:16

Danke für die Einordnung. Ich sehe das grundsätzlich genauso.

Natürlich hatten auch wir schon Ausfälle. Ich vermute (und hoffe), dass auf lange Sicht Cloud-Dienste sowohl sicherer als auch als auch ausfallärmer sind als on premise Systeme. In diesem speziellen Fall wären wir allerdings lokal vermutlich schneller gewesen als das jetzt in der Atlassian Cloud läuft (und nicht mal da bin ich mir sicher).

Wenn der Fokus auf dem Einzelfall liegt, ist die Wahrnehmung halt anders, als wenn man das große Bild sieht. Möglicherweise ist es hier ein bisschen wie bei Schiffs- oder Flugzeug-Unglücken: statistisch sind die viel sicherer als der Individualverkehr, aber wenn etwas passiert, betrifft es viele ganz schlimm und ohne eigene Einflussmöglichkeit.

Dieser Vorfall ist nicht nur eine Geschäftsschädigung für die betroffenen Kunden, sondern auch für Atlassian selbst. Für eine cloud first company ist das vielleicht kein GAU, aber schon ein sehr ernster Unfall. Der sich (in dieser Form) möglichst nie wieder ereignen sollte.
Insofern ist es auch meine Hoffnung, dass das Atlassian dazu bringt, Verbesserungen vorzunehmen.

Ich kann momentan auch nicht sehen, dass etwas wie „unabhängige Backups“ wirklich etwas helfen würde. Das stellt für mich das Konzept von Cloud-Diensten auf den Kopf. Ich muss mich auf den Cloud-Anbieter verlassen können. Wenn ich dieses Vertrauen nicht habe, muss ich on premise bleiben.

mseibert · 13. April 2022 um 08:54

Ja, wir hatten hier auch schon Ausfälle und meist dauerten die nur Minuten oder maximal mal Stunden. Das ist schon ungewöhnlich lang und wurde sogar heute von heise und der t3n aufgegriffen. Fakt ist aber auch, dass wir nicht wissen, was genau wirklich passiert ist. Meist veröffentlicht Atlassian „after the fact“ eine sehr umfangreiche Post Mortem - Analyse. Die sollte dann von Interessierten durchgelesen werden.

Es sind wohl auch „nur“ 400 von insgesamt 200.000 Kunden betroffen. Insofern hätte ich mir gewünscht, dass der Kelch an all unseren Kunden vorbei geht.

Und ja, man muss Atlassian seine Daten anvertrauen. Wenn man das nicht kann, ist die Cloud nichts. Blöderweise ist das inzwischen nur noch eine „oberflächliche“ Wahl. Den die Cloud-Produkte sind einfach ausgereifter. Wer als das Vertrauen nicht hat, verzichtet auch auf Funktionen, Usability und Integrationen mit anderen Diensten. Ich glaube nicht, dass wir das 2024, wenn Server ausläuft noch mit gutem Gewissen empfehlen können.

Insgesamt ist das ein blödes Schlamassel. Aber es ist eben einfach auch die Realität. Da kommt man nicht dran vorbei. Sowas passiert. Und das sagt sich natürlich leichter, wenn man nicht selbst betroffen ist.

DSchuck · 13. April 2022 um 08:58

Gerade hat Atlassian (endlich) eine erste Zusammenfassung in ihrem Engineering Blog veröffentlicht:

mseibert · 13. April 2022 um 10:04

Ja, sowas meinte ich. Zumindest kann man damit verstehen, warum es so lange dauert. Und ja, das unsere Kunden in der Regel nur eine oder wenige Instanzen betreiben, hätten die es leichter mit der „Recovery“. Das ist schon ein Cloud-spezifisches Problem.

mseibert · 13. April 2022 um 21:51

Wir werden regelmäßig von Analysten zu Atlassian befragt. Im Gegenzug erhalten wir deren Reports über Atlassian. Elemente darin, dass in diesem Zusammenhang spannend ist:

Dieser Vorfall wird für Börsenanalysten sehr detailliert aufbereitet. Da hat Atlassian sich vermutlich auch zeitlich selbst ein Ei ins Nest gelegt, weil der Bericht natürlich zur Teams 22 erstellt wurde und der Ausfall jetzt zeitgleich stattfand.
Die Analysten beschätzen den Schaden, den Atlassian durch diesen Ausfall erleiden wird auf 4 Millionen US-Dollar.