Coinbase hat einen detaillierten Nachbericht über den Ausfall am 7. Mai veröffentlicht, der den Handel, Einzahlungen und Abhebungen für etwa acht Stunden lahmlegte, wobei die vollständige Wiederherstellung etwa 12 Stunden dauerte. Die Ursache: Mehrere Kühleinheiten fielen gleichzeitig in einer AWS us-east-1 Verfügbarkeitszone aus, was zu Serverabschaltungen aufgrund von Überhitzung führte.
Der Nachbericht zeigt zwei sich gegenseitig verstärkende Fehler auf, die die Wiederherstellung verzögerten — eine Matching-Engine, die an die ausgefallene Verfügbarkeitszone gebunden war, und ein stiller Fehler im verwalteten Kafka-Dienst von AWS, der unentdeckt blieb, bis er bereits die Wiederherstellung blockierte. Coinbase räumte ein, dass der Vorfall bedeutende Lücken in seiner Failover- und Katastrophenwiederherstellungsarchitektur aufdeckte.
Der Maßnahmenplan umfasst die Stärkung der regionalen Redundanz, die Erweiterung von Kafka von zwei auf drei Verfügbarkeitszonen und die Erhöhung der Häufigkeit von Resilienztests. Für eine Plattform, die täglich Milliarden umsetzt, ist ein 8-stündiges Zeitfenster der Unzugänglichkeit ein bedeutendes operatives Glaubwürdigkeitsereignis — die Infrastruktur-Upgrades werden der Maßstab sein, den es zu beobachten gilt.