Coinbase a publié un rapport détaillé sur l'interruption du 7 mai qui a interrompu le trading, les dépôts et les retraits pendant environ huit heures, avec une récupération complète s'étendant à environ 12 heures. La cause principale : plusieurs unités de refroidissement ont échoué simultanément dans une zone de disponibilité AWS us-east-1, déclenchant des arrêts de serveurs en raison de la surchauffe.
Le rapport révèle deux défaillances cumulatives qui ont retardé la récupération : un moteur de correspondance bloqué dans la zone de disponibilité défaillante, et une défaillance silencieuse à l'intérieur du service Kafka géré par AWS qui est passée inaperçue jusqu'à ce qu'elle bloque déjà la restauration. Coinbase a reconnu que l'incident a mis en évidence des lacunes significatives dans son architecture de basculement et de récupération après sinistre.
Le plan de remédiation comprend le renforcement de la redondance régionale, l'expansion de Kafka de deux à trois zones de disponibilité, et l'augmentation de la cadence des tests de résilience. Pour une plateforme traitant des milliards en volume quotidien, une fenêtre d'inaccessibilité de 8 heures est un événement de crédibilité opérationnelle significatif — les mises à niveau de l'infrastructure seront le critère à surveiller.