Coinbase ha publicado un detallado informe sobre la interrupción del 7 de mayo que afectó el trading, los depósitos y los retiros durante aproximadamente ocho horas, con una recuperación completa que se extendió a alrededor de 12 horas. La causa raíz: múltiples unidades de refrigeración fallaron simultáneamente en una zona de disponibilidad us-east-1 de AWS, lo que provocó el apagado de servidores debido al sobrecalentamiento.
El informe revela dos fallos que se sumaron y retrasaron la recuperación: un motor de emparejamiento bloqueado en la zona de disponibilidad fallida y una falla silenciosa dentro del servicio gestionado Kafka de AWS que no fue detectada hasta que ya estaba bloqueando la restauración. Coinbase reconoció que el incidente expuso brechas significativas en su arquitectura de conmutación por error y recuperación ante desastres.
El plan de remediación incluye fortalecer la redundancia regional, expandir Kafka de dos a tres zonas de disponibilidad y aumentar la frecuencia de las pruebas de resiliencia. Para una plataforma que maneja miles de millones en volumen diario, una ventana de 8 horas de inaccesibilidad es un evento significativo de credibilidad operativa; las actualizaciones de infraestructura serán la métrica a seguir.