Análisis incidencia Orange. POST MORTEM, PERI MORTEM o PRE MORTEM.

Lectura Tiempo de lectura: 10 minutos.
Tomás Ledo
5 de enero de 2024

No me gusta hacer análisis post mortem. Cada vez que escriba algo con esta palabra, empezaré así, como ya hiciera en publicaciones pasadas analizando alguna de nuestras incidencias. Mucho se está hablando en las redes y en los medios de comunicación sobre la caída que sufrió Orange España el miércoles 3 de enero de 2024, vamos a tratar de arrojar un poco de luz para que se pueda entender qué es lo que pasó.

telegram cloud document 4 5818970852540027481

A las 16:06 del 3 de Enero atendía la llamada de un cliente comentando que no le funcionaban sus servicios, que no podía usar su correo pero que tampoco podía ver nuestra página. Mis compañeros que están atentos (somos un equipo muy cohesionado) comentaron: «parece que Orange tiene alguna incidencia, ya son varios los que estamos atendiendo con problemas.» Concretamente Pedro Frejo le lanzó la pregunta a Adrián Almenar: «oye ¿puedes ver si tenemos algún problema con Orange?

Adrián comenzó a investigar viendo que, desde su conexión a Internet, los paquetes se quedaban en la frontera de su operador y no terminaban de alcanzar a Orange. Podríamos habernos quedado en «ya… Orange tiene problemas.» Publicamos en redes, para nuestros clientes y seguidores, cuando hay incidencias globales que pueden afectarnos para minimizar llamadas innecesarias a nuestro servicio de atención al cliente. Y si hay novedades, vamos alimentando la publicación. Eran las 16:11 horas.

image 2

Pero como la tarde estaba tranquila (primeros días del año, mucha gente de vacaciones…) nos permitía invertir algo más de tiempo en investigar un poco más. Así que decidimos montar una sala para hablar todos juntos a ver si descubríamos algo. Adrián analiza en nuestra frontera con DECIX (Punto Neutro Alemán del que somos miembros en Madrid) que es donde intercambiamos el tráfico con Orange y empezó a ver prefijos de red inválidos, eran las 16:22. Y lo primero que pensamos: «alguien de red de Orange ha metido la gamba actualizando RPKI

image

Lo que menos podíamos imaginar fue lo que nos pasa nuestro compañero Javier Alonso investigando un poco las redes sociales, viendo cómo los clientes de Orange expresaban su mal estar por la incidencia. Se comentó en nuestro grupo de coordinación porque no dábamos crédito a lo que estaba sucediendo.

image 1

Empezamos a comentar Eduardo Taboada y yo: «esto… es muy gordo, ¿hacemos un directo y ayudamos a explicar a la gente que es lo que sucede?,» aunque en ese momento para todos era un poco confuso, no veíamos a nadie más indicando la ‘causa Raíz’ del problema. El equipo que estábamos en ese momento, con el inestimable ojo clínico de Adrián Almenar, Javier Alonso y Pedro Frejo que ayudaron con el análisis del incidente, decidimos tratar de ‘calmar’ un poco las aguas y contar que estaba sucediendo en diferentes grupos y con otros colegas de profesión. Ya había algunos pidiéndonos que hiciéramos un directo en nuestro canal y lo explicásemos.

A partir de nuestro directo a las 17:45 la cosa ya se se desmadró y la gente (y los típicos “gurús”, esos que pululan por las redes sociales y medios de comunicación) empezaron a lanzar mensajes de alarma infundados, del tipo: «les han hackeado, pidieron un rescate y no pagaron, tus datos están en peligro, tienen el control de sus routers, hay que darle caña a Orange, etc«… vamos, el típico linchamiento en el que todos, con las antorchas, van a darle ‘leña al mono que es de goma’.

Vayamos por partes:

La causa

En este caso el problema vino por una filtración de la contraseña de acceso a RIPE de un usuario de Orange. Os lo explicamos en el directo que hicimos.

RIPE, que es centro coordinador de las direcciones IP para Europa, Oriente Medio y Rusia, es el encargado de almacenar en sus bases de datos las direcciones IP y rutas de los operadores que acceden a internet (por sus siglas LIR –Local Internet Registry-). 

Estos operadores son organizaciones en su ‘argot’, como Tecnocrática, Orange, Movistar y muchos otros proveedores de internet y grandes empresas.

Esta fuente única de información, además, almacena por así decirlo las direcciones IP y el número del sistema autónomo (ASN). Ambos datos están, por así decirlo, “conectados” (en lenguaje llano) cada sistema autónomo tiene una serie de direcciones IP y hay una equivalencia entre el número y la IP.

Por poner un ejemplo, Tecnocrática tiene el ASN 15954 y tiene sus prefijos o recursos de red, ambos están relacionados y los routers de internet conocen estos datos.

De forma adicional hay una norma llamada RPKI, que permite validar estos datos mediante certificados (hemos enlazado el podcast de nuestro compañero Eduardo Collado si queréis ampliar más información sobre esto) de tal forma que nadie se haga pasar por nosotros anunciando una serie de direcciones IP que no son nuestras.

Hasta aquí todo bien, nosotros anunciamos el rango, el router destino consulta y ve que es cierto, que esas direcciones IP son nuestras, y que esa información es segura por el RPKI.

Pues lo que pasó es que este ‘malvado’ cambió el ASN de determinadas IP que se anunciaban a través del ASN 49581 que no se corresponde con el ASN 12479 que es el de Orange España y, por lo tanto, el RPKI era inválido.

En este caso, casi todos los operadores de internet, que validan RPKI, empezamos a rechazar las conexiones, y los rangos de red que aglutinan cientos de miles de IP de Orange empezaron a no tener comunicación con nadie, y como resultado los usuarios no pueden comunicarse con nada ya que no podían salir de la propia red de Orange.

¿Entonces los datos estaban en peligro?

Pues no, porque como hemos comentado antes, los datos no salían de Orange a ningún sitio ya que todos los rechazábamos al no venir de un origen fiable. Los que no usaban RPKI funcionaban sin problema y tampoco vimos ningún anuncio del AS implicado, en cuyo caso, sí podría haber secuestrado «parte» del tráfico.

¿Y el rescate?

Otro bulo. Si te comprometen la contraseña de RIPE, basta con pedirles que la cambien o solicitar un cambio de contraseña y arreglar el desaguisado si no disponían de más accesos para gestionar su LIR.

¿Entonces porqué tardó tanto?

En primer lugar, porque por desconocimiento o habilidad, no cambió todo, lo cual crea una tremenda confusión. “Hay cosas que funcionan, otras no. ¿Qué pasa? ¿Qué cosa tan rara?”. Y porqué no todo el mundo además usa RPKI y estos proveedores no rechazaban nada, fueron inmunes a este cambio de RIPE.

En segundo, el medio de comunicación… y posiblemente la falta de formación, las fechas ‘complicadas’ de vacaciones… se recibe una mención por una red social de una cuenta rara diciendo algo de una cosa llamada RIPE… yo creo que esto no escaló dentro de Orange. Agradecemos la mención de Orange de las 19:12 diciendo que les habían ayudado nuestros mensajes.

image 3
Análisis incidencia Orange. POST MORTEM, PERI MORTEM o PRE MORTEM. 7

Ese hecho provocó que, al no ser una caída total y que los demás rechazáramos los paquetes de red que creíamos que no provenían desde la red de Orange, hubiera un poco de caos, ya que no era una caída total como pasó hace unos pocos meses con Facebook, algunas cosas funcionaban, había clientes operando normalmente, otros no…

De ahí el ojo de mis compañeros en descubrir el origen del problema. Pero mientras se solucionaba, la información se propagaba desde RIPE, y los operadores de red volvíamos a recargar las tablas de enrutamiento con las modificaciones y el ASN correcto de los rangos de direcciones IP. Pues ese proceso lleva tiempo y de ahí el pequeño caos originado. Fijaros en las fechas de cuando nuestros sistemas detectaron el evento, modificación en la base de RPKI y en el RIR (Data Freshness).

image 4
Análisis incidencia Orange. POST MORTEM, PERI MORTEM o PRE MORTEM. 8

¿Conclusión y Moraleja?

Por favor, el doble factor no está para ser menospreciado. La adopción de RPKI debe ser mayor, aun hay grandes organizaciones que no lo implementan, todos los canales de información son una fuente inestimable para ser analizada. La seguridad es proporcional al eslabón más débil de la cadena, el humano. Difundir rumores y el alarmismo no sirve para concienciar, no es sinónimo de formar y ayudar a la gente a tener criterio y entender las cosas, el alarmismo crea más inseguridad, crispación y frustración en los que no entienden.

Posts relacionados

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *