Un domingo en mitad de Enero, la proverbial materia fecal fue golpeada por el ventilador en forma de una actualización de seguridad, automática, de un componente esencial en la plataforma de virtualización. El componente en cuestión es Openvswitch. La actualización arregló CVE-2022-4337 y CVE-2022-4338. El problema fue tan sencillo como que la actualización debería haberlo reiniciado al final, pero no lo hizo. Y la solución fue tan sencilla como hacerlo a mano.
Como la vida solo es tan sencilla mirando al pasado, determinar la causa llevó más tiempo que contarlo. Y resolver los últimos coletazos de los problemas derivados de este problema principal, nos llevó buena parte del día. El lector técnico se podrá imaginar lo interesante del asunto simplemente imaginando lo que le pasó al Ceph. Que, por cierto, qué sistema tan magnífico. Para muestra: al final de la incidencia, no se había perdido ni un bit, ni necesitamos tirar de la copia de seguridad de nada.
Tenemos los mejores clientes del mundo
Dejando a un lado las cuestiones técnicas, me parece de justicia resaltar la actitud de los clientes afectados. Por supuesto, muchos llamaron preocupados cuando constataron que algo iba mal. Todo el equipo atendía estas llamadas mientras trabajábamos. La llamada típica consistió en:
- Hola, soy alguien de tal empresa. Estoy viendo que la web empresa.com no carga el formulario de contacto, da un error que dice: «error establishing a database connection».
- Si, tenemos una incidencia en la infraestructura, la estamos atendiendo ahora mismo. Claramente, ha afectado al servidor de base de datos de la web.
- Vale, me quedo más tranquilo/a. ¿Y sabéis cuándo estará arreglado?
- Pues mira, ahora estimamos tal cosa. Si todo va mal, recuperaremos copia antes de tal hora.
- Fenomenal, pues muchas gracias y ánimo
- A ti
Con clientes como estos, ¿qué más podemos pedir? Todos, del primero al último, mantuvieron un tono calmado y profesional. Se aseguraron de que el problema se estaba gestionando. En su mayor parte, se pusieron en nuestros zapatos. Notablemente ausente estuvo la actitud «esto no puede ser» que en otro tiempo y lugar caracterizaba a algunos; creo que cualquiera que se dedique a mantener infraestructura crítica sabrá de qué hablo.
Profesionalidad también es esto: Qué hacer
Lo primero que hay que entender, gaste uno los zapatos que gaste, es que la mera aplicación de presión durante una incidencia, en general, es contraproducente casi siempre. Es tentador: Tengo un problema (por ejemplo, mi web está caída) y quiero que me lo resuelvan YA. Porque es un servicio por el que pago, y pago suficiente como para que funcione.
Sin embargo, hay que rascar un poco la superficie. Al otro lado del teléfono (o del correo electrónico, si no hay otra cosa) hay alguien bajo una gran presión que tiene un trabajo generalmente complejo en el cual los errores se pagan caros.
Lo básico en interactuar con el proveedor
Por tanto, ¿qué podemos hacer durante una incidencia para que un proveedor reciba todo lo que necesita para resolver rápido y bien? Llamar (o escribir) y comunicar lo siguiente:
- Información. Qué es lo que parece que se ha roto. Qué es lo que estamos viendo versus qué esperábamos ver. A veces esto es obvio, pero muchas veces no tanto. Evitar a toda costa las descripciones vagas («algo va mal»): Con esto, estaremos forzando a que sea el proveedor el que busque lo que ocurre, y puede que lo encuentre o puede que no. Suministrar información lo más concreta posible.
- Qué hemos probado. El sencillamente haber probado un par de cosas (por ejemplo: fijo y móvil) antes de llamar/escribir, y facilitar los mensajes de error exactos que hemos visto, recortará (y a veces mucho) tiempo para localizar la incidencia, y por tanto se resolverá antes. Por ejemplo: «Desde Firefox en mi ordenador, dice «Uf. Tenemos problemas para encontrar ese sitio. No podemos conectar al servidor en mipagina.web». Desde el móvil solo dice que no se puede mostrar la página».
- Criticidad. Y motivo de la misma. Nadie es un buen perito de su propio servicio. Pero es importante intentar dar una idea lo más objetiva posible de la importancia del problema: No es lo mismo «la web de mi peña de fútbol está caída, sería bueno que a lo largo del día se resolviera» que «la aplicación que usan en el puerto para pesaje no es accesible, y hasta que no vuelva, los barcos no pueden descargar».
Esto es lo primero, y muchas veces suficiente. Pero si la incidencia es importante, podemos y debemos, por nuestro propio interés, hacer más.
Otras acciones que nos ayudarán durante una incidencia
- Solicitar información. ¿Hay alguna previsión de cuánto se tardará en resolver? Es muy habitual que el tiempo de solución de incidencias sea imprevisible. No sirve de nada presionar para que nos den una estimación. Lo mejor en estos casos, es volver a pedir información en un tiempo razonable. Por ejemplo, una hora.
- Dejar trabajar. Hay que tener en cuenta que el tiempo que pasen los técnicos del proveedor respondiéndonos, es tiempo en que no están atendiendo con todos sus sentidos a la incidencia.
- Gestionar los servicios relacionados. ¿Hay campañas de publicidad activas? Ponerlas en pausa ¿Se puede remitir un aviso a los usuarios de que hay una incidencia? Hacerlo lo antes posible. Etc.
Conclusión
Las incidencias se analizan y se suprimen las causas raíz. Por ello, los servicios de Internet son cada vez más fiables y la frecuencia de las incidencias graves no hace más que reducirse. Pero también son cada vez más complejos, lo que hace que pequeñas incidencias sigan siendo algo casi cotidiano. Saber qué hacer para lidiar con ellas eficazmente es una habilidad esencial, y sencilla de comprender, pero frecuentemente olvidada.
Deja una respuesta