Je raconte ma vie pro

Je ne glisse pas toujours sur les problèmes. Nous avons eu des problèmes d'alertes emails et avons organisé une réunion pour faire une analyse de causes profondes avec l'exploitation, le help desk et les développeurs. Les solutions possibles étaient plus ou moins coûteuses. L'exploitation était déjà sous l'eau. L'assemblée décide que par rapport aux actualités, cela ne vaut pas le coup de traiter ce problème. Il a un impact très fort mais la prochaine fois, on le reconnaitra plus vite, et après tout il n'est arrivé qu'une fois en deux ans.

Dernièrement, nous avons eu un autre problème en production où la home page ne fonctionnait plus. J'étais en réunion toute la journée, le temps que je revienne, le service était rétabli (heureusement :p). Je ne comprenais pas en quoi la cause identifiée pouvait avoir un impact pareil et c'était difficile d'avoir une explication claire. Quand on résout un problème, on est juste content que ce soit réglé et de pouvoir de nouveau vaquer à nos occupations. Surtout quand ça fait deux semaines que les perturbations s'accumulent. L'équipe est déjà usée, poser des questions c'est vraiment l'emm*rder. J'ai eu du mal à avoir une explication claire car il manquait des infos. Le sujet a été évoqué avec quelques opérations à la cafétaria et pour moi ce problème n'aurait pas du se produire dans la mesure où Hudson compile les pages et le build échoue autrement. Les opés n'avaient de toute façon pas connaissance de ce job. C'était bizarre quoi mais bon, c'était réglé et j'avais moi aussi d'avancer sur autre chose.

Un mois plus tard, même problème. Site cassé. Parce que c'était la deuxième fois, big réunion entre l'exploitation et le développement pour éviter que le problème ne se reproduise. Une des causes était une erreur de manipulation. On ne s'en est pas aperçu parce que le développeur front concerné n'était pas en destinataire du job hudson et la modification est partie trop vite en production. Pour le coup, là, je me s'en suis voulue de ne pas m'être accrochée la fois précédente. Je ne vois pas de bonne raison de ne pas l'avoir fait, cela aurait évité la deuxième apparition.

A la poursuite (ou pas) des problèmes

Poser plus de deux questions sur un incident résolu (temporairement) est vécu comme un emmerdement maximal de la part de celui qui cherche à comprendre. C'est comme si on en posait mille. Encore plus quand plusieurs services sont impliqués. Cela tourne assez vite en interrogatoire, même sans le vouloir. Potentiellement très énervant. Procéder à l'exercice des X pourquoi est bien plus facile lors d'une rétrospective.

Pour l'équipe, c'est un véritable dilemme de s'attarder encore plus sur un incident résolu (= continuer de souffrir pour un avenir meilleur) ou de continuer le courant (= se faire plaisir tout de suite). Il n'y a pas de fierté à montrer les problèmes("rha fait chier lui"), personne ne nous remercie d'ailleurs pour ce genre de choses, presqu'au contraire. C'est démoralisant de ne pas pouvoir juste se réjouir d'avoir résolu l'incident.

La gestion des problèmes dans ITIL ou l'établissement d'un diagramme de Pareto dans le lean permet de focaliser l'effort sur la résolution la plus rentable : les incidents les plus fréquents. La fréquence n'est pas tout car un même problème peut avoir des causes très diverses à chaque apparition. Il peut aussi être pertinent de travailler sur la cause la plus fréquente, mais cela demande déjà une analyse plus aboutie de chaque incident. Ce temps d'analyse représente moins de temps de développement.

Est ce qu'un incident grave mais qui n'arrive qu'une fois mérite plus la mise en place de solutions durables ? Après tout, c'est résolu (pour le moment) et il y a tellement d'autres chats à fouetter.

Pour moi, oui. Un problème à très fort impact doit subir au moins la même analyse et je continerai d'insister en ce sens. C'est compliqué à défendre, mais possible en mesurant les impacts économiques. C'est toujours du temps de développement en moins. Il n'y a finalement pas besoin de monter de dossier pour défendre ce qui nous importe. D'autres fois, je privilégierai le courant, il n'y a pas de mode opératoire magique qui permette de prendre la bonne décision à chaque fois.