Un world wide web bien fragile !

word wide web. une erreur de DNS = panne mondiale

Un world wide web bien fragile !

Partager :

Et si notre world wide web était en train de devenir un weak world wide web ?

S’il y a plus de 20 ans que vous avez passé votre bac, vous vous souvenez sans doute du bug de l’an 2000. Je me rappelle avoir passé mon réveillon à vérifier après minuit que tout fonctionnait correctement sur nos différents serveurs : site internet, serveur de réseau local mais aussi Minitel ! Car à l’époque la plupart des outils développés par FORMITEL étaient déjà accessibles sur internet mais aussi encore sur Minitel. Il fallait être minutieux, descendre dans le code pour valider la façon dont les dates étaient stockées et traitées, mais le système n’était pas aussi complexe que le web aujourd’hui. Ce fut à ma connaissance une des premières prises de conscience sur le fait qu’une erreur informatique pouvait causer des secousses au niveau mondial (panne dans le contrôle aérien, systèmes d’alimentation électriques….)

bug an 2000

L’incident qui a touché hier l’ensemble des services du groupe Facebook a rappelé que complexité ne rime pas toujours avec rapidité de résolution des problèmes. Instagram, Whatpass, Messenger : rien ne fonctionnait correctement. Le CTO de facebook a même utilisé un outil concurrent, twitter, pour communiquer avec ses clients.

facebook s'excuse en utilisant twitter

Autour de cette panne mondiale, deux éléments concrets montrent que l’on ne peut pas vivre uniquement dans le virtuel, comme en rêvent certains dirigeants de GAFAM :

  • à priori il s’agit d’une erreur humaine. Uns DNS (Domaine Data Name) serveur ne se détraque pas tout seul. Il y a probablement, quelque part, un opérateur qui a fait une faute de frappe dans un fichier de paramétrage. Les dirigeants de Facebook ont déjà vu passé ce genre de souci, par exemple en 2013 mais la cause était peut être cette fois différente. Faudrait-il laisser cela à l’IA pour que ces fichiers deviennent plus fiables ? Pas certain…
  • les limites du télétravail. Le bug a mis du temps à être résolu parce que les collaborateurs facebook ne pouvaient plus se connecter à distance, leurs accès en ligne aux applications de l’entreprise étant eux aussi touchés par la panne. Les ingénieurs se sont donc déplacés physiquement pour pouvoir accéder aux serveurs. Il semblerait même y avoir eu certains soucis pour accéder aux salles techniques puisque les badges d’accès ne répondaient plus non plus. Vous imaginez si le serveur clé avait été immergé au fond de l’océan pour profiter du refroidissement par eau de mer comme le propose microsoft ? Peut être prévoir des doubles formations ingénieur informatique + homme grenouille ?
serveur datacenter immergé microsoft

La semaine dernière nous avons plus directement étaient impactés par cette complexité. Le 30 septembre, un des certificats SSL utilisés dans la chaîne de certificats publics / privés utilisée pour permettre à nos sites d’afficher un joli petit cadenas dans vos navigateurs est arrivé en fin de vie. Mine de rien, ce petit coquin de IdentTrust DST Root CA X3 a perturbé la vie de millions de site web en plus des notres. De notre côté les perturbations ont été faibles et nous avons corrigé rapidement le défaut. Mais cela nous a rappelé à quels points les services offerts à nos clients et leurs utilisateurs finaux dépendent de couches plus basses sur lesquelles nous n’avons que très peu de pouvoir !

Ce billet va sembler un peu technique à certains de nos lecteurs. Il souligne en tout cas l’interaction entre Digital et Management. N’oubliez pas de former les opérateurs pour ne pas faire de bêtises lors des modifications de DNS. De mettre en place du knowledge management pour profiter en 2021 des erreurs commises en 2013. Faire appel à des compétences pointues pour choisir les bonnes architectures et ne pas construire des châteaux de sable basés sur des couches pas assez fiables…

1 Comment
  • Pablo SANTAMARIA
    Posté à 22:35h, 13 octobre

    Une semaine après Facebook, ce matin c’est OVH qui subissait une panne générale pendant une heure. quelques milliers de sites web innaccessibles (dont celui sur lequel vous êtes en train de lire ce billet). Cause de la panne : exactement le même genre d’erreur : erreur humaine pendant une mise à jour d’un paramètre sur un routeur. Différence de réaction cependant, Klaba a tout de suite expliquer clairement la situation sur twitter et tout est rentré dans l’ordre en une heure environ.

Poster un commentaire