Xen,la faille XSA-108 et la résilience…

 

 Christos Kalantzis

#AWS Reboot-Apocalypse? #Netflix runs #Cassandra. Bring it on!

 

Ces dernières semaines un faille Xen à prit de cours beaucoup de fournisseurs de cloud basé sur Xen (AWS, rackspace et quelques autres)  (note: c’est la faille XS-108 dévoilé officiellement le 1 octobre). Ceux-ci se sont engagés dans une espèce de course contre la montre en quelques semaines pour mettre à jours leurs serveurs. Et pourtant à travers les tempêtes de reboot, assez peu de services ont été impactés, les meilleurs n’ayant même pas eu d’impact client !

Parmi ceux-ci, l’un d’eux, qui fait ça pub en ce moment en France a expliqué les raisons de cet état de résilience. Il est en particulier, notoirement connus qu’ils utilisent ce qu’il ont nommé eux même le “Chaos Monkey” et une stratégie dite de Chaos  Engineering qui à pour effet de mettre régulièrement à mal leur architecture de production. Cette best-practice, leur à permis, par exemple, d’être serein sur les reboot de serveurs (VM) impacté lors des mise à jours mais aussi, que le dit reboot n’impact pas le service en lui-même, deux choses primordiales.

Parmi les autres atouts, c’est leur choix de Cassandra, qui privilégie la tolérance au partitionnement versus la consistance, qui permet aussi un grande résilience lors de tous ces reboots, voulut ou non, avec comme autre choix le remplacement automatique de tout nœud défaillant plutôt que sa réparation, ce que permit ce choix de BDD. Pour ce que les chiffres intrigue : il y a eu 218 serveurs Cassandra, 22 ont eu un problème de reboot et on été remplacé avec 0 interruption pour le service.

On peut en tirer comme leçon que les tests répétés, voire continuel, sur toutes les couches (même sur la persistance) sont un des meilleurs atouts pour une bonne résilience. Mais, aussi, que les choix d’architecture permette d’y répondre d’une manière efficace.

Leave a Reply

You must be logged in to post a comment.