Dizaine difficile pour OVH lancé dans la gestion d’un incendie qui lui a valu la perte du datacenter dénommé SBG2 sur son site de Strasbourg. En effet, l’addition est désormais plus salée pour le leader français et espoir européen de l’hébergement web. L’entreprise a frôlé un nouvel incendie et décide y faisant suite de l’abandon du datacenter SBG1. Qu’est-ce qui explique cette série de départs en fumée ? La piste de l’erreur de conception de l’alimentation électrique n’est-elle pas à explorer ?
La fumée dans le datacenter SBG1 provenait d’un lot de 300 batteries stockées en son sein dans un local non utilisé. Dans la foulée, OVHCloud a annoncé que tous les serveurs SBG1 seraient finalement déplacés sur d'autres centres de données situés sur le site de Strasbourg ou sur ses campus de Gravelines et Roubaix. L’entreprise avait pointé du doigt un dysfonctionnement d’un onduleur comme cause de l’incendie qui a détruit le datacenter SBG2. À date, 60 % des VPS de SBG3 sont en principe fonctionnels, contre 25 % pour l'offre bare metal. On reste dans l’attente de 40 % de Private Cloud (pCC). Le travail se poursuit. Il en va de même pour SBG4, avec le redémarrage attendu pour ce mercredi 24 mars.
La piste de l’erreur de conception de l’alimentation électrique du site est-elle à exclure ?
Dans une mise à jour de gestion d’incident survenu en 2017 Octave Klaba explique que :
« Ce matin à 7 h 23, nous avons eu une panne majeure sur notre site de Strasbourg (SBG) : une coupure électrique qui a mis dans le noir nos trois datacentres SBG1, SBG2 et SBG4 durant 3h30. Le pire scénario qui puisse nous arriver.
« Le site de SBG est alimenté par une ligne électrique de 20 kV composée de deux câbles qui délivrent chacun 10 MVA. Les deux câbles fonctionnent ensemble, et sont connectés à la même source et sur le même disjoncteur chez ELD (Strasbourg Électricité Réseaux). Ce matin, l’un des deux câbles a été endommagé et le disjoncteur a coupé l’alimentation des datacentres.
« Le site SBG est prévu pour fonctionner, sans limite de temps, sur les groupes électrogènes. Pour SBG1 et SBG4, nous avons mis en place, un premier système de deux groupes électrogènes de 2 MVA chacun, configurés en N+1 et en 20 kV. Pour SBG2, nous avons mis en place trois groupes en N+1 de 1.4MVA chacun. En cas de coupure de la source externe, les cellules haute tension sont reconfigurées automatiquement par un système de bascule motorisé. En moins de 30 secondes, les datacentres SBG1, SBG2 et SBG4 sont réalimentés en 20 KV. Pour permettre toutes ces bascules sans couper l’alimentation électrique des serveurs, nous disposons d’onduleurs (UPS) sachant fonctionner sans aucune alimentation durant huit minutes.
« Ce matin, le système de basculement motorisé n’a pas fonctionné. L’ordre de démarrage des groupes n’a pas été donné par l’automate. Il s’agit d’un automate NSM (Normal Secours Motorisé), fournit par l’équipementier des cellules haute-tension 20 kV. Nous sommes en contact avec lui, afin de comprendre l’origine de ce dysfonctionnement. C’est toutefois un défaut qui aurait dû être détecté lors des tests périodiques de simulation de défaut sur la source externe. Le dernier test de reprise de SBG sur les groupes date de la fin du mois mai 2017. Durant ce dernier test, nous avons alimenté SBG uniquement à partir des groupes électrogènes durant 8H sans aucun souci et chaque mois nous testons les groupes à vide. Et malgré tout, l’ensemble de ce dispositif n’a pas suffi aujourd’hui pour éviter cette panne.
« Vers 10h, nous avons réussi à basculer les cellules manuellement et nous avons recommencé à alimenter le datacentre à partir des groupes électrogènes. Nous avons demandé à ELD de bien vouloir déconnecter le câble défectueux des cellules haute tension et remettre le disjoncteur en marche avec un seul des deux câbles, et donc limité à 10 MVA. La manipulation a été effectuée par ELD et le site a été réalimenté vers 10 h 30. Les routeurs de SBG ont été joignables à partir de 10 h 58.
« Depuis, nous travaillons, sur la remise en route des services. Alimenter le site en énergie permet de faire redémarrer les serveurs, mais il reste à remettre en marche les services qui tournent sur les serveurs. C’est pourquoi chaque service revient progressivement depuis 10 h 58. Notre système de monitoring nous permet de connaitre la liste de serveurs qui ont démarré avec succès et ceux qui ont encore un problème. Nous intervenons sur chacun de ces serveurs pour identifier et résoudre le problème qui l’empêche de redémarrer.
« À 7 h 50, nous avons mis en place une cellule de crise à RBX, où nous avons centralisé les informations et les actions de l’ensemble des équipes. Un camion en partance de RBX a été chargé de pièces de rechange pour SBG. Il est arrivé à destination vers 17 h 30. Nos équipes locales ont été renforcées par des équipes du datacentre de LIM en Allemagne et de RBX, ils sont tous mobilisés sur place depuis 16H00. Actuellement, plus de 50 techniciens travaillent à SBG pour remettre tous les services en route. Nous préparons les travaux de cette nuit et, si cela était nécessaire, de demain matin.
« Prenons du recul. Pour éviter un scénario catastrophe de ce type, durant ces 18 dernières années, OVH a développé des architectures électriques capables de résister à toutes sortes d’incidents électriques. Chaque test, chaque petit défaut, chaque nouvelle idée a enrichi notre expérience, ce qui nous permet de bâtir aujourd’hui des datacentres fiables.
« Alors pourquoi cette panne ? Pourquoi SBG n’a pas résisté à une simple coupure électrique d’ELD ? Pourquoi toute l’intelligence que nous avons développée chez OVH, n’a pas permis d’éviter cette panne ?
« La réponse rapide : le réseau électrique de SBG a hérité des imperfections de design liées à la faible ambition initialement prévue pour le site.
« La réponse longue :
En 2011, nous avons planifié le déploiement de nouveaux datacentres en Europe. Pour tester l’appétence de chaque marché, avec de nouvelles villes et de nouveaux pays, nous avons imaginé une nouvelle technologie de déploiement de datacentres, basée sur les containers maritimes. Grâce à cette technologie, développée en interne, nous avons voulu avoir la souplesse de déployer un datacentre sans les contraintes de temps liées aux permis de construire. À l’origine, nous voulions avoir la possibilité de valider nos hypothèses avant d’investir durablement dans un site.
« C’est comme ça que début 2012, nous avons lancé SBG avec un datacentre en containers maritimes : SBG1. Nous avons déployé huit containers maritimes et SBG1 a été opérationnel en seulement deux mois. Grâce à ce déploiement ultra rapide, en moins de 6 mois nous avons pu valider que SBG est effectivement un site stratégique pour OVH. Fin 2012, nous avons décidé de construire SBG2 et en 2016, nous avons lancé la construction de SBG3. Ces deux constructions n’ont pas été faites en containers, mais ont été basées sur notre technologie de « Tour » : la construction de SBG2 a pris neuf mois et SBG3 sera mis en production dans un mois. Pour pallier les problèmes de place début 2013, nous avons construit très rapidement SBG4, l’extension basée encore sur les fameux containers maritimes.
« Le problème est qu’en déployant SBG1 avec la technologie basée sur les containers maritimes, nous n’avons pas préparé le site au large scale. Nous avons fait deux erreurs : primo, nous n’avons pas remis le site SBG aux normes internes qui prévoient deux arrivées électriques indépendantes de 20*KV, comme tous nos sites de DC qui possèdent plusieurs doubles arrivées électriques. Il s’agit d’un investissement important d’environ 2 à 3 millions d’euros par arrivée électrique, mais nous estimons que cela fait partie de notre norme interne. Deuxio, nous avons construit le réseau électrique de SBG2 en le posant sur le réseau électrique de SBG1, au lieu de les rendre indépendants l’un de l’autre, comme dans tous nos datacentres. Chez OVH, chaque numéro de datacentre veut dire que le réseau électrique est indépendant d’un autre datacentre. Partout sauf sur le site de SBG.
« La technologie basée sur les containers maritimes n’a été utilisée que pour construire SBG1 et SBG4. En effet, nous avons réalisé que le datacentre en containers n’est pas adapté aux exigences de notre métier. Avec la vitesse de croissance de SBG, la taille minimale d’un site est forcément de plusieurs datacentres, et donc d’une capacité totale de 200*000 serveurs. C’est pourquoi, aujourd’hui, pour déployer un nouveau datacenter, nous n’utilisons plus que deux types de conceptions largement éprouvées et prévues pour le large scale avec de la fiabilité : la construction de tours de cinq ou six étages (RBX4, SBG2-3, BHS1-2), pour 40*000 serveurs ; l’achat des bâtiments (RBX1-3,5-7, P19, GRA1-2, LIM1, ERI1, WAW1, BHS3-7, VIH1, HIL1) pour 40 000 ou 80 000 serveurs.
« Même si l’incident de ce matin a été causé par un automate tiers, nous ne pouvons nous dédouaner de la responsabilité de la panne. À cause du déploiement initial basé sur les containers maritimes, nous avons un historique à rattraper sur SBG pour atteindre le même niveau de normes que sur les autres sites d’OVH.
« Cet après-midi, nous avons décidé du plan d’action suivant : la mise en place de la 2e arrivée électrique, totalement séparée, de 20 MVA ; la séparation du réseau électrique de SBG2 vis-à-vis de SBG1/SBG4, ainsi que la séparation du futur SBG3 vis-à-vis de SBG2 et SBG1/SBG4 ; la migration des clients de SBG1/SBG4 vers SBG3 ; la fermeture de SBG1/SBG4 et la désinstallation des containers maritimes.
« Il s’agit d’un plan d’investissement de 4-5 millions d’euros, que nous mettons en route dès demain, et qui, nous l’espérons, nous permettra de restaurer la confiance de nos clients envers SBG et plus largement OVH.
« Les équipes sont toujours en train de travailler sur la remise en route des derniers clients impactés. Une fois l’incident clos, nous appliquerons les SLA prévus dans nos contrats.
« Nous sommes profondément désolés pour la panne générée et nous vous remercions des encouragements que vous nous témoignez durant cet incident. »
La Cnil monte au créneau
La CNIL a pour sa part procédé à la publication d’ une note sur son site qui rappelle les règles du RGPD aux propriétaires des sites web affectés par les incidents OVH. S'ils ont perdu des données personnelles, il faut le signaler à l'autorité :
« Suite à l’incendie du 10 mars 2021 ayant eu lieu dans un centre de données d’OVH à Strasbourg, la CNIL rappelle les obligations en matière de notification de violation en cas d’indisponibilité ou de destruction de données personnelles. La destruction de données personnelles (temporaire ou définitive), y compris accidentelle, constitue une violation de données au sens du RGPD. À ce titre, les responsables de traitement qui hébergeaient des données personnelles au sein des infrastructures touchées doivent documenter la violation (les faits, ses effets et les mesures prises pour y remédier) dans un registre tenu en interne. Les sous-traitants doivent informer leurs clients de l'incident afin que ces derniers puissent remplir leurs propres obligations, dont celle de documentation dans le registre des violations tenu en interne par chacun d’entre eux. »
Sources : Twitter, Cnil
Et vous ?
Qu’en pensez-vous ?
Voir aussi :
OVHcloud lance le processus d'une éventuelle introduction en bourse selon un porte-parole de l'entreprise
Capgemini et OVHcloud signent un partenariat mondial pour permettre aux organisations de mener leur transformation dans le cloud de manière sécurisée et apporter des solutions cloud robustes
OVHcloud s'associe à Orange Business Services afin d'accompagner les projets de migration et de transformation vers le cloud OVHcloud dans «*une approche multifournisseur »
OVHcloud s'associe à IBM et Atempo pour offrir aux organisations européennes une solution de stockage dans le cloud souveraine et compétitive, partenariat basé sur les solutions de stockage sur bande
OVH abandonne le datacenter SBG1 envahi par de la fumée provenant de batteries lors du nouvel incendie maîtrisé :
Le résultat d'erreurs de conception de l'alimentation électrique révélées en 2017 ?
OVH abandonne le datacenter SBG1 envahi par de la fumée provenant de batteries lors du nouvel incendie maîtrisé :
Le résultat d'erreurs de conception de l'alimentation électrique révélées en 2017 ?
Le , par Patrick Ruiz
Une erreur dans cette actualité ? Signalez-nous-la !