Conception d'un système à haute disponibilité

Meddane · ‎14-08-2022

Les entreprises désireuses d'optimiser la disponibilité de leurs systèmes et données peuvent prendre des mesures extraordinaires pour limiter, voire éliminer toute perte de données. L'objectif est ici de réduire les interruptions des processus essentiels. Si les employés ne sont pas en mesure de réaliser leurs tâches habituelles, l'entreprise risque de voir son chiffre d'affaires diminuer.

Les entreprises mesurent la disponibilité sous la forme d'un pourcentage du temps de bon fonctionnement. La première partie dans cet article est consacrée au « concept des cinq neuf ». Dans de nombreux secteurs, il est vital de respecter les normes les plus strictes en matière de disponibilité, dans la mesure où une interruption peut signer la mort de l'entreprise.

Cet article traite des diverses méthodes que les entreprises peuvent appliquer pour atteindre leurs objectifs en termes de disponibilité. La redondance ne fournit pas seulement une fonctionnalité de sauvegarde. Elle intègre également des composants supplémentaires pour permettre aux ordinateurs ou aux systèmes de réseaux de garantir la disponibilité continue des systèmes. Les composants redondants peuvent être de type matériel (disques durs, serveurs, commutateurs et routeurs) ou logiciel (systèmes d'exploitation, applications et bases de données). Cet article traite également de la résilience, c'est-à-dire de la capacité d'un serveur, réseau ou data center à se rétablir rapidement et à poursuivre son activité.

Les entreprises doivent être prêtes à répondre à un incident en instaurant des procédures qu'elles doivent suivre après un événement. Cet article se termine par une discussion sur la reprise après un sinistre et la planification de la continuité de l'activité, deux facteurs essentiels pour garantir la disponibilité des ressources d'une entreprise.

En quoi consiste le concept des cinq neuf ?

L'expression cinq neuf signifie que les systèmes et les services sont disponibles 99,999 % du temps. Elle signifie également que les interruptions planifiées et non planifiées représentent moins de 5,26 minutes par an. Le graphique illustré ici permet de comparer les interruptions observées pour divers pourcentages de disponibilité.

La haute disponibilité fait référence à un système ou un composant qui est opérationnel sans interruption sur une période donnée. Pour assurer la haute disponibilité il est important de :

Supprimer les points de défaillance uniques
Concevoir un système assurant la fiabilité
Détecter les défaillances avant qu'elles ne surviennent

Préserver une haute disponibilité conformément au standard des cinq neuf peut s'avérer coûteux et consommer de nombreuses ressources. L'augmentation des coûts est due à l'achat de matériel supplémentaire, tel que des serveurs et des composants. De plus, plus une entreprise ajoute de composants, plus cela augmente la complexité de la configuration et, partant, les facteurs de risque. Plus le nombre de pièces est important, plus la probabilité de panne est grande au niveau des composants.

Environnements qui exigent les cinq neuf

Même si préserver la haute disponibilité peut être coûteux dans certains secteurs, plusieurs environnements ont besoin d'atteindre ces 99,999 %.

Au sein du secteur financier, il est essentiel de maintenir une haute disponibilité pour éviter toute interruption des échanges, assurer une conformité continue et conserver la confiance des clients.
La haute disponibilité est indispensable dans le secteur de la santé pour soigner les patients 24 h/24.
Le secteur de la sécurité publique compte des agences qui assurent la sécurité d'une ville, d'une région ou d'un pays.
Le secteur du commerce dépend de l'efficacité des chaînes d'approvisionnement et de la livraison de produits aux clients. Toute interruption peut être catastrophique, notamment pendant les périodes de forte affluence, comme les fêtes.
Le public attend des médias qu'ils le tiennent informé des événements en temps réel. Aujourd'hui, l'actualité est un bien qui se consomme 24 heures sur 24, 7 jours sur 7.

Les menaces qui pèsent sur la disponibilité

Les menaces suivantes font peser un risque élevé sur la disponibilité des données et des informations :

Un utilisateur non autorisé réussit à accéder à la base de données principale d'une entreprise et en compromet la sécurité.
Une attaque DoS a un impact significatif sur les activités d'une entreprise.
Une entreprise subit une perte importante de données confidentielles.
Une application critique cesse de fonctionner.
Une compromission de l'utilisateur racine ou administrateur se produit.
Détection d'un script intersite (XSS) ou d'un partage de serveur de fichiers illégal.
Le vandalisme sur le site web d'une entreprise nuit aux relations publiques.
Événement climatique majeur, tel qu'un ouragan ou une tornade.
Événement catastrophique, tel qu'une attaque terroriste, un attentat à la bombe dans un bâtiment ou un incendie.
Panne de longue durée d'un opérateur télécoms ou d'un service public.
Dégâts des eaux causés par une inondation ou la rupture d'une canalisation.

Catégoriser le niveau d'impact de chaque menace permet à une entreprise d'évaluer son impact financier.

Conception d'un système à haute disponibilité

La haute disponibilité intègre trois principes majeurs pour garantir un accès ininterrompu aux données et aux services :

L'élimination ou la réduction des points de défaillance uniques
La résilience du système
La tolérance aux pannes

Il est important de bien comprendre les différentes méthodes de résolution d'un point de défaillance unique. Un point de défaillance unique peut être un commutateur ou un routeur central, un service réseau et même un membre hautement qualifié du personnel informatique. Le fait est qu'un événement affectant le système, le processus ou la personne peut perturber gravement l'ensemble du système. Il est donc essentiel de disposer de processus, de ressources et de composants qui réduisent les points de défaillance uniques. Pour garantir la redondance, une méthode consiste à utiliser des clusters à haute disponibilité. Ces clusters se composent d'un groupe d'ordinateurs ayant accès au même stockage partagé et présentant des configurations réseau identiques. Tous les serveurs participent simultanément au traitement d'un service. De l'extérieur, le groupe de serveurs apparaît comme un seul appareil. En cas de défaillance d'un serveur du cluster, les autres serveurs continuent de traiter le même service.

La résilience d'un système est sa capacité à maintenir la disponibilité des données et des processus opérationnels malgré une attaque ou un événement perturbateur. En règle générale, cela n'est possible qu'en utilisant des systèmes redondants, tant sur le plan de l'alimentation que du traitement, de sorte que si un système tombe en panne, l'autre puisse prendre le relais sans interruption du service. La résilience d'un système va au-delà du renforcement des appareils. En effet, cela exige que les données et les services restent disponibles alors même que le système subit l'attaque.

La tolérance de panne permet à un système de continuer à fonctionner en cas de défaillance d'un ou plusieurs composants. L'émulation des données est un exemple de tolérance de panne. Si une défaillance se produit, entraînant par là même une perturbation au niveau d'un appareil tel qu'un contrôleur de disque, le système en miroir fournit les données demandées sans que l'utilisateur constate la moindre interruption du service.

Identification de la ressource

Avant de savoir quels doivent être les paramètres de configuration, une entreprise doit savoir quels sont le matériel et le logiciel présents. La gestion des ressources implique un inventaire complet du matériel et des logiciels.

L'entreprise doit connaître tous les composants qui peuvent courir des risques en matière de sécurité, notamment :

Chaque système matériel
Chaque système d'exploitation
Chaque appareil réseau matériel
Chaque système d'exploitation des appareils réseau
Chaque application logicielle
Tous les micrologiciels
Tous les environnements d'exécution
Toutes les bibliothèques individuelles

Une entreprise peut opter pour une solution automatisée pour effectuer le suivi des ressources. Un administrateur doit examiner tout changement de configuration, car cela peut signifier que la configuration n'est pas à jour ou bien que quelqu'un effectue des modifications non autorisées.

Classification des ressources

La classification des ressources regroupe toutes les ressources d'une entreprise sur la base de caractéristiques communes. Une entreprise doit mettre en place un système de classification des ressources (documents, dossiers de données, fichiers de données et disques). Les informations essentielles doivent se voir attribuer le niveau de protection le plus élevé, voire faire l'objet d'un traitement spécial.

Une entreprise peut adopter un système de marquage en fonction de l'importance, de la confidentialité ou du caractère « critique » des informations. Suivez la procédure ci-dessous pour identifier et classer les ressources d'une entreprise :

Déterminez avec précision la catégorie d'identification des ressources.
Établissez la traçabilité des ressources en identifiant le propriétaire de toutes les ressources d'informations et de tous les logiciels d'application.
Déterminer les critères de classement.
Mettez en place un schéma de classification.

Pour plus d'informations sur ces procédures, reportez-vous à l'illustration.

Le gouvernement des États-Unis, par exemple, utilise le critère de confidentialité pour classer les données comme suit : top secret, secret, confidentiel, d'intérêt public et non classé.

Standardisation de la ressource

La gestion des ressources porte sur le cycle de vie et l'inventaire des ressources technologiques, y compris les appareils et les logiciels. Dans le cadre d'un système de gestion des ressources informatiques, l'entreprise indique les ressources qui répondent à ses objectifs. Cette pratique réduit effectivement le nombre de types de ressources. Ainsi, une entreprise n'installera que les applications qui respectent ses directives. En éliminant les applications non conformes, les administrateurs contribuent à une réelle amélioration de la sécurité.

Les standards relatifs aux ressources identifient les produits matériels et logiciels spécifiques qu'une entreprise utilise et prend en charge. Lorsqu'une défaillance survient, une action rapide permet de maintenir en conditions opérationnelles l'accès et la sécurité. Si une entreprise ne standardise pas sa procédure de sélection de matériel, il se peut que le personnel éprouve quelques difficultés à trouver un composant de rechange. Outre des coûts de maintenance et d'inventaire plus élevés, la gestion des environnements non standard requiert des compétences plus poussées.

Identification des menaces

L'United States Computer Emergency Readiness Team (US-CERT) et le département de la Sécurité intérieure des États-Unis (United States Department of Homeland Security) sont les promoteurs d'un dictionnaire des vulnérabilités et expositions courantes (CVE). Ce dictionnaire contient un identifiant standard accompagné d'une brève description, ainsi que de références aux avis et rapports de vulnérabilités. L'organisme MITRE assure la gestion de la liste CVE et de son site web public.

La procédure d'identification des menaces commence par la création d'un identifiant CVE pour les vulnérabilités de cybersécurité connues du public. Chaque identifiant CVE comprend les éléments suivants :

Le numéro d'identifiant CVE
Une brève description de la vulnérabilité de sécurité
Toute référence présentant un intérêt

Analyse des risques

L'analyse des risques est un processus qui consiste à analyser les dangers que représentent les événements d'origine humaine et naturelle pour les ressources d'une entreprise.

Un utilisateur identifie les ressources pour savoir lesquelles protéger. Les objectifs de l'analyse des risques sont au nombre de quatre :

Identifier les ressources et leur importance
Identifier les vulnérabilités et les menaces
Quantifier la probabilité et l'impact des menaces identifiés
Mettre en balance l'impact de la menace et le coût de mise en œuvre de la contre-mesure

On peut envisager l'analyse des risques selon deux approches différentes :

Analyse des risques quantitative

Dans ce cas, des numéros sont attribués au processus d'analyse des risques. La valeur de la ressource correspond à son coût de remplacement. La valeur d'une ressource peut également être mesurée à l'aune des revenus générés par son utilisation. Le facteur d'exposition (EF) est une valeur subjective exprimée sous la forme d'un pourcentage de la valeur perdue par une ressource en raison d'une menace donnée. En cas de perte totale, le facteur d'exposition est égal à 1 (100 %). Dans l'exemple d'analyse des risques quantitative, la valeur de ressource du serveur est de 15 000 $. Une panne du serveur entraîne une perte totale (EF = 1). Si l'on multiple la valeur de ressource de 15 000 $ par le facteur d'exposition 1, on obtient une estimation de perte unique de 15 000 $.

Le taux annualisé d'occurrence (ARO) est la probabilité qu'une perte se produise dans l'année (cette valeur est également exprimée sous la forme d'un pourcentage). Une valeur ARO peut être supérieure à 100 % si une perte peut survenir plusieurs fois par an.

Le calcul de l'estimation des pertes annuelles (ALE) donne des indications aux responsables quant aux dépenses à prévoir pour la protection de la ressource.

Analyse des risques qualitative

L'analyse des risques qualitative se base sur des opinions et des scénarios. Par exemple, il se peut qu'une panne du serveur soit probable, mais que son impact ne soit que minime.

Une équipe évalue chaque menace qui pèse sur une ressource et la représente sous forme graphique dans le tableau. Elle classe les résultats et les utilise comme référence. Elle peut choisir de prendre des mesures uniquement sur les menaces qui sont situées dans la zone rouge.

Les nombres utilisés dans le tableau n'ont pas de rapport direct avec un aspect de l'analyse. Ainsi, un impact catastrophique de 4 n'est pas deux fois plus important qu'un impact minime de 2. Cette méthode est subjective par nature.

Atténuation

L'atténuation des risques consiste à réduire la gravité de la perte ou la probabilité que cet événement survienne. De nombreux contrôles techniques réduisent les risques, comme les systèmes d'authentification, les autorisations de fichiers et les pare-feu. L'entreprise et les professionnels de la sécurité doivent être conscients que l'atténuation des risques peut avoir des effets positifs et négatifs sur l'entreprise. Une atténuation des risques efficace trouve l'équilibre entre, d'une part, les effets négatifs des contre-mesures et des contrôles et, d'autre part, les bénéfices associés à la réduction des risques. Quatre méthodes sont souvent utilisées pour réduire les risques :

Accepter les risques et procéder à une réévaluation périodique
Réduire les risques en mettant en place des contrôles
Éviter les risques en adoptant une approche totalement différente
Transférer le risque à un tiers

Une stratégie à court terme consiste à accepter les risques, ce qui nécessite l'élaboration de plans d'urgence. Les utilisateurs et les entreprises doivent accepter les risques au quotidien. Les technologies modernes réduisent les risques en développant des logiciels de manière incrémentielle, et en fournissant des mises à jour et des correctifs pour remédier aux vulnérabilités et aux erreurs de configurations.

Externaliser des services, souscrire une assurance ou souscrire un contrat de maintenance sont quelques exemples de transfert de risques. Confier l'exécution des tâches essentielles à des spécialistes afin de réduire les risques peut s'avérer judicieux. Cela peut, en outre, donner de meilleurs résultats avec un investissement moindre à long terme. Un plan de réduction des risques efficace peut inclure plusieurs stratégies.

Approche multicouche

Opter pour une protection avancée ne garantit pas à l'entreprise que son système de défense sera impénétrable. Cependant, cela l'aide à réduire les risques en gardant une longueur d'avance sur les cybercriminels.

Si un seul moyen de défense est mis en place pour protéger les données et les informations, il suffira aux cybercriminels de contourner un seul obstacle. Pour être sûre que les données et informations restent disponibles, l'entreprise doit créer plusieurs couches de protection.

Cette approche est celle qui offre la protection la plus complète. Si les cybercriminels parviennent à pénétrer un niveau, ils doivent encore faire face à plusieurs autres couches, chacune d'elles étant plus complexe que la précédente.

Les diverses couches créent une barrière de protections multiples qui se coordonnent pour éviter les attaques. Une entreprise peut, par exemple, stocker ses documents top secret sur un serveur installé dans un bâtiment entouré d'une barrière électronique.

Limitation

Limiter l'accès aux données et informations réduit les risques de subir une attaque. Il est conseillé aux entreprises de restreindre l'accès aux utilisateurs et de ne leur permettre que d'accéder aux ressources dont ils ont besoin pour accomplir leur mission. Par exemple, les membres du service marketing n'ont pas besoin d'avoir accès aux documents de paie dans le cadre de leur mission.

L'application de solutions technologiques, telles que l'utilisation d'autorisations de fichiers, est un moyen de limiter l'accès ; une entreprise doit également instaurer des mesures procédurales. Il est nécessaire de mettre en place une procédure pour interdire à un employé de supprimer des documents sensibles sur site.

Diversité

Si toutes les couches protégées étaient identiques, il serait aisé pour les cybercriminels de mener à bien leur attaque. Par conséquent, elles doivent être différentes. Si les cybercriminels pénètrent une couche, la même technique ne fonctionnera pas pour toutes les autres. Une attaque qui touche une seule couche de sécurité ne compromet pas l'intégralité du système. Une entreprise peut utiliser divers algorithmes de chiffrement ou systèmes d'authentification afin de protéger les données à différents états.

Pour mettre en place une solution diversifiée, les entreprises peuvent utiliser des produits de sécurité conçus par différentes sociétés en vue d'une authentification multifacteur. Par exemple, le serveur contenant les documents top secret se trouve dans une salle fermée, dont l'accès est protégé par un système de carte magnétique et une solution d'authentification biométrique fournis par deux sociétés différentes.

Dissimulation

La méthode de dissimulation permet également de protéger les données et les informations. Une entreprise ne doit pas dévoiler d'informations que les cybercriminels peuvent utiliser pour déterminer le système d'exploitation qu'un serveur exécute ou le type d'équipement qu'il utilise. Par exemple, les messages d'erreur ne doivent contenir aucune information que les cybercriminels pourraient utiliser pour déterminer les vulnérabilités existantes. En masquant certains types d'informations, vous compliquez singulièrement la tâche des cybercriminels qui envisagent de pirater un système.

Simplicité

La complexité n'est pas nécessairement un gage de sécurité. Le déploiement de systèmes difficiles à faire fonctionner et à dépanner peut, en réalité, se retourner contre l'entreprise qui les met en place. Si les employés ne savent pas comment configurer correctement des systèmes complexes, compromettre leur sécurité peut être un jeu d'enfant pour les cybercriminels. Pour maintenir la disponibilité des systèmes, une solution de sécurité doit être simple à l'intérieur, mais complexe à l'extérieur.

Points de défaillance uniques

Un point de défaillance unique constitue une opération critique au sein de l'entreprise. D'autres opérations peuvent en dépendre et la défaillance met un terme à cette opération essentielle. Un point de défaillance unique peut être un composant matériel spécial, un processus, une donnée spécifique, voire un service essentiel. Les points de défaillance uniques sont les liens faibles de la chaîne qui peuvent perturber l'activité de l'entreprise. Généralement, en cas de point de défaillance unique, la solution consiste à modifier l'activité critique de façon qu'elle ne s'appuie pas sur un seul élément. L'entreprise peut également intégrer dans l'opération critique des composants redondants qui prendront le relais du processus en cas de défaillance de l'un de ces points.

Redondance N+1

La redondance N+1 garantit la disponibilité du système en cas de défaillance d'un composant. Les composants (N) doivent comporter au moins un composant de secours (+1). C'est le cas, par exemple, d'une voiture à quatre roues (N) disposant d'une roue de secours dans le coffre en cas de crevaison (+1).

Dans un data center, la redondance N+1 signifie que la conception du système peut résister à la perte d'un composant. Le « N » fait référence aux divers éléments qui composent le data center (serveurs, alimentations, commutateurs, et routeurs). Le « +1 » désigne un composant ou système supplémentaire, prêt à être utilisé en cas de besoin.

Un exemple de redondance N+1 au sein d'un data center est un générateur d'électricité qui s'active lorsque le bloc d'alimentation principal connaît un problème. Bien qu'un système N+1 se compose de matériel redondant, il ne s'agit pas d'un système entièrement redondant.

RAID

La technologie RAID (Redundant Array of Independent Disks) regroupe plusieurs disques durs physiques au sein d'une seule unité logique afin de fournir une redondance de données et d'améliorer les performances. Le système RAID prend les données normalement stockées sur un seul disque et les répartit sur plusieurs disques. Si l'un des disques est défaillant, l'utilisateur peut récupérer les données à partir des autres disques sur lesquels elles résident également.

Le système RAID permet également d'accélérer la récupération des données. L'utilisation de plusieurs lecteurs permet de récupérer les données demandées plus rapidement que si la tâche était effectuée avec un seul disque.

Une solution RAID peut reposer sur le matériel ou le logiciel. Une solution matérielle nécessite l'utilisation d'un contrôleur matériel spécialisé sur le système qui contient les disques RAID. Les termes suivants expliquent comment le système RAID stocke les données sur les différents disques :

Parité : détecte les erreurs de données.
Entrelacement : écrit les données sur plusieurs disques.
Mise en miroir : duplique les données sur un second disque.

Spanning Tree

La redondance améliore la disponibilité de l'infrastructure en supprimant le risque de points de défaillance uniques dans un réseau ; par exemple, une panne d'un commutateur ou d'un câble du réseau. L'établissement d'une redondance physique dans un réseau entraîne l'apparition de boucles et de trames en double. Ceux-ci ont des conséquences désastreuses pour un réseau commuté.

Le protocole STP (Spanning Tree Protocol) permet de résoudre ces problèmes. La fonction de base de STP est d'empêcher les boucles dans un réseau lorsque plusieurs chemins connectent les commutateurs entre eux. STP garantit que les liaisons physiques redondantes sont dépourvues de boucles. Il permet qu'il n'y ait qu'un seul chemin logique entre toutes les destinations du réseau. STP bloque intentionnellement les chemins d'accès redondants susceptibles d'engendrer une boucle.

Le blocage des chemins redondants est essentiel pour empêcher la formation de boucles sur le réseau. Les chemins physiques sont préservés pour assurer la redondance, mais STP les désactive afin d'empêcher la création de boucles. En cas de défaillance d'un commutateur ou d'un câble réseau, le protocole STP recalcule les chemins et débloque les ports nécessaires pour autoriser l'activation du chemin redondant.

Redondance du routeur

La passerelle par défaut est généralement le routeur, qui assure l'accès des appareils au reste du réseau ou à Internet. Si un seul routeur sert de passerelle par défaut, il constitue un point de défaillance unique. L'entreprise peut choisir d'installer un routeur de secours supplémentaire.

La capacité d'un réseau à effectuer une reprise dynamique après la défaillance d'un périphérique jouant le rôle de passerelle par défaut est appelée « redondance au premier saut ».

Options de redondance du routeur

La liste suivante indique les options disponibles pour la redondance de routeur en fonction du protocole qui définit la communication entre les appareils réseau :

Protocole HSRP (Hot Standby Router Protocol) : ce protocole garantit la disponibilité du réseau en fournissant une redondance de routage au premier saut. Un groupe de routeurs utilise le protocole HSRP pour sélectionner un appareil actif et un appareil de secours. Dans un groupe d'interfaces d'appareil, l'appareil actif est celui qui achemine les paquets ; l'appareil de secours est celui qui prend le relais en cas de défaillance de l'appareil actif. La fonction du routeur en veille HSRP est de surveiller l'état de fonctionnement du groupe HSRP et de prendre rapidement la responsabilité du réacheminement des paquets lorsque le routeur actif est défaillant.
Protocole VRRP (Virtual Router Redundancy Protocol) : un routeur VRRP exécute le protocole VRRP avec un ou plusieurs autres routeurs connectés à un réseau local. Dans une configuration VRRP, le routeur choisi est le routeur virtuel principal, les autres routeurs servant de routeurs de secours en cas de défaillance de celui-ci.
Protocole GLBP (Gateway Load Balancing Protocol) : ce protocole protège le trafic de données en provenance d'un routeur ou d'un circuit défaillant, tel que HSRP et VRRP, tout en permettant un équilibrage de la charge (également appelé partage de charge) au sein d'un groupe de routeurs redondants.

Redondance d'emplacements

Une entreprise peut, dans certains cas, envisager la mise en œuvre de la redondance d'emplacements. Vous trouverez, ci-dessous, trois formes de redondance d'emplacements.

Synchrone

Synchronise les deux emplacements en temps réel.
Nécessite une bande passante élevée.
Les emplacements doivent être proches les uns des autres pour réduire la latence.

Réplication asynchrone

La synchronisation ne s'effectue pas en temps réel, mais presque.
Nécessite moins de bande passante.
Les sites peuvent être plus éloignés, car la latence est un facteur moins important.

Réplication ponctuelle

Met à jour régulièrement l'emplacement des données de sauvegarde.
Option la moins gourmande en termes de bande passante, car elle ne nécessite pas une connexion permanente.

L'option la mieux adaptée à l'entreprise dépendra du bon compromis entre coût et disponibilité.

Conception résiliente

La résilience regroupe les méthodes et configurations utilisées pour rendre un système ou un réseau tolérant aux pannes. Par exemple, un réseau peut disposer de liaisons redondantes entre des commutateurs exécutant le protocole STP. Bien que le protocole STP fournisse un autre chemin sur le réseau en cas de défaillance d'une liaison, il se peut que le basculement ne soit pas immédiat si la configuration n'est pas optimale.

Les protocoles de routage offrent également une résilience, mais un réglage précis peut améliorer le basculement, de telle sorte que cette opération passe inaperçue pour les utilisateurs du réseau. Les administrateurs doivent essayer des configurations personnalisées dans un réseau de test afin de déterminer si elles permettent d'améliorer les délais de rétablissement.

La redondance ne suffit pas pour parvenir à une conception résiliente. Il est essentiel de bien comprendre les besoins de l'entreprise, puis d'intégrer la redondance afin de créer un réseau résilient.

Résilience d'application

La résilience d'application désigne la capacité d'une application à répondre aux problèmes de l'un de ses composants, tout en continuant à fonctionner. Une interruption est due aux pannes causées par des erreurs d'application ou des défaillances d'infrastructure. Un administrateur devra, en définitive, arrêter les applications pour appliquer des correctifs, installer des mises à niveau ou déployer de nouvelles fonctionnalités. L'interruption peut également être le résultat d'une altération de données, d'une panne d'équipement, d'une erreur d'application ou encore d'une erreur humaine.

De nombreuses entreprises s'efforcent de trouver le bon compromis entre les coûts liés à la résilience de l'infrastructure applicative et ceux liés à la perte de clients ou d'opportunités commerciales en raison d'une défaillance d'application. La haute disponibilité des applications s'avère à la fois complexe et coûteuse. L'augmentation du facteur de disponibilité de chaque solution s'accompagne d'une hausse des coûts et de la complexité.

ésilience d'IOS

Le système d'exploitation IOS (Interwork Operating System) pour les routeurs et commutateurs Cisco intègre une fonctionnalité de configuration résiliente. Elle permet une récupération plus rapide à la suite d'un reformatage malveillant ou accidentel de la mémoire flash ou d'une suppression du fichier de configuration initiale. Cette fonctionnalité gère une copie de travail sécurisée du fichier image IOS du routeur et une copie du fichier de configuration en cours. L'utilisateur ne peut pas supprimer ces fichiers sécurisés, connus également sous le nom de bootset principal.

Les commandes illustrées ici sécurisent l'image IOS et le fichier de configuration en cours.

Préparation

La gestion des incidents désigne les procédures suivies par une entreprise à la suite d'un événement en dehors de la plage de fonctionnement normale. Une violation de données divulgue des informations dans un environnement non sécurisé. Cela peut se produire à la suite d'un acte accidentel ou intentionnel. Une violation de données se produit lorsqu'une personne non autorisée accède à des informations sensibles, les copie, les transmet, les consulte ou les vole.

Lorsqu'un incident se produit, l'entreprise doit savoir comment y répondre. Une entreprise doit élaborer un plan de gestion des incidents et mettre sur pied une équipe CSIRT (Computer Security Incident Response Team) pour gérer la réponse. Cette équipe effectue les opérations suivantes :

Gérer le plan de gestion des incidents
Veiller à ce que ses membres connaissent bien le plan
Tester le plan
Faire approuver le plan par la direction

L'équipe CSIRT peut être un groupe existant au sein de l'entreprise ou un groupe constitué à cet effet. L'équipe CSIRT suit un ensemble d'étapes prédéfinies pour s'assurer que l'approche adoptée est uniforme et qu'aucune étape n'est ignorée. Les équipes CSIRT nationales supervisent la gestion des incidents à l'échelle d'un pays.

Détection et analyse

La détection commence lorsque quelqu'un découvre l'incident. Les entreprises peuvent s'équiper des systèmes de détection les plus sophistiqués, mais si les administrateurs ne consultent pas les journaux et ne surveillent pas les alertes, ces systèmes ne servent à rien. Une détection appropriée doit indiquer non seulement la manière dont l'incident s'est produit, mais aussi les données et les systèmes concernés. La violation est transmise aux cadres supérieurs et aux responsables des données et systèmes afin de les impliquer dans le processus de correction et de réparation. La détection et l'analyse comprennent les étapes suivantes :

Alertes et notifications
Surveillance et suivi

L'analyse des incidents permet d'identifier la source, l'étendue, les conséquences et les détails de la violation des données. Le cas échéant, l'entreprise peut décider de faire appel à une équipe d'experts pour mener l'enquête.

Confinement, éradication et reprise

Les opérations de confinement comprennent les actions effectuées immédiatement, comme déconnecter un système du réseau afin de stopper la fuite d'informations.

Après avoir identifié la faille, l'entreprise doit la contenir et l'éliminer. Cela peut se traduire par une interruption supplémentaire pour les systèmes. La phase de reprise comprend les mesures que l'entreprise doit prendre pour remédier à la violation et rétablir le fonctionnement des systèmes concernés. Une fois la correction appliquée, l'entreprise doit rétablir tous les systèmes dans l'état dans lequel ils se trouvaient avant la faille.

Suivi après incident

Une fois le fonctionnement normal rétabli, l'entreprise doit examiner la cause de l'incident et se poser les questions suivantes :

Quelles mesures prendre pour éviter que l'incident se reproduise ?
Quelles mesures préventives doivent être renforcées ?
Comment améliorer la surveillance du système ?
Comment minimiser les interruptions pendant les phases de confinement, d'élimination et de reprise ?
Comment la gestion peut-elle atténuer les effets sur l'entreprise ?

Une analyse des enseignements tirés de cet événement peut aider l'entreprise à mieux se préparer en améliorant son plan de gestion des incidents.

Contrôle d'admission dans le réseau

L'objectif du contrôle de l'accès au réseau (NAC) est de permettre aux utilisateurs autorisés disposant de systèmes conformes d'accéder au réseau. Un système conforme satisfait à toutes les exigences de la politique de l'entreprise. Par exemple, il se peut qu'un ordinateur portable faisant partie d'un réseau domestique sans fil ne puisse pas se connecter à distance au réseau d'entreprise. Le contrôle de l'accès au réseau évalue un appareil entrant par rapport aux politiques du réseau. Il met également en quarantaine les systèmes non conformes et gère l'élimination de ces systèmes.

Un cadre NAC peut utiliser l'infrastructure de réseau et les logiciels tiers existants pour appliquer la conformité avec la politique de sécurité à l'ensemble des terminaux. Une appliance NAC peut, tour à tour, contrôler l'accès réseau, évaluer la conformité et appliquer la politique de sécurité. Les vérifications courantes des systèmes NAC sont les suivantes :

Détection des virus mise à jour
Mises à jour et correctifs des systèmes d'exploitation
Application de mots de passe complexes

Systèmes de détection d'intrusions

Les systèmes de détection d'intrusion (IDS) surveillent passivement le trafic sur un réseau. L'illustration montre un périphérique compatible IDS copiant le flux de trafic et analysant le trafic ainsi copié plutôt que les paquets réels transmis. Travaillant hors ligne, il compare le flux de trafic capturé avec les signatures malveillantes connues, comme un logiciel d'analyse antivirus. Travailler hors ligne a plusieurs significations :

Le système IDS fonctionne en mode passif
L'appareil IDS est situé physiquement sur le réseau, de sorte que le trafic doive être mis en miroir pour l'atteindre
Le trafic réseau ne transite pas par le système IDS, sauf s'il est mis en miroir

Le mode passif signifie que le système IDS surveille le trafic et génère des rapports à son sujet. Il ne prend aucune mesure. C'est la définition d'un fonctionnement en mode de proximité.

En cas de fonctionnement avec une copie du trafic, le système IDS n'a pas d'incidence négative sur le flux de paquets du trafic transféré. Il s'agit là du principal avantage de cette méthode. En revanche, il est impossible pour le système IDS de bloquer les attaques à un seul paquet avant qu'elles atteignent leur cible. Pour répondre à une attaque, le système IDS a généralement besoin de l'aide d'autres appareils réseau, tels que des routeurs et des pare-feu.

Une meilleure solution consiste à utiliser un appareil capable de détecter et de bloquer immédiatement une attaque. C'est précisément ce que fait un système de prévention des intrusions (IPS).

Système de prévention contre les intrusions

L'IPS repose sur la technologie IDS. Toutefois, un appareil IPS fonctionne en mode inline. Cela signifie que tout le trafic entrant et sortant doit transiter par celui-ci. L'illustration montre qu'un système de protection contre les intrusions (IPS) ne permet pas aux paquets de pénétrer à l'intérieur du réseau « de confiance », à moins qu'ils aient été analysés. Il est capable de détecter et de remédier immédiatement aux problèmes du réseau.

Un système de protection contre les intrusions surveille le trafic réseau. Il analyse le contenu et la charge utile des paquets à la recherche d'attaques intégrées plus sophistiquées susceptibles de contenir des données malveillantes. Certains systèmes utilisent une combinaison de technologies de détection d'intrusions ; détection basée sur l'analyse des protocoles, sur les profils ou encore sur les signatures. Cette analyse plus approfondie leur permet d'identifier, d'arrêter et de bloquer les attaques qui franchiraient les limites d'un pare-feu classique. Lorsqu'un paquet entre par une interface sur un système de protection contre les intrusions, l'interface de sortie ou approuvée ne le reçoit pas tant qu'il n'a pas été analysé.

L'avantage du mode inline est que le système IPS peut empêcher les attaques à un seul paquet d'atteindre le système cible. En revanche, si le système IPS est mal configuré, cela peut avoir une incidence négative sur le flux de paquets du trafic transféré.

La principale différence entre les systèmes IDS et IPS est la suivante : alors que le système IPS agit immédiatement et bloque le trafic malveillant, le système IDS le laisse passer avant de résoudre le problème.

NetFlow et IPFIX

NetFlow est une technologie Cisco IOS qui fournit des statistiques sur les paquets traversant un routeur ou un commutateur multicouche Cisco. NetFlow est la norme pour la collecte de données opérationnelles à partir de réseaux L'IETF (Internet Engineering Task Force) s'est appuyé sur NetFlow Version 9 de Cisco pour l'exportation des informations du flux IP (IP Flow Information Export - IPFIX).

IPFIX est un format standard conçu pour exporter, vers des appareils de collecte de données, des informations basées sur le routeur concernant les flux de trafic réseau. IPFIX fonctionne sur les routeurs et applications de gestion qui prennent en charge le protocole. Les gestionnaires réseau peuvent exporter les informations relatives au trafic réseau à partir d'un routeur et les utiliser dans le but d'optimiser les performances du réseau.

Threat Intelligence avancées

Les threat intelligence avancées peuvent aider les entreprises à détecter une cyberattaque pendant l'une des phases de l'attaque et parfois même avant qu'elle ne survienne.

Les entreprises peuvent repérer les alertes de sécurité suivantes dans les journaux et rapports système afin de détecter les indicateurs d'attaque :

Blocages de compte
Tous les événements de base de données
Création et suppression de ressources
Modification de la configuration des systèmes

Les threat intelligence avancées sont des données de profil et d'événement qui peuvent contribuer à améliorer les activités de sécurité et les réponses à apporter en cas d'attaque. Face à la sophistication des techniques employées par les cybercriminels, il est important de comprendre les pratiques malveillantes mises en œuvre. Une entreprise qui bénéficie d'une meilleure visibilité des méthodes d'attaque pourra réagir plus rapidement face aux incidents.

Types de sinistres

Il est essentiel que les activités de l'entreprise continuent lorsqu'un sinistre se produit. Les sinistres comprennent tous les événements naturels ou provoqués par l'homme qui endommagent les ressources ou les biens et nuisent à la capacité de l'entreprise de poursuivre son activité.

Catastrophes naturelles

Les catastrophes naturelles varient en fonction de la situation géographique. Certains de ces événements sont difficiles à prévoir. On classe les catastrophes naturelles dans les catégories suivantes :

Les catastrophes géologiques sont notamment les tremblements de terre, les glissements de terrain, les éruptions volcaniques et les tsunamis
Les catastrophes météorologiques sont notamment les ouragans, les tornades, les tempêtes de neige, la foudre et la grêle
Les catastrophes sanitaires sont notamment les épidémies, les quarantaines et les pandémies
Les catastrophes diverses sont notamment les incendies, les inondations, les tempêtes solaires et les avalanches

Catastrophes d'origine humaine

Les catastrophes d'origine humaine impliquent des personnes ou des entreprises. On les classe dans les catégories suivantes :

Les événements liés au travail sont notamment les grèves, les abandons de poste et les ralentissements d'activité
Les événements sociopolitiques sont notamment les actes de vandalisme, les blocus, les manifestations, le sabotage, le terrorisme et la guerre
Les événements matériels sont notamment les incendies entraînant des dégagements de fumées toxiques et les déversements de produits dangereux
Les perturbations des services publics sont notamment les pannes de courant, les coupures de communication, les pénuries de carburant et les retombées radioactives

Plan de reprise après sinistre

L'entreprise met en action son plan de reprise après sinistre (DRP) alors que la catastrophe est en cours et que les employés s'efforcent de maintenir les systèmes critiques en activité. Ce plan comprend les mesures prises par l'entreprise pour évaluer, récupérer, réparer et restaurer les installations ou les biens endommagés.

Pour créer le plan de reprise après sinistre, vous devez répondre aux questions suivantes :

Qui est responsable de ce processus ?
Quels sont les éléments nécessaires pour effectuer ce processus ?
Où la personne responsable exécute-t-elle ce processus ?
Quel est le processus ?
En quoi ce processus est-il considéré comme critique ?

Un plan de reprise après sinistre doit identifier les processus les plus critiques au sein de l'entreprise. Lors du processus de récupération, l'entreprise rétablit d'abord ses systèmes essentiels.

Mise en œuvre des contrôles de reprise après sinistre

Les contrôles de reprise après sinistre réduisent les effets d'un sinistre afin de garantir le rétablissement des ressources et des processus de l'entreprise.

Dans le domaine informatique, il existe trois types de contrôles de reprise après sinistre :

Mesures préventives : il s'agit des contrôles qui empêchent un sinistre de se produire. Ces mesures cherchent à identifier les risques.
Mesures de détection : ces contrôles détectent les événements indésirables. Ces mesures permettent de découvrir de nouvelles menaces potentielles.
Mesures correctives : il s'agit de contrôles qui rétablissent le fonctionnement du système à la suite d'un sinistre ou d'un événement.

Besoin de continuité d'activité

La continuité de l'activité est l'un des concepts les plus importants dans le domaine de la sécurité informatique. Même si les entreprises mettent tout en œuvre pour prévenir les sinistres et la perte de données, il est impossible de tout prévoir. Pour les entreprises, il est essentiel de mettre en place des plans garantissant la continuité de l'activité, quels que soient les événements qui surviennent. Un plan de continuité de l'activité est plus vaste qu'un plan de reprise après sinistre, dans la mesure où il prévoit le transfert des systèmes critiques sur un autre site pendant la réparation des installations d'origine. Le personnel continue à effectuer tous les processus commerciaux d'une autre manière jusqu'au rétablissement des conditions normales.

La disponibilité signifie que les ressources nécessaires au bon fonctionnement de l'entreprise resteront disponibles pour le personnel et pour les systèmes qui en dépendent.

Éléments à prendre en compte pour la continuité de l'activité

Les contrôles de continuité de l'activité ne se limitent pas à la sauvegarde de données et à la mise à disposition de matériel redondant. Les entreprises ont besoin que les employés configurent et utilisent correctement les systèmes. Les données peuvent être inutiles jusqu'à ce qu'elles fournissent des informations. L'entreprise doit prêter une attention particulière aux points suivants :

Mettre les bonnes personnes aux bons endroits
Documentation des configurations
Établir d'autres canaux de communication pour la voix et les données
Garantir l'approvisionnement en électricité
Identifier toutes les dépendances pour les applications et les processus de manière à garantir une bonne compréhension
Comprendre comment mener à bien manuellement des tâches automatisées

Bonnes pratiques en matière de continuité de l'activité

Comme le montre cette illustration, l'Institut national des normes et de la technologie (NIST) a développé les bonnes pratiques suivantes :

Élaborez une politique qui fournit des conseils pour développer le plan de continuité de l'activité et attribuez des rôles pour exécuter ces tâches.
Identifiez les systèmes et les processus critiques, et classez-les par priorité en fonctions des besoins.
Identifiez les vulnérabilités et les menaces, et calculez les risques.
Identifiez et mettez en œuvre des contrôles et des contre-mesures afin de réduire les risques.
Élaborez des méthodes pour rétablir rapidement les systèmes stratégiques.
Développez des procédures pour permettre à l'entreprise de continuer à fonctionner dans une situation de chaos.
Testez le plan.
Mettez le plan à jour régulièrement.

Cybersecurity - Le royaume des cinq neuf

Conception d'un système à haute disponibilité

Classification des ressources

Standardisation de la ressource

Approche multicouche

Limitation

Diversité

Dissimulation

Simplicité

Points de défaillance uniques

Redondance N+1

Redondance du routeur

Conception résiliente

Résilience d'application

ésilience d'IOS

Confinement, éradication et reprise

Contrôle d'admission dans le réseau

Système de prévention contre les intrusions

NetFlow et IPFIX

Besoin de continuité d'activité

Bonnes pratiques en matière de continuité de l'activité

Video Cisco ISE expliqué en français avec configuration

Comprendre le principe des certificats numériques

Cybersecurity - Le royaume des cinq neuf