CSO vs CEO : Les différences de point de vue sur la sécurité des données, partie IV : modélisation du coût des failles par la méthode de Monte-Carlo

coût

Cet Article fait partie de la série “CSO vs CEO : Les différences de point de vue sur la sécurité des données”. Consultez les autres articles liés ici.

Dans cette série, mon principal objectif est de permettre aux directeurs de la sécurité des informations (DSI/CISO) de comprendre comment le CEO (PDG) et le conseil d’administration prennent leurs décisions, afin de pouvoir les convaincre d’investir dans la sécurité des données.
Dans mon précédent billet, j’expliquais comment les CISO devraient quantifier deux facteurs clés impliqués dans une faille de sécurité : la fréquence des attaques, puis la probabilité que la faille dépasse un certain seuil de coût. La connaissance de ces deux éléments (et le fait que vous puissiez affecter à chacun d’eux des valeurs ou des estimations) vous fera gagner des points face aux CEO et aux CFO (Directeurs Financiers).

Pour les patrons de grandes entreprises, prendre des décisions en situation d’incertitude est une seconde nature. Pour calculer les probabilités et faire des paris gagnants, ce sont des pros. Les CISO doivent donc comprendre le langage du risque, et maîtriser quelques bases en matière de mathématiques du risque.

Il également certain que les CEO doivent aussi avoir quelques connaissances de base sur les extraordinaires astuces de post-exploitation que les hackers ont à leur disposition, un point que j’aborderai dans mon prochain billet. Mais je pense que la principale lacune à combler consiste à familiariser les CISO avec le monde des affaires.

Pour récompenser les CISO et les cadres techniques d’être allés aussi loin dans cette série, j’ai concocté une merveilleuse feuille de calcul Excel qui leur permettra de réaliser, tenez-vous bien… leur propre modélisation de style Monte Carlo ! En adaptant cette simulation à votre propre secteur d’activité et à votre société, vous êtes sûr d’impressionner votre CEO à l’occasion de votre prochaine présentation.

Pour bien FAIR…

Je suis fan de l’Institut FAIR et de son framework d’analyse du risque. Certes, le net nous permet de trouver un tas d’informations sur le risque, mais les gars du FAIR sont d’excellent pédagogues et guides sur ce sujet qui peut paraître, comment dire, très farfelu. Vous pouvez aller aussi loin que vous voulez dans l’analyse FAIR, mais comme je l’ai décrit dans mon précédent billet, même une utilisation basique permet d’obtenir des résultats très utiles pour la prise de décisions.

Au premier niveau de l’analyse FAIR, vous devez prendre en compte les deux facteurs que j’ai mentionnés plus haut. Tout d’abord, dériver une courbe de dépassement lors d’un sinistre correspondant à votre propre secteur d’activité ou entreprise. Dans mon cas, j’ai pu utiliser un ensemble de données relatives aux failles de sécurité ayant touché des établissements de santé publique qui ont été publiées dans le cadre du HIPAA. J’ai ensuite appliqué les résultats d’une régression des coûts de piratage basée sur une enquête de Ponemon.

Je suis en mesure de déterminer le pourcentage des fuites de données de santé qui se situent au-dessus d’un coût donné pour un seul incident.

Au fait, une courbe assez similaire est calculée par les compagnies d’assurance pour élaborer leurs contrats d’assurance automobile et habitation. Le problème est le même ! Pour elles, une demande d’indemnisation élevée est similaire à une fuite de données coûteuse. En fin de compte, les compagnies d’assurance utilisent les courbes de dépassement lors d’un sinistre pour évaluer des primes leur permettant de couvrir les coûts d’assurance et leur laisser un profit. Nous pouvons voir le coût d’une licence de logiciel de sécurité des données comme une sorte de prime que les entreprises paient pour limiter les pertes dues à un incident de sécurité.

En tout cas, le second facteur est la fréquence ou le taux auquel les entreprises sont soumises à des fuites de données. Au pifomètre, vous pouvez estimer un taux moyen, et c’est ce que j’ai fait la dernière fois pour mon hypothétique société d’assurance santé.

Cela soulève un point plus important : que se passe-t-il lorsque vous n’avez qu’une quantité limitée de données réelles ? Heureusement, l’approche FAIR permet de faire ce calcul, et il existe des techniques pour combiner ou pondérer les informations internes collectées par votre équipe de sécurité informatique — par exemple, la fréquence des injections SQL réussies au cours des 5 dernières années — avec toutes les informations publiquement disponibles auprès de sources externes telles que Verizon DBIR. Cette idée est partiellement traitée dans une vidéo réalisée par les membres de FAIR.

Qu’est-ce que vous faites avec ces deux facteurs ?

Vous les multipliez : fréquence * perte individuelle = perte totale.
Eh bien, ce n’est pas si simple !

Dans les cas réels, il n’est en général pas facile de trouver les formules exactes. Et c’est pourquoi vous exécutez une simulation de Monte Carlo (MC) !

Dans une simulation MC, vous « lancez les dés » en utilisant le générateur de nombres aléatoires intégrés à Excel, afin de simuler l’occurrence d’une attaque. Puis vous lancez à nouveau les dés pour générer une perte possible associée à une attaque. Vous évaluez les pertes, vous les classez, puis produisez une courbe représentant l’excès de pertes total pour une fréquence moyenne donnée et sur une période donnée.

Dans ma simulation MC, j’ai lancé les dés plusieurs milliers de fois en utilisant une feuille de calcul Excel contenant des macros Visual Basic. J’ai modélisé une société d’assurance santé connaissant sur dix ans un taux moyen de quatre incidents, et une courbe de perte unique basée sur l’ensemble de données HIPAA, afin de produire la courbe de pertes totales suivante :

courbe de dépassement lors d'un sinistre et coût total des fuites de données

La courbe de dépassement lors d’un sinistre évaluant le coût total des fuites de données. L’objectif ultime de la simulation de MC !

 

Tel est réellement l’objectif de la simulation : vous voulez une distribution ou une courbe montrant la somme des pertes subies lorsqu’un nombre aléatoire d’attaques se produisent sur une période donnée. Armé d’une analyse de ce type, imaginez que vous fassiez une présentation à votre CEO et à votre CFO et que vous leur disiez avec confiance : « Au cours des 10 prochaines années, il y a 10 % de chances que notre société subisse une fuite de données qui lui coûtera 35 millions de dollars. » À partir de ce moment, votre CEO ne cessera de vous faire les yeux doux.

La principale leçon tirée de la méthodologie de FAIR, c’est que vous pouvez quantifier le risque de fuite de données pour réaliser un calcul, certes approximatif, mais assez précis pour être utilisé en planification. Ce n’est en aucun cas parfait, mais c’est mieux que d’avancer à l’aveuglette. Voyez cela comme un exercice mental, un peu comme à répondre à cette question trouvée sur Google. Et à mesure que vous allez plus loin dans FAIR, l’exercice consistant à analyser quelles sont les données exposées, leur valeur, et à élaborer des scénarios en cas de fuites de données est précieux en lui-même ! En d’autres termes, vous pourriez…  apprendre des choses que vous ne saviez pas auparavant.

La Value at Risk expliquée aux CISO

Mon analyse des données HIPAA a nécessité de batailler un peu avec les courbes en utilisant des logiciels de stats du commerce. J’ai pu représenter les données sous la forme d’une courbe du type loi de puissance — les plus bosseurs peuvent se pencher sur cette distribution de Pareto. Les courbes à queue lourde, qui sont très courantes dans les stats sur les fuites (et autres catastrophes liées aux données), peuvent être approchées par des formules de type loi de puissance dans la queue.

C’est une bonne nouvelle !

Il est plus facile de travailler avec des lois de puissance lorsque l’on fait des simulations et que l’on jongle avec les chiffres, et la queue est vraiment la partie la plus intéressante pour la planification : c’est là que l’on trouve les catastrophes. Il est certain que les CFO et les CEO s’intéressent aux pertes moyennes, mais ils s’inquiètent beaucoup plus des cas extrêmes.

Après tout, les cadres dirigeants sont chargés de maintenir l’entreprise sur ses rails, même lorsque survient une fuite de données qui équivaudrait à l’ouragan Sandy. Ils doivent donc être préparés à ces événements extrêmes, et cela signifie qu’ils doivent réaliser les investissements nécessaires pour limiter les pertes catastrophiques qui apparaissent dans la queue.

Ce qui nous amène à la Value at Risk, ou VaR.

Laissez-moi d’abord démystifier ce concept. C’est en fait un simple chiffre qui vous indique à quel point les choses peuvent aller mal. Pour les pertes dues aux fuites de données, une VaR de 90 % correspond à un montant supérieur à 90 % de l’ensemble des pertes. Une VaR de 95 % correspond à un montant supérieur à 95 % de l’ensemble des pertes.

Dans la courbe ci-dessus, vous obtenez la VaR en parcourant l’axe des Y jusqu’à la valeur recherchée (p. ex., 5 % ou 1 %), puis vous parcourez l’axe des X jusqu’à trouver la valeur correspondante. C’est un véritable exercice de recherche inversée. Gardez cela en tête.

Vous lancez une simulation MC après avoir entré des taux moyens de fréquences, ainsi qu’une courbe de perte unique (ou la queue réelle) basée sur un ensemble de données réelles, puis vous laissez votre simulation générer des milliers de scénarios possibles. En ayant la VaR en tête, vos dirigeants et vous êtes très intéressés par quelques scénarios précis, ceux qui apparaissent en haut d’une liste ordonnée.

Ci-dessous, vous pouvez voir des échantillons de simulation générés grâce à ma feuille de calcul pour des VaR de 90 %, 95 %, 97,5 % et 99 %. Au bout de 10 ans, il apparaît que la VaR à 99 % dépasse 120 millions de dollars, et qu’elle implique trois événements — remarquez les bonds.

coûts des queues lourdes

Remarquez les bonds considérables pour les courbes à 97,5 % et à 99 %. C’est une caractéristique des courbes à queue lourde (et non un bug).

Les mystères du dragon à queue lourde, et son coût énorme.

J’ai menti. Il apparaît que pour les distributions à queue lourde, il n’est pas nécessaire de lancer une simulation MC pour obtenir des valeurs de VaR. Il existe en effet une formule !

Je vous donnerai un indice sur ce qu’elle pourrait être, mais pour voir ce qu’elle représente dans le cas d’une distribution de Pareto, vous devrez télécharger la feuille de calcul. La formule de VaR vous permet de réaliser un calcul rapide sur une nappe en papier. La simulation MC reste utile pour vérifier la formule avec des données simulées, en vous basant sur votre modélisation.

Pour plus d’informations sur ce sujet, nous disposons d’une présentation étonnamment accessible sur ce sujet mathématique, réalisée par deux spécialistes en statistiques. Ils décrivent en termes simples certaines des propriétés mystérieuses de ces bêtes à queue lourde. Oui, les dragons sont des êtres magiques. L’un de leurs étranges pouvoirs est qu’ils viendront à bout de vous au terme d’un seul événement écrasant. Vous pouvez le constater dans les VaR à 97,5 % et 99 % de la simulation sur 10 ans présentée plus haut. Remarquez que l’on observe un bond considérable dans ces deux cas.

Une autre caractéristique étrange et magique est liée au fait qu’une bonne approximation de la VaR peut facilement être calculée pour de nombreux ensembles de données à queue lourde. Je l’ai suggéré plus haut. Fondamentalement, vous pouvez voir la VaR comme une recherche inversée. Mathématiquement parlant, cela signifie l’inverse d’une formule. Dans le cas de pertes multiples qui ont un taux ou une fréquence donnée sur un intervalle de temps, la formule de VaR peut être calculée en procédant à un léger ajustement de la distribution de Pareto inverse. Pour connaître la véritable formule, vous devrez jeter un œil à ma feuille de calcul Excel.

Que pouvez-vous faire d’autre avec toutes ces informations de probabilité ?

Vous pouvez commencer par déterminer si un investissement dans un logiciel de sécurité des données sera rentable, en supposant que ce logiciel bloquera l’attaque. Dans ma feuille de calcul, je vous permets de calculer un pourcentage de rentabilité en fonction d’un investissement annuel dans la sécurité. Et j’ai également déterminé le retour moyen, à savoir la somme que vos défenses logicielles vous feront économiser, en moyenne.

coûts rentabilisés

Il apparaît que les logiciels de sécurité des données sont rentabilisés ! Voici un exemple pour un investissement annuel de 400 000 dollars, dans l’hypothèse d’une courbe de Pareto à queue lourde basée sur les données de fuite HIPAA.

C’est terminé pour aujourd’hui !

Dans mon prochain billet, j’exposerai d’autres réflexions sur la VaR, puis nous aborderons les connaissances de base que les CEO doivent avoir au sujet de la post-exploitation.

Je terminerai ce billet par une chanson du plus grand groupe de tous les temps, je veux bien sûr parler d’Abba, qui à mon sens résume brillamment la puissance dévastatrice des distributions de perte à queue lourde :

But I was a fool
Playing by the rules
The gods may throw a dice
Their minds as cold as ice
And someone way down here
Loses someone dear

Merci à Benny pour sa grande expérience en matière de coût des fuites de données.

Téléchargez dès maintenant la feuille de calcul modélisant le coût des fuites de données !