Le coût des fuites de données, Partie II

Fuites de données

Cet article fait partie de la série « Le coût des fuites de données ». Consultez les autres parties :

Si je devais résumer le premier billet de cette série en une phrase, ce serait celle-ci : un simple nombre obtenu en calculant une moyenne n’est pas le meilleur moyen de comprendre un ensemble de données. Les moyennes calculées pour déterminer le coût des fuites ne font pas exception à la règle ! Et lorsque cet ensemble de données est asymétrique ou à « queue lourde », la moyenne est encore moins significative.

Dans ce contexte, on comprend facilement d’où vient la controverse sur le coût des fuites de données telle qu’elle est présentée dans la presse professionnelle. À titre d’exemple, cet article paru dans le magazine Fortune explique bien la différence entre le coût des fuites par enregistrement volé, tel que défini par Ponemon, et les statistiques de Verizon.

Les modèles de régression sont plus justes

L’auteur montre que le coût moyen par enregistrement indiqué par Ponemon est surestimé pour deux raisons. La première est que Ponemon inclut les coûts indirects dans son modèle, c’est-à-dire les pertes d’activité potentielles, l’atteinte à l’image de marque et d’autres coûts d’opportunité. J’y reviendrai dans mon prochain billet, mais la technique d’étude qualitative de Ponemon n’est pas nécessairement mauvaise, ses chiffres doivent seulement être interprétés différemment.

La deuxième raison est que le coût moyen par enregistrement de 201 $ calculé par Ponemon ne constitue pas un élément de prédiction pertinent (comme c’est le cas de toute moyenne brute), d’autant plus lorsque les ensembles de données sont asymétriques.

D’après nos amis de Identity Theft Resource Center (ITRC), qui assure le suivi des statistiques sur les fuites de données, nous sommes aujourd’hui à plus de 1000 incidents de fuite de données, avec plus de 171 millions d’enregistrements volés. Fichtre !

D’après les calculs de Ponemon, les entreprises américaines ont subi pour 201 $ x 171 millions, soit 34 milliards de dollars de dommages liés à la sécurité des données. Du point de vue financier, cela n’a pas de sens.

La moyenne de 0,58 $ par enregistrement, indiquée par Verizon, s’appuie sur les données réelles des déclarations effectuées auprès des assureurs, fournies par NetDiligence. Cette moyenne n’est pas juste, elle non plus, car elle sous-estime probablement le problème — les déductions élevées et les politiques restrictives de couverture ont un impact.

Soit dit en passant, l’équipe de Verizon a déclaré que ce montant était également faux ! Elle voulait mettre en évidence le manque de fiabilité des moyennes (et lancer une pique à Ponemon par la même occasion).

L’article paru dans Fortune évoque pour sa part la régression log-linéaire de Verizon et nous rappelle que les coûts des fuites de données n’augmentent pas de manière linéaire. Nous sommes d’accord sur ce point ! L’article contient un extrait du tableau de Verizon montrant comment différents coûts par enregistrement s’appliqueraient en fonction de divers intervalles. J’ai montré ce même tableau dans mon précédent billet, et nous essaierons un peu plus bas de faire quelque chose d’approchant avec les coûts par incident.

Dans le précédent billet, nous avons parlé de la régression non linéaire du modèle de RAND, qui prend en compte d’autres facteurs en plus du nombre d’enregistrements. Jay Jacobs propose également un modèle très simple, plus pertinent qu’une droite stricte. Les régressions de Verizon, RAND et Jacobs prédisent toutes les coûts de manière bien plus juste qu’une simple moyenne.

Une dernière chose.

Le nombre d’enregistrements concernés par une fuite peut-être difficile à déterminer. Souvent, l’analyse minutieuse des données ne permet pas de dire avec précision ce qui a été pris : est-ce que ce sont 10 000 ou 100 000 enregistrements qui ont été volés ? Savoir si un fichier a été volé ou non peut faire toute la différence, et une différence d’un facteur dix peut faire passer un coût de 201 $ par enregistrement à 20 $ !

Examiner les coûts par incident peut s’avérer plus judicieux. Cette moyenne, comme je l’ai déjà écrit dans le précédent billet, est un peu plus cohérente, et est estimée à environ 6 millions de dollars d’après plusieurs ensembles de données différents.

La puissance des Lois de puissance

Revenons à la question fondamentale des moyennes. Malheureusement, les statistiques de sécurité des données sont très asymétriques, et les distributions sont vraisemblablement représentées par des lois de puissance. L’article de Microsoft intitulé Sex, Lies and Cyber-Crime Surveys aborde la question ainsi que plusieurs problèmes clés des ensembles de données basés sur les lois de puissance (le sous-échantillonnage et les déclarations erronées) : pour résumer, quelques points de données ont un effet disproportionné sur la moyenne.

Les allergiques aux maths qui se mettent en position fœtale lorsqu’ils voient une équation ou entendent le mot « exposant » peuvent passer à la section suivante sans manquer trop d’informations importantes.

Examinons à présent le tableau de l’étude de RAND, que j’ai déjà montré la dernière fois.

coût des fuites de données

Cet ensemble de données fait froid dans le dos avec son incident à 750 millions de dollars. Brrr !

Notez que le coût médian par incident (voir le total final) s’élève à 250 000 $ alors que le coût moyen est de 7,84 millions de dollars, soit 30 fois plus ! Et la valeur maximale de cet ensemble de données contient un incident monstrueux à 750 millions de dollars. Ici, on est loin de l’habituelle courbe en cloche ou normale.

On peut se trouver face à ces Léviathans lorsque les données sont guidées par des courbes définies par une loi de puissance, mais on ne les verrait pas dans les données basées sur des courbes en cloches, plus courantes et plus simples.

Je vais maintenant adapter une courbe de loi de puissance aux statistiques ci-dessus, ou au moins à la moyenne — cela suffira pour ce que je me propose de vous montrer. Je veux en venir au fait qu’un ensemble de données à queue épaisse peut avoir la même moyenne !

Un mot rapide de notre sponsor. Vous ai-je dit récemment tout le bien que je pense de Wolfram Alpha ? Sans cette appli, je n’aurais pas pu écrire ce billet. Si seulement je l’avais eue au lycée… Revenons à nos moutons.

La loi de puissance a une forme très simple : juste la variable x, qui représente dans ce cas le coût d’un incident, mise à la puissance moins alpha : x-α.

Facile. (Ne criez pas devant votre navigateur, je sais qu’il y a une constante de normalisation, mais je l’ai enlevée pour simplifier les choses.)

J’ai obtenu un alpha d’environ -2,15 à partir des statistiques du tableau ci-dessus. L’alpha, soit dit en passant, est la clé de tous les calculs que vous avez à faire.

Toutefois, ce que je veux vraiment connaître, c’est le poids ou le pourcentage du coût total de tous les incidents de la fuite représenté par chacun des segments de l’échantillon. Je cherche une moyenne représentative de chaque tranche de la population de l’incident.

Par exemple, je sais que la médiane ou 50 % de l’échantillon (c’est-à-dire environ 460 incidents) a un coût inférieur à 1,8 million de dollars. Puis-je calculer les coûts moyens pour ce groupe ? Ce n’est certainement pas 7,84 millions de dollars !

Et cela exige de rester un peu dans les maths. Si cela vous intéresse, vous en saurez plus sur la courbe de Lorenz ici. Le graphique ci-dessous compare la distribution inégale des coûts totaux des incidents (courbe bleue) de mon ensemble de données à une distribution réellement égale (ligne rouge à 45 degrés).

Courbe de Lorenz

La courbe de Lorenz : adorée par les économistes et les experts de la sécurité des données. La règle des 1 % ! (L’axe vertical représente le pourcentage des coûts totaux des incidents.)

Lorsque vous examinez ce graphique et jouez avec ici, vous constatez que la courbe bleue ne varie pas tant que cela jusqu’à environ 80 % (graduation 0.8).

Par exemple, la médiane à 0,5 et moins représente 9 % des coûts totaux des fuites. D’après les statistiques du tableau ci-dessus, le coût total de tous les incidents de la fuite s’élève à environ 7,2 milliards de dollars (7,84 millions de dollars x 921). Donc la première moitié de mon échantillon représente à peine 648 millions de dollars (7,2 milliards de dollars x 0,9). Si vous faites encore un peu d’arithmétique, vous arrivez à une moyenne d’environ 1,4 million de dollars par incident pour ce groupe.

La conclusion de cette section est que, pour la plus grande partie de l’échantillon, le coût moyen par incident est loin d’approcher les 7,8 millions de dollars ! Cela signifie donc que des incidents monstres situés en queue gonflent les chiffres.

Avez-vous écouté notre podcast hebdomadaire ?

L’excellent tableau de coût des incidents du blog IOS

Je terminerai ce billet par un tableau simple (ci-dessous) qui décompose les coûts moyens des fuites en trois groupes : appelons-les Économie, Économie Plus, et Classe Affaires. Ils font référence aux premiers 50 % des incidents de données, 40 % suivants et derniers 10 %. Cela ressemble beaucoup à ce qu’a fait Verizon dans son DBIR 2015 pour les coûts par enregistrement.

Économie Économie Plus Classe Affaires
Incidents 460 368 92
Pourcentage du coût total 9% 15% 74%
Coûts totaux 648 millions $ 1 milliard $ 5,33 milliards $
Coûts moyens 1,4 million $/incident 2,7 millions $/incident 58 millions $/incident

Si vous êtes arrivé jusqu’ici, vous avez bien mérité une récompense. Peut-être recevrez-vous quelques jeux de cartes Cards Against IT si vous êtes capable de résumer tout ce billet en un court paragraphe, ainsi que d’expliquer ma courbe de Lorenz.

Dans le prochain et dernier billet (promis) de cette série, j’essaierai de vous raconter une histoire à partir du tableau ci-dessus et je vous ferai part d’autres réflexions sur la bataille qui oppose Verizon à Ponemon au sujet du coût des fuites de données.

N’utiliser que des chiffres pour raconter une histoire peut être dangereux. Le journalisme « basé sur les données » a ses limites, et c’est là que l’approche qualitative de Ponemon présente de sérieux avantages !

 

Andy blogs about data privacy and security regulations. He also closely follows new malware threats and what it means for IT security.