Le coût des fuites de données, Partie I

fuite de données

Cet article fait partie de la série « Le coût des fuites de données ». Consultez les autres parties :

Les fuites de données coûtent très cher. Attendez, en fait non. Plus de 60 % des entreprises mettent la clé sous la porte après une fuite de données ! Mais peut-être pas. Et que dire de l’atteinte à la réputation de l’entreprise ? Il est possible que l’on ait tendance à dramatiser, mais le cas d’Equifax montre que les conséquences sont parfois non négligeables. Et pour ce qui est des coûts subis par les consommateurs en cas de fraude aux cartes de crédit, n’est-on pas face à un problème grave ? Peut-être que non ! Ce billet ne commence-t-il pas à devenir un peu confus ?

Lorsque l’on m’a confié l’étude des coûts des fuites de données, j’avais déjà eu vent du débat qui opposait Verizon DBIR à Ponemon : ce dernier a calculé, en s’appuyant sur des informations de 2014 que le coût moyen d’une fuite de données s’élève à 201 $ par enregistrement, alors que Verizon estime ce coût à 0,58 $. À mes yeux, cela fait une énorme différence. Mais on peut l’expliquer en creusant un peu.

Après avoir étudié moult documents de recherche, présentations et articles de blog portant sur les coûts des fuites de données, j’ai commencé à me rendre compte qu’en examinant de plus près certaines idées sous-jacentes, on peut comprendre l’origine de la controverse.

C’est un moyen détourné de vous faire comprendre que ce billet comportera plusieurs parties.

Les moyennes peuvent entraîner des problèmes loin d’être moyens

Le premier point à examiner est la moyenne d’un échantillon de données. En fait, le statisticien favori de ce blog, Kaiser Fung nous a fait un topo sur le sujet il y a quelques temps. Lorsque l’on étudie un ensemble de données, la simple moyenne des nombres est assez fiable tant que la dispersion des nombres n’est pas trop asymétrique , c’est-à-dire tant qu’il n’y a pas de pic ni de groupe important en queue.

Mais, comme le souligne Fung, lorsque ce n’est pas le cas, la moyenne donne des incohérences, comme c’est le cas de l’ensemble de données hypothétique suivant portant sur le nombre de fuites de données sur deux ans :

Société Nombre de fuites de données (2015) Nombre de fuites de données (2016)
1 100 150
2 200 400
3 150 300
4 225 250
5 75 100
6 1000 1200
7 1500 1000
8 8000 1000
9 300 400
10 175 500
Moyenne 1172 530

Pour 2015, la moyenne est de 1172 alors que le nombre de fuites enregistré par sept des dix entreprises n’atteint même pas le quart de ce chiffre ! Et si l’on compare cette moyenne à celle de l’année suivante, de 530, on pourrait en conclure à tort que le nombre de fuites est en baisse.

Pourquoi ? Si l’on regarde de plus près les chiffres de ces sept entreprises, on peut constater que le nombre de fuites est en augmentation pour la totalité d’entre elles.

C’est généralement là que l’on en vient à parler de la distribution des nombres d’un ensemble de données, et du fait que la médiane, qui permet de couper l’ensemble des valeurs en deux parties égales, constitue une meilleure représentation qu’une moyenne, en particulier lorsque les ensembles de données sont asymétriques. Kaiser explique cela très bien.

Ceux qui veulent avoir un avant goût du prochain billet de cette série peuvent lire cet article, qui possède le titre le plus intéressant de tout ce que j’ai pu lire sur le sujet, Sex, Lies and Cyber-crime Surveys. Il a été écrit par ces fous de chez Microsoft. Si vous ne voulez pas le lire, voici l’idée : si les données sont asymétriques, l’important est d’analyser comment chaque percentile contribue à la moyenne globale.

L’approxi-esti-mation du coût des fuites de données

Comment Ponemon détermine-t-il le coût d’une fuite de données ? Généralement, ces informations ne sont pas facilement accessibles. Toutefois, on commence à voir figurer ces coûts dans les rapports annuels des entreprises publiques.

Mais dans le cas des entreprises privées et publiques qui n’indiquent pas les coûts des fuites dans leurs rapports financiers publics, il faut faire preuve de plus de créativité pour faire parler les chiffres.

Ponemon interroge les entreprises et leur demande d’estimer les coûts associés aux activités généralement induites par une fuite, telles que les frais d’audit et de conseil, des dépenses juridiques et coûts de protection de l’identité. Ponemon classe ensuite les coûts selon qu’ils sont directs (par exemple, surveillance du crédit), ou indirects ou d’opportunité, comme c’est le cas des heures supplémentaires des employés ou de la perte d’activité potentielle.

D’après son étude de 2015, il s’avère que ces coûts indirects représentent environ 40 % du coût moyen d’une fuite. Ces coûts ont une signification, mais ils ne représentent pas vraiment des coûts comptables. Nous y reviendrons prochainement.

Récemment, d’autres chercheurs ont pu réaliser une estimation bien plus précise des coûts directs des fuites en examinant les déclarations de cybercrimes auprès des assurances. Des entreprises telles qu’Advisen et NetDiligence ont en leur possession ces données sur les indemnisations par les assurances et les communiquent volontiers.

Le marché des assurances contre le cybercrime n’est pas encore arrivé à maturité et le montant des dédommagements après déductions et frais divers ne correspond pas au coût direct total de la fuite. Toutefois, on dispose pour la première fois d’une preuve des coûts directs.

Quoi qu’il en soit, la sympathique équipe de RAND — oui, on parle bien de l’entreprise à l’origine de ces travaux — a utilisé ces ensembles de données pour estimer de manière approximative que le coût moyen d’une fuite par incident s’élève à environ 6 millions de dollars – ces intellos peuvent revoir leur copie. Ce montant talonne de près les 6,5 millions de dollars par incident estimés à peu près à la même période par Ponemon.

cout par incidents fuite de données

Coût par incident d’après les déclarations auprès des sociétés d’assurance. Au passage, notez les valeurs maximales ! (Source : RAND)

Avant que vous ne vous mettiez à crier devant votre navigateur, je me rends compte que j’ai utilisé une moyenne, plus haut, pour estimer un ensemble de données très asymétrique (et à queue lourde, comme nous le verrons aussi).

En tout cas, plusieurs études, y compris celle de RAND, ont examiné les coûts par incident plutôt que les coûts par enregistrement. À un moment donné, l’équipe de Verizon DBIR a elle aussi commencé à réduire l’importance du nombre d’enregistrements exposés, réalisant qu’il est difficile d’obtenir des chiffres fiables à partir de leurs propres données d’analyse.

Dans le rapport de 2015 de DBIR, celui dans lequel l’organisation a annoncé le fameux coût de 0,58 $ par enregistrement, les chercheurs ont utilisé pour la première fois un ensemble de données fourni par NetDiligence et provenant des déclarations effectuées aux assureurs.

Je me contenterai de dire que le ratio du coût moyen calculé par DBIR est très fortement influencé par les nombres faramineux d’enregistrements piratés de quelques-unes des entreprises (de l’ordre de plusieurs millions) du côté du dénominateur, et par le montant plus modeste des indemnisations par les assurances, du côté du numérateur. Comme nous avons pu le voir dans l’exemple imaginaire ci-dessus, la moyenne n’est pas très parlante dans ce cas.

Pourquoi ne pas utiliser plusieurs moyennes personnalisées sur différents intervalles de volumes de fuites ? J’espère que vous commencez à voir qu’il vaut beaucoup mieux segmenter les données de coût en fonction du nombre d’enregistrements : il vous suffit de regarder un tableau pour trouver les coûts applicables à votre cas. Verizon a fait quelque chose d’approchant dans le rapport DBIR de 2015, et a produit un tableau de données plus proche de la moyenne de Ponemon pour le niveau inférieur :

tableau de données

Bon, d’accord, il est possible que l’annonce très médiatisée de Verizon de 0,58 $ par enregistrement ne soit pas très exacte.

Compter le nombre d’enregistrements concernés par la fuite aide à mieux comprendre la situation, mais il faut également prendre en compte d’autres facteurs : le secteur d’activité de l’entreprise, les réglementations qui lui sont applicables, les coûts de protection du crédit pour les consommateurs et la taille de l’entreprise. À titre d’exemple, regardez ce calculateur de coût d’une fuite, basé sur les données de Ponemon.

La pensée linéaire et ses limites

Vous comprenez sans mal pourquoi le coût moyen d’une fuite en fonction du nombre d’enregistrements a autant de succès : il permet de connaître rapidement mais de manière non fiable le coût total d’une fuite donnée.

Pour arriver à un coût moyen de 201 $ par enregistrement, Ponemon a tout simplement ajouté les coûts (directs et indirects) issus de son enquête pour diviser ensuite le total par le nombre d’enregistrements concernés par la fuite, tel qu’indiqué par les entreprises.

C’est peut-être une méthode de calcul bien pratique, mais elle n’est pas très pertinente pour faire des prévisions. J’en viens tout doucement aux régressions linéaires, qui offrent un moyen de tirer une « bonne » ligne droite sur tout l’ensemble de données.

Les intellos peuvent lire le super article de Jay Jacobs dans son blog intitulé Data Driven Security. Il montre une régression linéaire qui l’emporte sur la droite simple de Ponemon avec sa pente de 201 — au passage, il avait directement accès aux résultats de l’étude Ponemon. La régression linéaire de Jacob atteint 103 $, un montant que l’on peut interpréter comme étant le coût marginal d’un enregistrement supplémentaire piraté. Mais même ce modèle de régression manque de précision.

Je terminerai ce billet par la réflexion suivante : on voudrait bien que le monde soit linéaire, mais ce n’est pas comme cela qu’il fonctionne.

Pourquoi les coûts des fuites augmenteraient-ils d’un montant fixe pour chaque enregistrement supplémentaire volé ? Et, tant qu’on y est, pourquoi partons-nous du principe que 10 % des entreprises ayant participé à une enquête contribueront à 10 % du coût total, que les 10 % suivants ajouteront encore 10 % au coût, et ainsi de suite ?

Bien sûr, lorsqu’il s’agit de rembourser les coûts de surveillance du crédit des clients et de remplacer les cartes de crédit réémises par des sociétés de carte de crédit chicanières, les coûts s’accumulent sur la base de chaque enregistrement supplémentaire volé.

D’un autre côté, je ne connais pas beaucoup d’avocats, conseillers en sécurité, développeurs ou testeurs d’intrusions qui disent à leurs nouveaux clients « pour que nous puissions analyser ou réparer votre fuite, il vous en coûtera 50 $ par enregistrement ».

Jacobs a trouvé un modèle non-linéaire plus pertinent — techniquement, il s’agit d’un modèle log-linéaire, c’est-à-dire une façon qui en jette de dire que la variable du nombre d’enregistrements contient un exposant. Dans le graphique ci-dessous (merci Wolfram Alpha !), j’ai comparé la droite simplette de Ponemon au modèle plus sophistiqué de Jacobs. Vous pouvez vous contenter de constater l’écart ou cliquer ici pour faire vos propres calculs.

estimation linéaire cout fuite des données

Le grand écart : estimations linéaire / non linéaire du coût des fuites de données.

Je vous félicite d’être arrivé jusqu’ici !

J’espère que ces informations de fond vous seront utiles lorsque vous lirez mon prochain billet, dans lequel j’essaierai d’établir un lien entre ces idées et une façon plus nuancée de comprendre le coût des fuites de données.