Par Rob Sobers
De nombreuses entreprises entrent dans le monde des Big Data ou accolent le label Big Data à leurs produits dans le seul but de surfer sur la vague, que ce soit justifié ou non. Cet article a pour but d’éclaircir le concept des Big Data et, surtout, faire la part des choses entre la substance et le battage publicitaire.
1. Les Big Data sont des données distribuées
Le terme Big Data connait de nombreuses définitions. L’essentiel est de retenir que, de nos jours, les Big Data sont des données distribuées. Cela signifie que les données sont si grosses qu’elles ne peuvent pas être stockées ou traitées sur un seul nœud.
Il est loin le temps où une entreprise achetait un seul gros serveur chez IBM ou Sun pour répondre à l’ensemble de ses besoins. Il a été démontré par Google, Amazon, Facebook ou d’autres entreprises que la façon de s’adapter rapidement et à moindre coût est d’utiliser du matériel basique afin de repartir le stockage et le traitement des flux de données massifs sur plusieurs nœuds, en ajoutant et supprimant des nœuds en fonction des besoins.
2. Vous allez entendre parler de « Hadoop » et « MapReduce »
Qu’est-ce que Hadoop? Il s’agit d’une plate-forme open source pour la consolidation, la combinaison et la compréhension de données à grande échelle afin de prendre de meilleures décisions. Hadoop est la technologie utilisée par de nombreuses infrastructures d’analyse des Big Data (mais pas toutes).
Il y a 2 éléments essentiels dans Hadoop:
- HDFS (Hadoop Distributed File System) qui vous permet de stocker des données sur plusieurs nœuds.
- MapReduce qui vous permet de traiter les données en parallèle sur plusieurs nœuds.
Bien que Hadoop soit la solution la plus populaire pour analyser les Big Data, il en existe d’autres. Les Big Data ne peuvent pas se résumer à une technologie. La caractéristique importante est de pouvoir tirer des enseignements à partir d’une grande quantité de données, indépendamment de la technologie utilisée.
3. Vous pouvez comprendre MapReduce sans diplôme de Harvard
Voici une explication claire de MapReduce :
Nous souhaitons compter l’ensemble des livres d’une bibliothèque. Vous comptez ceux de l’étagère 1, je compte ceux de l’étagère 2. C’est la fonction Map. Nous rassemblons ensuite nos résultats. C’est l’opération Reduce.
Pour une meilleure compréhension, Wikipedia est un bon endroit pour commencer.
4. La création de données distribuées alimente la croissance des Big Data
La raison pour laquelle nous avons besoin d’architectures informatiques distribuées à grande échelle vient du fait que les données sont elles aussi distribuées et à grande échelle. Nous transportons de nombreux appareils qui diffusent en continue diverse sortes de données sur le cloud et au delà – nos photos, nos tweets, nos statuts, nos connexions et même notre rythme cardiaque.
Pour chaque donnée générée par l’utilisateur, l’ordinateur créée d’autres données. Et puis il y a les métadonnées. Ces données sont nombreuses et peuvent s’avérer très utiles.
5. Le Machine Learning est…impressionnant!
L’un des principaux points de comparaison entre les différents outils d’analyse des Big Data est l’algorithme d’apprentissage automatique utilisé pour répondre aux questions intéressantes et tirer parti des 0 et des 1 que nous mâchons et recrachons.
Quelques exemples plutôt sympas :
- Nest – Le thermostat intelligent qui détermine votre température idéale en enregistrant intelligemment vos réglages.
- L’anti-spam Bayésien de Gmail – Il combine des observations en petit nombre pour en déduire que certains emails sont des spams. Plus d’emails tentant de prince nigérian !
- Les recommandations Amazon – Bien sûr, je vais prendre un livre sur le JavaScript, une paire d’Asics, et la saison 1 de Game of Thrones. Comment peuvent-ils me connaitre si bien!
- Les recommandations Varonis sur les contrôles d’accès – réduisez les accès en fonction d’analyses très précises sur l’utilisation des données.
Si vous souhaitez en apprendre davantage au sujet des Big Data, n’hésitez pas à parcourir notre blog.
The post 5 Choses A Savoir Sur Les Big Data appeared first on Varonis Français.
What you should do now
Below are three ways we can help you begin your journey to reducing data risk at your company:
- Schedule a demo session with us, where we can show you around, answer your questions, and help you see if Varonis is right for you.
- Download our free report and learn the risks associated with SaaS data exposure.
- Share this blog post with someone you know who'd enjoy reading it. Share it with them via email, LinkedIn, Reddit, or Facebook.
David Gibson
David Gibson a plus de 20 ans d'expérience dans les domaines de la technologie et du marketing. Il s'exprime fréquemment sur la cybersécurité et les meilleures pratiques technologiques lors de conférences sectorielles et a été cité dans le New York Times, USA Today, The Washington Post et de nombreuses sources d'information sur la sécurité.