Le Big Data

Le « Big Data » est une expression marketing anglophone à la mode signifiant « Grosses données », et qui a comme ambition, la capture, le stockage, la recherche, l’analyse et la visualisation des données.

Pour faire court et dresser le tableau, le « big data » est considéré par certains experts comme l’un des grands défis informatiques de la décennie 2010 – 2020.

Il est régit par la règle dite des 3 « V » (Le Volume pour la croissance permanente des données, la Vitesse de collecte, d’analyse et d’utilisation des données en temps réel, et la Variété en rapport avec le format hétérogène des données et des formats).

V comme « Volume »

Pouvoir traiter un nombre de données numériques très importantes (en temps réel), et les analyser très rapidement afin d’en tirer du sens demeure la nature première du « Big data ». Très bien, mais pourquoi faire ?

Il faut savoir que le volume des données stockées aujourd’hui dans le monde est en plein expansion. Apparemment, les données numériques mondiales (selon une étude de IDC) annuelles seraient passées de 1.2 zettaoctets (Zo=1021) en 2010, à 2.8 zettaoctets en 2012. Pour information et comparaison, Twitter génère 7 téraoctets (To=1012) de données par jour contre 10 pour Facebook , et dans le même temps, le projet de radiotélescope « Square Kilomètre Array », produira lui, 50 téraoctets de données analysées par jour.

V comme « Variété »

Le « Big data » s’appuie sur l’analyse en temps réel des fichiers « semi structurés » ou « non structurés » (90% des données) qui proviennent la plupart des fichiers de logs de sites web, des smartphones (géolocalisation, etc.), et des données de web analytics. Tout cela fait appel à de nombreux et puissants algorithmes de calcul, et à des technologies particulières comme « NoSQL », « Grid computing », etc.).

V comme « Vélocité »

L’énorme challenge du « big data », est de pouvoir générer, capturer et partager en TEMPS REEL toutes ces données hétérogènes. Pouvoir répondre au flux croissant, tel est le dilemme des programmeurs et mathématiciens qui pensent et inventent des modèles informatiques susceptibles de répondre au besoin.

Le Big data et le Marketing

Pour les e-commerçants, le « Big data », c’est avant tout, le moyen de mieux connaitre leurs clients, et ainsi de permettre la mise en place d’actions marketing adaptées en temps réel. C’est « donner du sens » aux actions marketing car basé sur l’analyse des données utilisateurs. La complexité de cette analyse tient de sa capacité à utiliser uniquement les « bonnes données », puis de classer celles-ci par ordre d’importance. Sans ce tri salvateur, le big data n’a aucune utilité possible.

La taille de ce marché va ouvrir des postes dédiés dans les grosses entreprises, ces postes pourront être associés avec le DSI (Système d’informations). La croissance de ce secteur est évalué à 31.7% / an, de quoi faire rêver plus d’un économiste actuel.

Daniel Kaplan, délégué général de la FING pose cette question au sujet du concept « Big data » : « …dés fois pour essayer de comprendre ce que quelqu’un veut, est-ce qu’il ne vaut mieux pas lui parler et l’écouter simplement ? »

La question qui se cache derrière cela, c’est est-ce que le « big data » ne serait pas le dernier moyen qu’auraient trouvé les entreprises pour ne pas parler à leurs clients ?

Gilles Babinet, membre du conseil National du numérique, précise qu’aux états unis, d’ici seulement 4 ans, il manquera environ 200 000 « data scientistes » sans parler des métiers autour. Il y a donc un impacte économique important autour du big data, et plus particulièrement travers la création de nouveaux métiers comme le « data scientiste » justement, qui est quelqu’un qui comprend tous les enjeux, mais également à travers l’utilisation de sous disciplines comme celles de statisticiens ou de programmeurs. Travailleront également pour la data, certaines personnes qui font des sciences politiques, de la sociologie, de la sémantique, de la linguistique et du design (pour la data visualisation). Selon Gilles Babinet, la France a de nombreux atouts à jouer, surtout grâce à son expertise en mathématique et en design.

Paul-Olivier Gibert, président de l’AFCDP nous invite à nous poser des questions sur l’impacte du big data sur la protection de la vie privée mais également sur la protection des droits et libertés fondamentales. Si pour cadrer le big data, la loi « informatique et liberté » doit être un cadre de référence, il faut tout de même se poser des questions sur une révision de cette dernière, sachant que la base de sa création doit avoir une quarantaine d’année.

Jean-Francois Marcotorchino, VP, Scientific Director, Thales Division DSC, Thales Fellow, tire la sonnette d’alarme au sujet des qualités autour de cette technologie. Selon lui, nous avons besoin de gens qui connaissent les bdd et qui savent travailler sur les index, et dans le même temps, de gens qui savent donner de la valeur ajoutée aux informations. Cette double compétence d’architecture et statistique ne se trouve pas sur le marché aujourd’hui, hors, il y a de nombreux projets qui arrivent, entre l’astronomie, le transport, la santé, la cyber sécurité, etc. Beaucoup de sujets relèvent du big data et sont prises en compte par des gens qui ont partiellement ces compétences, c'est-à-dire qu’ils ont soit la connaissance des bases de données, soit de l’exploitation de ces données, mais peu ont les deux à la fois.

Chahab Nastar, VP Advanced Development, SAP apporte un éclaicissement sur les bdd. Il précise que les architectures de systèmes d’informations n’ont pas subi de transformations depuis environ 30 ans. SAP a donc réfléchi sur de nouvelles architectures de base de données ou les données tiendraient en mémoire dans le but de pouvoir conserver toutes les données d’une entreprise, des terabytes de données en mémoire vive, le disque lui n’étant qu’un back up. Monsieur Chahab Nastar, précise que son équipe de chercheurs travaille surtout sur l’analyse en temps réel des données, ce qui est pour lui le défi à venir.

En conclusion

Effectivement, le big data semble être la nouvelle ruée vers l’or, mais il est vrai que derrière cela et à travers la perspective de l’intérêt marketing, 2 idées viennent à l’esprit.

Derrière l’analyse en temps réel, se trame évidemment, via les statistiques, l’analyse du « futur ». Sous peu, l’objectif va être de nous attendre à l’endroit ou nous devrions statistiquement aller, car une fois que les analystes vont savoir en temps réel ce que nous pensons, en tout cas, ce que nous désirons, il sera facile de comparer l’évolution des comportements passés, et à travers des statistiques intéressantes liées à notre niveau socioculturel, notre histoire, etc., de nous proposer à l’avance, puis au bon moment, le produit que nous désirons.
Bientôt notre ordinateur saura prédire nos désirs et nos comportements avant que nous n’en n’ayons conscience nous même. Il sera capable de nous proposer notre tasse de café juste au moment ou nous voudrons en prendre une. L’ORACLE deviendra donc l’ordinateur du futur, et derrière l’ORACLE non pas le Big Data, mais vous me voyez venir, le BIG Brother of course, cqfd...

Une belle Révolution à venir … !