[box type= »info » ]Article inspiré et rédigé à la suite de la conférence « Le Big data est-il l’avenir du journalisme ? » le 22 octobre 2015.[/box]

Le Big Data s’installe désormais dans le paysage des solutions de traitements de données massives. Grâce à la maîtrise de ces informations et données, les Big Data permettent effectivement d’optimiser les performances opérationnelles d’une entreprise et/ou de renforcer ses propositions de valeurs et ses avantages concurrentiels.

Collecte des données

La collecte des données est quotidienne. En effet, tous les jours nous donnons des informations sur nos préférences, nos déplacements, nos performances sportives, nos goûts, etc. Par exemple, lors des déplacements en transports en communs nous donnons les informations de notre trajet à la RATP ou la SNCF. A quoi servent ces données ? Comment les exploitent-ils ? Ces questions sont très fréquentes. Dans cet exemple, ils utilisent en partie ces données pour gérer les flux de personnes, la fréquence des transports afin d’optimiser notre trajet.

Les métadonnées sont les informations qui entourent la donnée. Par exemple, dans le cas d’un e-mail, le contenu est la donnée et l’expéditeur, la date d’envoi, le correspondant sont les métadonnées. De même pour les smartphones, ils récoltent de nombreuses informations comme notre géolocalisation, etc. Certains opérateurs revendent ces données afin d’en définir des cibles ou encore d’en faire des statistiques.

Ils y a donc de nombreuses sources d’informations. Notamment sur Twitter où les tweets sont récupérés par les robots. Les robots ? Mais quels robots ? Les robots de Google, qui ne sont que des algorithmes analysant les sites internet pour prendre ces informations.

Quelques exemples concernant la collecte de données :

Strava : réseau social dédié aux athlètes

Strava est une application permettant d’enregistrer ses performances lors d’activité physique comme le vélo ou la course à pied. C’est aussi un réseau social de cycliste. Par exemple, dans le cas des cyclistes, leurs performances sont enregistrées. Ces données sont tout aussi intéressantes pour l’utilisateur que pour les villes. Ils pourront donc savoir le trafic des vélos, la fréquence, et les lieux d’utilisations.

NetFlix : la vidéo à la demande

Dans le cas de Netflix, un algorithme enregistre l’historique des films visionnés, nos préférences, etc. Le but étant de nous recommander des films intéressants pour nous. Ils vendent de plus en plus ces informations à des grosses entreprises dans le but de nous proposer des contenus adaptés (Facebook/Amazon).

Assurances

« Si l’on paye moins chère c’est qu’il trouve l’argent autre part ».

Par exemple certaines assurances proposent l’intégration d’un boîtier GPS aux véhicules de leurs clients. Le but étant de récolter des informations sur nos déplacements (petit ou long trajet, type de routes, fréquence). Toutes ces informations sont stockées dans des bases de données.

Pôle Emploi

Pôle Emploi vérifie les adresses IP afin d’éviter les fraudeurs. En effet, chaque année les personnes en recherche d’emploi doivent réactualiser leur profil. Cependant, il y a certaines conditions, comme le fait de se trouver dans le pays où l’on touche le chômage. Avec l’adresse IP nous sommes localisés. Attention tout de même aux utilisateurs de VPN et/ou de Proxy. De plus, l’intérêt est de croiser ces données avec la base de données de banques ou des allocations afin d’avoir d’identifier avec précision les fraudeurs.

Données : quels risques et problématiques?

Les données récoltées sont stockées sur des bases de données plus ou moins sécurisées. L’ensemble des données laissées sur internet ne sont pas supprimables. La seule possibilité est qu’elles ne soient plus référencées. Ne sachant pas l’exacte exploitation de ces informations, il faut donc avoir une confiance des sites, applications ou systèmes à qui nous communiquons ces données.

Compte tenu de l’importance de cette masse d’informations stockée, les bases de données sont souvent la cible d’attaques. Le CNIL est l’entreprise ayant pour objectif de veiller à l’anonymat et à la protection de ces données. C’est pour cela qu’elle s’intéresse de très près aux bases de données des utilisateurs français.

Les bases de données à elles seules ne contiennent pas forcément d’informations très précises mais lorsqu’on les croise avec d’autres bases de données, cela peut très vite devenir très intéressant et en ressortir avec des profils ciblés et ultra pertinents. Les croisements sont aussi règlementer par la CNIL.