Big Data : traiter les données efficacement et à moindre coût

14.09.2015

Réseaux sociaux, sites e-commerce, applications bancaires, les données générées par le Web sont extrêmement nombreuses et totalement hétéroclites. Les méthodes informatiques traditionnelles doivent être adaptées afin d’assurer une analyse performante. Les travaux de Dario Colazzo, professeur à l’Université Paris-Dauphine et chercheur au LAMSADE, s’inscrivent dans ce contexte et ont pour but de définir des outils appropriés à l’environnement du big data.

Le chercheur a mêlé la technologie du cloud (1), qui permet d’utiliser à distance plusieurs ordinateurs simultanément, aux stratégies d’indexation. Semblables aux index des livres, qui recensent pour chaque mot clé l’ensemble des entrées possibles, les index informatiques catégorisent et classent les données afin de faciliter leur traitement. Plusieurs stratégies, plus ou moins sophistiquées, ont ainsi été définies.

L’auteur a ensuite développé un mode de coût monétaire afin d’estimer les frais engendrés par le stockage des données et l’exécution d’une requête. Un tel modèle permet d’évaluer le coût de traitement de l’information par le cloud et d’opter pour la stratégie d’indexation la plus adaptée. Une manière de trouver le meilleur "rapport qualité/prix" en quelque sorte…

 


(1) Le cloud computing est la forme la plus évoluée d’externalisation, dans laquelle le client ou l’utilisateur dispose d’un service en ligne dont l’administration et la gestion opérationnelle sont effectuées par un sous-traitant. Le cloud se caractérise également par une facturation à la demande et une disponibilité quasi-immédiate des ressources. Source CNIL


Lire le magazine Dauphine Recherches n°18